ch-mi-7 / trainer_state.json

Upload 6 files

b244b0e over 1 year ago

47.9 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.998639455782313,
	"eval_steps": 20,
	"global_step": 367,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"learning_rate": 2e-05,
	"loss": 1.264,
	"step": 1
	},
	{
	"epoch": 0.01,
	"learning_rate": 4e-05,
	"loss": 0.9796,
	"step": 2
	},
	{
	"epoch": 0.01,
	"learning_rate": 6e-05,
	"loss": 0.9343,
	"step": 3
	},
	{
	"epoch": 0.01,
	"learning_rate": 8e-05,
	"loss": 1.165,
	"step": 4
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0001,
	"loss": 1.1233,
	"step": 5
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.00012,
	"loss": 0.9889,
	"step": 6
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.00014,
	"loss": 0.9492,
	"step": 7
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.00016,
	"loss": 1.1725,
	"step": 8
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.00018,
	"loss": 0.9987,
	"step": 9
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0002,
	"loss": 1.0273,
	"step": 10
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0001999961280430958,
	"loss": 0.9883,
	"step": 11
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.00019998451247222416,
	"loss": 0.8587,
	"step": 12
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0001999651541868849,
	"loss": 0.9096,
	"step": 13
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.00019993805468616693,
	"loss": 1.0186,
	"step": 14
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.00019990321606863225,
	"loss": 0.9402,
	"step": 15
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.00019986064103215339,
	"loss": 0.927,
	"step": 16
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.00019981033287370443,
	"loss": 0.935,
	"step": 17
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.00019975229548910582,
	"loss": 0.9498,
	"step": 18
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.00019968653337272261,
	"loss": 1.0335,
	"step": 19
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0001996130516171164,
	"loss": 0.8899,
	"step": 20
	},
	{
	"epoch": 0.05,
	"eval_loss": 1.3891513347625732,
	"eval_runtime": 119.0073,
	"eval_samples_per_second": 3.706,
	"eval_steps_per_second": 1.857,
	"step": 20
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.00019953185591265103,
	"loss": 0.8179,
	"step": 21
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.00019944295254705185,
	"loss": 1.1169,
	"step": 22
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.00019934634840491886,
	"loss": 0.9125,
	"step": 23
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0001992420509671936,
	"loss": 0.9177,
	"step": 24
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.00019913006831057969,
	"loss": 0.8608,
	"step": 25
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0001990104091069176,
	"loss": 0.7755,
	"step": 26
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.00019888308262251285,
	"loss": 1.0967,
	"step": 27
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.00019874809871741876,
	"loss": 0.9759,
	"step": 28
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.00019860546784467248,
	"loss": 0.9605,
	"step": 29
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.00019845520104948592,
	"loss": 1.0065,
	"step": 30
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0001982973099683902,
	"loss": 0.9643,
	"step": 31
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.00019813180682833447,
	"loss": 0.9065,
	"step": 32
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.00019795870444573935,
	"loss": 1.1212,
	"step": 33
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.00019777801622550408,
	"loss": 0.8759,
	"step": 34
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.00019758975615996873,
	"loss": 0.8474,
	"step": 35
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.00019739393882783047,
	"loss": 0.9243,
	"step": 36
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.00019719057939301477,
	"loss": 0.9369,
	"step": 37
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.00019697969360350098,
	"loss": 1.0376,
	"step": 38
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.00019676129779010282,
	"loss": 0.8972,
	"step": 39
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.00019653540886520386,
	"loss": 0.8402,
	"step": 40
	},
	{
	"epoch": 0.11,
	"eval_loss": 1.3678525686264038,
	"eval_runtime": 119.0464,
	"eval_samples_per_second": 3.704,
	"eval_steps_per_second": 1.856,
	"step": 40
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0001963020443214478,
	"loss": 0.8425,
	"step": 41
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.00019606122223038376,
	"loss": 0.9518,
	"step": 42
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0001958129612410668,
	"loss": 1.0741,
	"step": 43
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0001955572805786141,
	"loss": 0.9275,
	"step": 44
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.00019529420004271567,
	"loss": 1.049,
	"step": 45
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.00019502374000610151,
	"loss": 0.974,
	"step": 46
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.00019474592141296372,
	"loss": 0.856,
	"step": 47
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.00019446076577733475,
	"loss": 1.1511,
	"step": 48
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.00019416829518142118,
	"loss": 0.8645,
	"step": 49
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0001938685322738939,
	"loss": 0.9042,
	"step": 50
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.00019356150026813405,
	"loss": 0.914,
	"step": 51
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.00019324722294043558,
	"loss": 1.1324,
	"step": 52
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.00019292572462816388,
	"loss": 0.8499,
	"step": 53
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.0001925970302278711,
	"loss": 1.0545,
	"step": 54
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.0001922611651933683,
	"loss": 0.8526,
	"step": 55
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.00019191815553375427,
	"loss": 0.909,
	"step": 56
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.0001915680278114014,
	"loss": 1.0598,
	"step": 57
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.0001912108091398988,
	"loss": 0.8763,
	"step": 58
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.00019084652718195238,
	"loss": 0.905,
	"step": 59
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.00019047521014724304,
	"loss": 0.9795,
	"step": 60
	},
	{
	"epoch": 0.16,
	"eval_loss": 1.3594976663589478,
	"eval_runtime": 119.047,
	"eval_samples_per_second": 3.704,
	"eval_steps_per_second": 1.856,
	"step": 60
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0001900968867902419,
	"loss": 0.8955,
	"step": 61
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.00018971158640798368,
	"loss": 0.9148,
	"step": 62
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.00018931933883779785,
	"loss": 1.0147,
	"step": 63
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0001889201744549981,
	"loss": 0.9123,
	"step": 64
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.0001885141241705303,
	"loss": 0.7681,
	"step": 65
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.00018810121942857845,
	"loss": 0.8203,
	"step": 66
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.0001876814922041299,
	"loss": 0.9618,
	"step": 67
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.00018725497500049907,
	"loss": 0.9399,
	"step": 68
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.00018682170084681065,
	"loss": 1.0265,
	"step": 69
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.00018638170329544164,
	"loss": 1.0596,
	"step": 70
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.00018593501641942317,
	"loss": 1.2212,
	"step": 71
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.00018548167480980193,
	"loss": 1.0959,
	"step": 72
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.00018502171357296144,
	"loss": 0.7914,
	"step": 73
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.00018455516832790338,
	"loss": 0.9506,
	"step": 74
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.00018408207520348942,
	"loss": 0.8409,
	"step": 75
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.00018360247083564342,
	"loss": 0.9833,
	"step": 76
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.00018311639236451416,
	"loss": 1.0708,
	"step": 77
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.0001826238774315995,
	"loss": 0.9121,
	"step": 78
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.00018212496417683137,
	"loss": 0.9433,
	"step": 79
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.0001816196912356222,
	"loss": 0.8529,
	"step": 80
	},
	{
	"epoch": 0.22,
	"eval_loss": 1.3516823053359985,
	"eval_runtime": 119.0215,
	"eval_samples_per_second": 3.705,
	"eval_steps_per_second": 1.857,
	"step": 80
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.000181108097735873,
	"loss": 0.9438,
	"step": 81
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.0001805902232949435,
	"loss": 0.9375,
	"step": 82
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.000180066108016584,
	"loss": 0.9696,
	"step": 83
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.00017953579248782995,
	"loss": 0.8329,
	"step": 84
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.00017899931777585882,
	"loss": 0.9701,
	"step": 85
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.00017845672542480984,
	"loss": 0.9774,
	"step": 86
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.00017790805745256704,
	"loss": 0.8261,
	"step": 87
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.00017735335634750532,
	"loss": 1.021,
	"step": 88
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.00017679266506520012,
	"loss": 1.0482,
	"step": 89
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.00017622602702510105,
	"loss": 1.0097,
	"step": 90
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.0001756534861071696,
	"loss": 0.9386,
	"step": 91
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.00017507508664848094,
	"loss": 0.7935,
	"step": 92
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.0001744908734397906,
	"loss": 0.9367,
	"step": 93
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.00017390089172206592,
	"loss": 0.7777,
	"step": 94
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.00017330518718298264,
	"loss": 0.8662,
	"step": 95
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.0001727038059533868,
	"loss": 0.805,
	"step": 96
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.0001720967946037225,
	"loss": 1.0421,
	"step": 97
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.0001714842001404254,
	"loss": 1.0119,
	"step": 98
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.00017086607000228282,
	"loss": 0.9288,
	"step": 99
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.00017024245205675986,
	"loss": 1.0169,
	"step": 100
	},
	{
	"epoch": 0.27,
	"eval_loss": 1.344921588897705,
	"eval_runtime": 119.0551,
	"eval_samples_per_second": 3.704,
	"eval_steps_per_second": 1.856,
	"step": 100
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.0001696133945962927,
	"loss": 0.9399,
	"step": 101
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.00016897894633454886,
	"loss": 0.9817,
	"step": 102
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.00016833915640265484,
	"loss": 0.9042,
	"step": 103
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.00016769407434539168,
	"loss": 0.8495,
	"step": 104
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.0001670437501173578,
	"loss": 0.8376,
	"step": 105
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.00016638823407910084,
	"loss": 0.9603,
	"step": 106
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.00016572757699321791,
	"loss": 0.924,
	"step": 107
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.0001650618300204242,
	"loss": 0.7669,
	"step": 108
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.00016439104471559156,
	"loss": 0.8822,
	"step": 109
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.0001637152730237558,
	"loss": 0.9815,
	"step": 110
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.0001630345672760943,
	"loss": 1.0067,
	"step": 111
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.00016234898018587337,
	"loss": 0.9053,
	"step": 112
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.00016165856484436645,
	"loss": 0.8396,
	"step": 113
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.00016096337471674241,
	"loss": 0.9769,
	"step": 114
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.00016026346363792567,
	"loss": 0.8927,
	"step": 115
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.0001595588858084268,
	"loss": 0.9105,
	"step": 116
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.00015884969579014566,
	"loss": 0.8848,
	"step": 117
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.000158135948502146,
	"loss": 0.8636,
	"step": 118
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.0001574176992164026,
	"loss": 0.8177,
	"step": 119
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.00015669500355352116,
	"loss": 0.8777,
	"step": 120
	},
	{
	"epoch": 0.33,
	"eval_loss": 1.3403385877609253,
	"eval_runtime": 118.9836,
	"eval_samples_per_second": 3.706,
	"eval_steps_per_second": 1.857,
	"step": 120
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.0001559679174784308,
	"loss": 1.0621,
	"step": 121
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.0001552364972960506,
	"loss": 0.9647,
	"step": 122
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.00015450079964692896,
	"loss": 0.9974,
	"step": 123
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.00015376088150285773,
	"loss": 0.942,
	"step": 124
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.00015301680016246028,
	"loss": 0.927,
	"step": 125
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.0001522686132467543,
	"loss": 0.9022,
	"step": 126
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.0001515163786946896,
	"loss": 0.9001,
	"step": 127
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.0001507601547586616,
	"loss": 0.9224,
	"step": 128
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.00015000000000000001,
	"loss": 0.9607,
	"step": 129
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.00014923597328443422,
	"loss": 0.8044,
	"step": 130
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.00014846813377753456,
	"loss": 0.7944,
	"step": 131
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.00014769654094013058,
	"loss": 1.0154,
	"step": 132
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.00014692125452370663,
	"loss": 0.9003,
	"step": 133
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.00014614233456577454,
	"loss": 0.9419,
	"step": 134
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.00014535984138522442,
	"loss": 0.8798,
	"step": 135
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.00014457383557765386,
	"loss": 1.0318,
	"step": 136
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.000143784378010675,
	"loss": 0.9086,
	"step": 137
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.00014299152981920145,
	"loss": 0.9947,
	"step": 138
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.00014219535240071377,
	"loss": 0.9156,
	"step": 139
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.00014139590741050502,
	"loss": 0.8692,
	"step": 140
	},
	{
	"epoch": 0.38,
	"eval_loss": 1.3370156288146973,
	"eval_runtime": 119.006,
	"eval_samples_per_second": 3.706,
	"eval_steps_per_second": 1.857,
	"step": 140
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.0001405932567569062,
	"loss": 0.9393,
	"step": 141
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.00013978746259649209,
	"loss": 0.8703,
	"step": 142
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.00013897858732926793,
	"loss": 0.9319,
	"step": 143
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.00013816669359383726,
	"loss": 1.0655,
	"step": 144
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.00013735184426255117,
	"loss": 0.9344,
	"step": 145
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.00013653410243663952,
	"loss": 1.0119,
	"step": 146
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.0001357135314413245,
	"loss": 0.9353,
	"step": 147
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.0001348901948209167,
	"loss": 0.9807,
	"step": 148
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.00013406415633389438,
	"loss": 0.9972,
	"step": 149
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.00013323547994796597,
	"loss": 0.8184,
	"step": 150
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.0001324042298351166,
	"loss": 0.9096,
	"step": 151
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.00013157047036663853,
	"loss": 0.7666,
	"step": 152
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.0001307342661081463,
	"loss": 0.9412,
	"step": 153
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.00012989568181457704,
	"loss": 0.7595,
	"step": 154
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.00012905478242517562,
	"loss": 0.8968,
	"step": 155
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.00012821163305846596,
	"loss": 0.8976,
	"step": 156
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.0001273662990072083,
	"loss": 0.8512,
	"step": 157
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.00012651884573334297,
	"loss": 0.9215,
	"step": 158
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.00012566933886292106,
	"loss": 0.828,
	"step": 159
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.00012481784418102242,
	"loss": 0.8962,
	"step": 160
	},
	{
	"epoch": 0.44,
	"eval_loss": 1.3367716073989868,
	"eval_runtime": 118.9758,
	"eval_samples_per_second": 3.707,
	"eval_steps_per_second": 1.858,
	"step": 160
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.00012396442762666128,
	"loss": 0.8564,
	"step": 161
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.00012310915528768,
	"loss": 0.8648,
	"step": 162
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.00012225209339563145,
	"loss": 0.9122,
	"step": 163
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.00012139330832064974,
	"loss": 0.8912,
	"step": 164
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.00012053286656631093,
	"loss": 0.8872,
	"step": 165
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.00011967083476448282,
	"loss": 0.8292,
	"step": 166
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.00011880727967016514,
	"loss": 0.858,
	"step": 167
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.00011794226815632012,
	"loss": 0.8548,
	"step": 168
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.00011707586720869374,
	"loss": 0.8587,
	"step": 169
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.00011620814392062873,
	"loss": 1.0234,
	"step": 170
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.00011533916548786857,
	"loss": 0.9115,
	"step": 171
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.00011446899920335405,
	"loss": 1.0819,
	"step": 172
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.00011359771245201232,
	"loss": 0.8818,
	"step": 173
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.00011272537270553836,
	"loss": 0.8352,
	"step": 174
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.00011185204751717029,
	"loss": 0.8977,
	"step": 175
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.00011097780451645792,
	"loss": 0.855,
	"step": 176
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.00011010271140402579,
	"loss": 0.7944,
	"step": 177
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.00010922683594633021,
	"loss": 0.9017,
	"step": 178
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.0001083502459704117,
	"loss": 0.7825,
	"step": 179
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.00010747300935864243,
	"loss": 0.7996,
	"step": 180
	},
	{
	"epoch": 0.49,
	"eval_loss": 1.3361833095550537,
	"eval_runtime": 119.0783,
	"eval_samples_per_second": 3.703,
	"eval_steps_per_second": 1.856,
	"step": 180
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.00010659519404346954,
	"loss": 0.9062,
	"step": 181
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.00010571686800215444,
	"loss": 0.7366,
	"step": 182
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.00010483809925150869,
	"loss": 0.7322,
	"step": 183
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.00010395895584262696,
	"loss": 0.7953,
	"step": 184
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.00010307950585561706,
	"loss": 0.848,
	"step": 185
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.00010219981739432795,
	"loss": 1.0637,
	"step": 186
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.00010131995858107591,
	"loss": 0.8968,
	"step": 187
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.00010043999755136904,
	"loss": 1.0545,
	"step": 188
	},
	{
	"epoch": 0.51,
	"learning_rate": 9.9560002448631e-05,
	"loss": 0.9912,
	"step": 189
	},
	{
	"epoch": 0.52,
	"learning_rate": 9.868004141892411e-05,
	"loss": 0.8248,
	"step": 190
	},
	{
	"epoch": 0.52,
	"learning_rate": 9.780018260567207e-05,
	"loss": 0.9459,
	"step": 191
	},
	{
	"epoch": 0.52,
	"learning_rate": 9.692049414438299e-05,
	"loss": 0.8605,
	"step": 192
	},
	{
	"epoch": 0.53,
	"learning_rate": 9.604104415737308e-05,
	"loss": 0.8436,
	"step": 193
	},
	{
	"epoch": 0.53,
	"learning_rate": 9.516190074849134e-05,
	"loss": 0.9136,
	"step": 194
	},
	{
	"epoch": 0.53,
	"learning_rate": 9.428313199784556e-05,
	"loss": 1.0565,
	"step": 195
	},
	{
	"epoch": 0.53,
	"learning_rate": 9.340480595653047e-05,
	"loss": 0.9397,
	"step": 196
	},
	{
	"epoch": 0.54,
	"learning_rate": 9.252699064135758e-05,
	"loss": 0.9039,
	"step": 197
	},
	{
	"epoch": 0.54,
	"learning_rate": 9.164975402958834e-05,
	"loss": 0.9025,
	"step": 198
	},
	{
	"epoch": 0.54,
	"learning_rate": 9.077316405366981e-05,
	"loss": 1.0392,
	"step": 199
	},
	{
	"epoch": 0.54,
	"learning_rate": 8.989728859597424e-05,
	"loss": 0.8475,
	"step": 200
	},
	{
	"epoch": 0.54,
	"eval_loss": 1.3337310552597046,
	"eval_runtime": 119.0825,
	"eval_samples_per_second": 3.703,
	"eval_steps_per_second": 1.856,
	"step": 200
	},
	{
	"epoch": 0.55,
	"learning_rate": 8.902219548354209e-05,
	"loss": 1.0189,
	"step": 201
	},
	{
	"epoch": 0.55,
	"learning_rate": 8.814795248282974e-05,
	"loss": 0.9149,
	"step": 202
	},
	{
	"epoch": 0.55,
	"learning_rate": 8.727462729446167e-05,
	"loss": 0.8856,
	"step": 203
	},
	{
	"epoch": 0.56,
	"learning_rate": 8.640228754798773e-05,
	"loss": 0.8605,
	"step": 204
	},
	{
	"epoch": 0.56,
	"learning_rate": 8.553100079664598e-05,
	"loss": 0.9093,
	"step": 205
	},
	{
	"epoch": 0.56,
	"learning_rate": 8.466083451213144e-05,
	"loss": 0.8779,
	"step": 206
	},
	{
	"epoch": 0.56,
	"learning_rate": 8.379185607937126e-05,
	"loss": 0.9265,
	"step": 207
	},
	{
	"epoch": 0.57,
	"learning_rate": 8.292413279130624e-05,
	"loss": 1.049,
	"step": 208
	},
	{
	"epoch": 0.57,
	"learning_rate": 8.205773184367991e-05,
	"loss": 0.8172,
	"step": 209
	},
	{
	"epoch": 0.57,
	"learning_rate": 8.119272032983487e-05,
	"loss": 0.927,
	"step": 210
	},
	{
	"epoch": 0.57,
	"learning_rate": 8.03291652355172e-05,
	"loss": 1.0608,
	"step": 211
	},
	{
	"epoch": 0.58,
	"learning_rate": 7.94671334336891e-05,
	"loss": 0.8668,
	"step": 212
	},
	{
	"epoch": 0.58,
	"learning_rate": 7.860669167935028e-05,
	"loss": 0.9103,
	"step": 213
	},
	{
	"epoch": 0.58,
	"learning_rate": 7.774790660436858e-05,
	"loss": 0.8594,
	"step": 214
	},
	{
	"epoch": 0.59,
	"learning_rate": 7.689084471232001e-05,
	"loss": 0.8572,
	"step": 215
	},
	{
	"epoch": 0.59,
	"learning_rate": 7.603557237333877e-05,
	"loss": 0.956,
	"step": 216
	},
	{
	"epoch": 0.59,
	"learning_rate": 7.518215581897763e-05,
	"loss": 0.8796,
	"step": 217
	},
	{
	"epoch": 0.59,
	"learning_rate": 7.433066113707896e-05,
	"loss": 1.0585,
	"step": 218
	},
	{
	"epoch": 0.6,
	"learning_rate": 7.348115426665705e-05,
	"loss": 0.7626,
	"step": 219
	},
	{
	"epoch": 0.6,
	"learning_rate": 7.263370099279172e-05,
	"loss": 0.8566,
	"step": 220
	},
	{
	"epoch": 0.6,
	"eval_loss": 1.3307039737701416,
	"eval_runtime": 119.0797,
	"eval_samples_per_second": 3.703,
	"eval_steps_per_second": 1.856,
	"step": 220
	},
	{
	"epoch": 0.6,
	"learning_rate": 7.178836694153405e-05,
	"loss": 0.8049,
	"step": 221
	},
	{
	"epoch": 0.6,
	"learning_rate": 7.09452175748244e-05,
	"loss": 1.0561,
	"step": 222
	},
	{
	"epoch": 0.61,
	"learning_rate": 7.010431818542297e-05,
	"loss": 0.7266,
	"step": 223
	},
	{
	"epoch": 0.61,
	"learning_rate": 6.926573389185371e-05,
	"loss": 0.8773,
	"step": 224
	},
	{
	"epoch": 0.61,
	"learning_rate": 6.842952963336153e-05,
	"loss": 0.9103,
	"step": 225
	},
	{
	"epoch": 0.61,
	"learning_rate": 6.759577016488343e-05,
	"loss": 0.6977,
	"step": 226
	},
	{
	"epoch": 0.62,
	"learning_rate": 6.676452005203406e-05,
	"loss": 0.8085,
	"step": 227
	},
	{
	"epoch": 0.62,
	"learning_rate": 6.593584366610566e-05,
	"loss": 0.8944,
	"step": 228
	},
	{
	"epoch": 0.62,
	"learning_rate": 6.510980517908334e-05,
	"loss": 0.7846,
	"step": 229
	},
	{
	"epoch": 0.63,
	"learning_rate": 6.428646855867553e-05,
	"loss": 0.9049,
	"step": 230
	},
	{
	"epoch": 0.63,
	"learning_rate": 6.34658975633605e-05,
	"loss": 1.0148,
	"step": 231
	},
	{
	"epoch": 0.63,
	"learning_rate": 6.264815573744884e-05,
	"loss": 0.8781,
	"step": 232
	},
	{
	"epoch": 0.63,
	"learning_rate": 6.183330640616273e-05,
	"loss": 0.9242,
	"step": 233
	},
	{
	"epoch": 0.64,
	"learning_rate": 6.102141267073207e-05,
	"loss": 0.8635,
	"step": 234
	},
	{
	"epoch": 0.64,
	"learning_rate": 6.021253740350793e-05,
	"loss": 1.0117,
	"step": 235
	},
	{
	"epoch": 0.64,
	"learning_rate": 5.9406743243093807e-05,
	"loss": 0.9206,
	"step": 236
	},
	{
	"epoch": 0.64,
	"learning_rate": 5.8604092589494994e-05,
	"loss": 1.0006,
	"step": 237
	},
	{
	"epoch": 0.65,
	"learning_rate": 5.780464759928623e-05,
	"loss": 0.8629,
	"step": 238
	},
	{
	"epoch": 0.65,
	"learning_rate": 5.700847018079856e-05,
	"loss": 0.9166,
	"step": 239
	},
	{
	"epoch": 0.65,
	"learning_rate": 5.6215621989325e-05,
	"loss": 0.8463,
	"step": 240
	},
	{
	"epoch": 0.65,
	"eval_loss": 1.3288977146148682,
	"eval_runtime": 118.9998,
	"eval_samples_per_second": 3.706,
	"eval_steps_per_second": 1.857,
	"step": 240
	},
	{
	"epoch": 0.66,
	"learning_rate": 5.542616442234618e-05,
	"loss": 1.0178,
	"step": 241
	},
	{
	"epoch": 0.66,
	"learning_rate": 5.464015861477557e-05,
	"loss": 0.8584,
	"step": 242
	},
	{
	"epoch": 0.66,
	"learning_rate": 5.385766543422551e-05,
	"loss": 0.8194,
	"step": 243
	},
	{
	"epoch": 0.66,
	"learning_rate": 5.307874547629339e-05,
	"loss": 0.8743,
	"step": 244
	},
	{
	"epoch": 0.67,
	"learning_rate": 5.230345905986944e-05,
	"loss": 0.9445,
	"step": 245
	},
	{
	"epoch": 0.67,
	"learning_rate": 5.1531866222465466e-05,
	"loss": 1.0006,
	"step": 246
	},
	{
	"epoch": 0.67,
	"learning_rate": 5.0764026715565785e-05,
	"loss": 0.7993,
	"step": 247
	},
	{
	"epoch": 0.67,
	"learning_rate": 5.000000000000002e-05,
	"loss": 0.9364,
	"step": 248
	},
	{
	"epoch": 0.68,
	"learning_rate": 4.9239845241338435e-05,
	"loss": 0.8884,
	"step": 249
	},
	{
	"epoch": 0.68,
	"learning_rate": 4.848362130531039e-05,
	"loss": 0.9054,
	"step": 250
	},
	{
	"epoch": 0.68,
	"learning_rate": 4.7731386753245675e-05,
	"loss": 1.0429,
	"step": 251
	},
	{
	"epoch": 0.69,
	"learning_rate": 4.6983199837539705e-05,
	"loss": 0.8428,
	"step": 252
	},
	{
	"epoch": 0.69,
	"learning_rate": 4.6239118497142256e-05,
	"loss": 0.7732,
	"step": 253
	},
	{
	"epoch": 0.69,
	"learning_rate": 4.549920035307107e-05,
	"loss": 1.0696,
	"step": 254
	},
	{
	"epoch": 0.69,
	"learning_rate": 4.476350270394942e-05,
	"loss": 0.8644,
	"step": 255
	},
	{
	"epoch": 0.7,
	"learning_rate": 4.403208252156921e-05,
	"loss": 0.8967,
	"step": 256
	},
	{
	"epoch": 0.7,
	"learning_rate": 4.3304996446478854e-05,
	"loss": 0.7205,
	"step": 257
	},
	{
	"epoch": 0.7,
	"learning_rate": 4.2582300783597404e-05,
	"loss": 1.0014,
	"step": 258
	},
	{
	"epoch": 0.7,
	"learning_rate": 4.186405149785403e-05,
	"loss": 0.7683,
	"step": 259
	},
	{
	"epoch": 0.71,
	"learning_rate": 4.115030420985437e-05,
	"loss": 0.8781,
	"step": 260
	},
	{
	"epoch": 0.71,
	"eval_loss": 1.3258484601974487,
	"eval_runtime": 119.0026,
	"eval_samples_per_second": 3.706,
	"eval_steps_per_second": 1.857,
	"step": 260
	},
	{
	"epoch": 0.71,
	"learning_rate": 4.044111419157326e-05,
	"loss": 0.962,
	"step": 261
	},
	{
	"epoch": 0.71,
	"learning_rate": 3.973653636207437e-05,
	"loss": 0.8061,
	"step": 262
	},
	{
	"epoch": 0.72,
	"learning_rate": 3.903662528325759e-05,
	"loss": 0.9114,
	"step": 263
	},
	{
	"epoch": 0.72,
	"learning_rate": 3.834143515563358e-05,
	"loss": 0.9192,
	"step": 264
	},
	{
	"epoch": 0.72,
	"learning_rate": 3.7651019814126654e-05,
	"loss": 0.9397,
	"step": 265
	},
	{
	"epoch": 0.72,
	"learning_rate": 3.6965432723905735e-05,
	"loss": 0.9167,
	"step": 266
	},
	{
	"epoch": 0.73,
	"learning_rate": 3.628472697624422e-05,
	"loss": 0.9877,
	"step": 267
	},
	{
	"epoch": 0.73,
	"learning_rate": 3.5608955284408443e-05,
	"loss": 1.1038,
	"step": 268
	},
	{
	"epoch": 0.73,
	"learning_rate": 3.493816997957582e-05,
	"loss": 0.868,
	"step": 269
	},
	{
	"epoch": 0.73,
	"learning_rate": 3.427242300678213e-05,
	"loss": 0.7829,
	"step": 270
	},
	{
	"epoch": 0.74,
	"learning_rate": 3.361176592089919e-05,
	"loss": 0.8135,
	"step": 271
	},
	{
	"epoch": 0.74,
	"learning_rate": 3.295624988264224e-05,
	"loss": 0.8382,
	"step": 272
	},
	{
	"epoch": 0.74,
	"learning_rate": 3.2305925654608326e-05,
	"loss": 1.0243,
	"step": 273
	},
	{
	"epoch": 0.75,
	"learning_rate": 3.1660843597345135e-05,
	"loss": 0.7312,
	"step": 274
	},
	{
	"epoch": 0.75,
	"learning_rate": 3.1021053665451206e-05,
	"loss": 0.9365,
	"step": 275
	},
	{
	"epoch": 0.75,
	"learning_rate": 3.0386605403707346e-05,
	"loss": 0.7903,
	"step": 276
	},
	{
	"epoch": 0.75,
	"learning_rate": 2.975754794324015e-05,
	"loss": 0.8536,
	"step": 277
	},
	{
	"epoch": 0.76,
	"learning_rate": 2.913392999771718e-05,
	"loss": 0.993,
	"step": 278
	},
	{
	"epoch": 0.76,
	"learning_rate": 2.8515799859574588e-05,
	"loss": 0.7764,
	"step": 279
	},
	{
	"epoch": 0.76,
	"learning_rate": 2.7903205396277542e-05,
	"loss": 0.9057,
	"step": 280
	},
	{
	"epoch": 0.76,
	"eval_loss": 1.3229844570159912,
	"eval_runtime": 119.0121,
	"eval_samples_per_second": 3.706,
	"eval_steps_per_second": 1.857,
	"step": 280
	},
	{
	"epoch": 0.76,
	"learning_rate": 2.729619404661321e-05,
	"loss": 0.8637,
	"step": 281
	},
	{
	"epoch": 0.77,
	"learning_rate": 2.669481281701739e-05,
	"loss": 0.8564,
	"step": 282
	},
	{
	"epoch": 0.77,
	"learning_rate": 2.6099108277934103e-05,
	"loss": 0.9834,
	"step": 283
	},
	{
	"epoch": 0.77,
	"learning_rate": 2.5509126560209428e-05,
	"loss": 0.8363,
	"step": 284
	},
	{
	"epoch": 0.78,
	"learning_rate": 2.4924913351519084e-05,
	"loss": 0.8882,
	"step": 285
	},
	{
	"epoch": 0.78,
	"learning_rate": 2.4346513892830423e-05,
	"loss": 0.8547,
	"step": 286
	},
	{
	"epoch": 0.78,
	"learning_rate": 2.377397297489895e-05,
	"loss": 0.9304,
	"step": 287
	},
	{
	"epoch": 0.78,
	"learning_rate": 2.320733493479992e-05,
	"loss": 0.9409,
	"step": 288
	},
	{
	"epoch": 0.79,
	"learning_rate": 2.2646643652494692e-05,
	"loss": 0.9414,
	"step": 289
	},
	{
	"epoch": 0.79,
	"learning_rate": 2.2091942547432955e-05,
	"loss": 0.8788,
	"step": 290
	},
	{
	"epoch": 0.79,
	"learning_rate": 2.1543274575190188e-05,
	"loss": 0.8338,
	"step": 291
	},
	{
	"epoch": 0.79,
	"learning_rate": 2.100068222414121e-05,
	"loss": 0.7986,
	"step": 292
	},
	{
	"epoch": 0.8,
	"learning_rate": 2.0464207512170065e-05,
	"loss": 1.0324,
	"step": 293
	},
	{
	"epoch": 0.8,
	"learning_rate": 1.993389198341601e-05,
	"loss": 0.8743,
	"step": 294
	},
	{
	"epoch": 0.8,
	"learning_rate": 1.9409776705056516e-05,
	"loss": 0.8304,
	"step": 295
	},
	{
	"epoch": 0.81,
	"learning_rate": 1.8891902264127004e-05,
	"loss": 0.8021,
	"step": 296
	},
	{
	"epoch": 0.81,
	"learning_rate": 1.8380308764377842e-05,
	"loss": 0.9101,
	"step": 297
	},
	{
	"epoch": 0.81,
	"learning_rate": 1.787503582316864e-05,
	"loss": 0.8156,
	"step": 298
	},
	{
	"epoch": 0.81,
	"learning_rate": 1.7376122568400532e-05,
	"loss": 0.7932,
	"step": 299
	},
	{
	"epoch": 0.82,
	"learning_rate": 1.6883607635485877e-05,
	"loss": 0.9364,
	"step": 300
	},
	{
	"epoch": 0.82,
	"eval_loss": 1.3215992450714111,
	"eval_runtime": 118.9898,
	"eval_samples_per_second": 3.706,
	"eval_steps_per_second": 1.857,
	"step": 300
	},
	{
	"epoch": 0.82,
	"learning_rate": 1.6397529164356606e-05,
	"loss": 0.9039,
	"step": 301
	},
	{
	"epoch": 0.82,
	"learning_rate": 1.5917924796510587e-05,
	"loss": 0.9557,
	"step": 302
	},
	{
	"epoch": 0.82,
	"learning_rate": 1.544483167209664e-05,
	"loss": 0.8927,
	"step": 303
	},
	{
	"epoch": 0.83,
	"learning_rate": 1.4978286427038601e-05,
	"loss": 0.9724,
	"step": 304
	},
	{
	"epoch": 0.83,
	"learning_rate": 1.4518325190198078e-05,
	"loss": 0.9405,
	"step": 305
	},
	{
	"epoch": 0.83,
	"learning_rate": 1.406498358057683e-05,
	"loss": 0.9551,
	"step": 306
	},
	{
	"epoch": 0.84,
	"learning_rate": 1.3618296704558364e-05,
	"loss": 0.8297,
	"step": 307
	},
	{
	"epoch": 0.84,
	"learning_rate": 1.3178299153189366e-05,
	"loss": 0.8766,
	"step": 308
	},
	{
	"epoch": 0.84,
	"learning_rate": 1.2745024999500943e-05,
	"loss": 0.8472,
	"step": 309
	},
	{
	"epoch": 0.84,
	"learning_rate": 1.2318507795870138e-05,
	"loss": 0.7698,
	"step": 310
	},
	{
	"epoch": 0.85,
	"learning_rate": 1.1898780571421552e-05,
	"loss": 0.933,
	"step": 311
	},
	{
	"epoch": 0.85,
	"learning_rate": 1.1485875829469705e-05,
	"loss": 0.9372,
	"step": 312
	},
	{
	"epoch": 0.85,
	"learning_rate": 1.1079825545001888e-05,
	"loss": 0.6934,
	"step": 313
	},
	{
	"epoch": 0.85,
	"learning_rate": 1.0680661162202177e-05,
	"loss": 0.9019,
	"step": 314
	},
	{
	"epoch": 0.86,
	"learning_rate": 1.0288413592016343e-05,
	"loss": 1.0839,
	"step": 315
	},
	{
	"epoch": 0.86,
	"learning_rate": 9.903113209758096e-06,
	"loss": 0.9194,
	"step": 316
	},
	{
	"epoch": 0.86,
	"learning_rate": 9.524789852756954e-06,
	"loss": 0.8442,
	"step": 317
	},
	{
	"epoch": 0.87,
	"learning_rate": 9.153472818047625e-06,
	"loss": 0.8134,
	"step": 318
	},
	{
	"epoch": 0.87,
	"learning_rate": 8.789190860101225e-06,
	"loss": 0.8297,
	"step": 319
	},
	{
	"epoch": 0.87,
	"learning_rate": 8.43197218859858e-06,
	"loss": 0.9635,
	"step": 320
	},
	{
	"epoch": 0.87,
	"eval_loss": 1.3210258483886719,
	"eval_runtime": 119.0221,
	"eval_samples_per_second": 3.705,
	"eval_steps_per_second": 1.857,
	"step": 320
	},
	{
	"epoch": 0.87,
	"learning_rate": 8.081844466245737e-06,
	"loss": 0.7029,
	"step": 321
	},
	{
	"epoch": 0.88,
	"learning_rate": 7.738834806631711e-06,
	"loss": 0.898,
	"step": 322
	},
	{
	"epoch": 0.88,
	"learning_rate": 7.402969772128931e-06,
	"loss": 0.8886,
	"step": 323
	},
	{
	"epoch": 0.88,
	"learning_rate": 7.074275371836148e-06,
	"loss": 0.7764,
	"step": 324
	},
	{
	"epoch": 0.88,
	"learning_rate": 6.75277705956443e-06,
	"loss": 0.8431,
	"step": 325
	},
	{
	"epoch": 0.89,
	"learning_rate": 6.438499731865966e-06,
	"loss": 0.8315,
	"step": 326
	},
	{
	"epoch": 0.89,
	"learning_rate": 6.131467726106144e-06,
	"loss": 0.8022,
	"step": 327
	},
	{
	"epoch": 0.89,
	"learning_rate": 5.831704818578843e-06,
	"loss": 1.0034,
	"step": 328
	},
	{
	"epoch": 0.9,
	"learning_rate": 5.539234222665279e-06,
	"loss": 0.9289,
	"step": 329
	},
	{
	"epoch": 0.9,
	"learning_rate": 5.2540785870362815e-06,
	"loss": 1.1203,
	"step": 330
	},
	{
	"epoch": 0.9,
	"learning_rate": 4.976259993898502e-06,
	"loss": 0.8166,
	"step": 331
	},
	{
	"epoch": 0.9,
	"learning_rate": 4.705799957284351e-06,
	"loss": 0.872,
	"step": 332
	},
	{
	"epoch": 0.91,
	"learning_rate": 4.442719421385922e-06,
	"loss": 0.914,
	"step": 333
	},
	{
	"epoch": 0.91,
	"learning_rate": 4.187038758933204e-06,
	"loss": 0.9243,
	"step": 334
	},
	{
	"epoch": 0.91,
	"learning_rate": 3.938777769616275e-06,
	"loss": 0.7485,
	"step": 335
	},
	{
	"epoch": 0.91,
	"learning_rate": 3.6979556785522116e-06,
	"loss": 0.835,
	"step": 336
	},
	{
	"epoch": 0.92,
	"learning_rate": 3.4645911347961357e-06,
	"loss": 0.8814,
	"step": 337
	},
	{
	"epoch": 0.92,
	"learning_rate": 3.2387022098972153e-06,
	"loss": 0.7235,
	"step": 338
	},
	{
	"epoch": 0.92,
	"learning_rate": 3.0203063964990617e-06,
	"loss": 0.9117,
	"step": 339
	},
	{
	"epoch": 0.93,
	"learning_rate": 2.809420606985236e-06,
	"loss": 1.0049,
	"step": 340
	},
	{
	"epoch": 0.93,
	"eval_loss": 1.3204991817474365,
	"eval_runtime": 119.0009,
	"eval_samples_per_second": 3.706,
	"eval_steps_per_second": 1.857,
	"step": 340
	},
	{
	"epoch": 0.93,
	"learning_rate": 2.606061172169527e-06,
	"loss": 0.8719,
	"step": 341
	},
	{
	"epoch": 0.93,
	"learning_rate": 2.410243840031279e-06,
	"loss": 0.9375,
	"step": 342
	},
	{
	"epoch": 0.93,
	"learning_rate": 2.2219837744959283e-06,
	"loss": 0.8642,
	"step": 343
	},
	{
	"epoch": 0.94,
	"learning_rate": 2.0412955542606473e-06,
	"loss": 0.9535,
	"step": 344
	},
	{
	"epoch": 0.94,
	"learning_rate": 1.8681931716655221e-06,
	"loss": 0.8538,
	"step": 345
	},
	{
	"epoch": 0.94,
	"learning_rate": 1.7026900316098215e-06,
	"loss": 0.736,
	"step": 346
	},
	{
	"epoch": 0.94,
	"learning_rate": 1.5447989505140925e-06,
	"loss": 0.8917,
	"step": 347
	},
	{
	"epoch": 0.95,
	"learning_rate": 1.3945321553275326e-06,
	"loss": 0.7953,
	"step": 348
	},
	{
	"epoch": 0.95,
	"learning_rate": 1.2519012825812804e-06,
	"loss": 0.9073,
	"step": 349
	},
	{
	"epoch": 0.95,
	"learning_rate": 1.1169173774871478e-06,
	"loss": 0.8242,
	"step": 350
	},
	{
	"epoch": 0.96,
	"learning_rate": 9.89590893082426e-07,
	"loss": 1.0244,
	"step": 351
	},
	{
	"epoch": 0.96,
	"learning_rate": 8.699316894203224e-07,
	"loss": 0.8013,
	"step": 352
	},
	{
	"epoch": 0.96,
	"learning_rate": 7.579490328064265e-07,
	"loss": 0.8989,
	"step": 353
	},
	{
	"epoch": 0.96,
	"learning_rate": 6.536515950811395e-07,
	"loss": 1.013,
	"step": 354
	},
	{
	"epoch": 0.97,
	"learning_rate": 5.570474529481562e-07,
	"loss": 0.8283,
	"step": 355
	},
	{
	"epoch": 0.97,
	"learning_rate": 4.681440873489762e-07,
	"loss": 0.819,
	"step": 356
	},
	{
	"epoch": 0.97,
	"learning_rate": 3.869483828836007e-07,
	"loss": 1.0522,
	"step": 357
	},
	{
	"epoch": 0.97,
	"learning_rate": 3.134666272774034e-07,
	"loss": 1.0221,
	"step": 358
	},
	{
	"epoch": 0.98,
	"learning_rate": 2.477045108941978e-07,
	"loss": 0.93,
	"step": 359
	},
	{
	"epoch": 0.98,
	"learning_rate": 1.8966712629558957e-07,
	"loss": 0.901,
	"step": 360
	},
	{
	"epoch": 0.98,
	"eval_loss": 1.3202154636383057,
	"eval_runtime": 118.9855,
	"eval_samples_per_second": 3.706,
	"eval_steps_per_second": 1.857,
	"step": 360
	},
	{
	"epoch": 0.98,
	"learning_rate": 1.393589678466367e-07,
	"loss": 1.0046,
	"step": 361
	},
	{
	"epoch": 0.99,
	"learning_rate": 9.678393136776098e-08,
	"loss": 0.9131,
	"step": 362
	},
	{
	"epoch": 0.99,
	"learning_rate": 6.194531383307833e-08,
	"loss": 1.0747,
	"step": 363
	},
	{
	"epoch": 0.99,
	"learning_rate": 3.484581311511414e-08,
	"loss": 0.994,
	"step": 364
	},
	{
	"epoch": 0.99,
	"learning_rate": 1.5487527775848164e-08,
	"loss": 0.8788,
	"step": 365
	},
	{
	"epoch": 1.0,
	"learning_rate": 3.87195690421116e-09,
	"loss": 0.8329,
	"step": 366
	},
	{
	"epoch": 1.0,
	"learning_rate": 0.0,
	"loss": 0.963,
	"step": 367
	}
	],
	"logging_steps": 1,
	"max_steps": 367,
	"num_train_epochs": 1,
	"save_steps": 500,
	"total_flos": 1.0382469155751199e+18,
	"trial_name": null,
	"trial_params": null
	}