{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 50,
  "global_step": 10000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "learning_rate": 5.000000000000001e-07,
      "loss": 0.7209,
      "step": 1
    },
    {
      "epoch": 0.0,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 0.7363,
      "step": 2
    },
    {
      "epoch": 0.0,
      "learning_rate": 1.5e-06,
      "loss": 0.7405,
      "step": 3
    },
    {
      "epoch": 0.0,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 0.3909,
      "step": 4
    },
    {
      "epoch": 0.0,
      "learning_rate": 2.5e-06,
      "loss": 0.4537,
      "step": 5
    },
    {
      "epoch": 0.0,
      "learning_rate": 3e-06,
      "loss": 0.4409,
      "step": 6
    },
    {
      "epoch": 0.0,
      "learning_rate": 3.5000000000000004e-06,
      "loss": 0.6655,
      "step": 7
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.000000000000001e-06,
      "loss": 0.683,
      "step": 8
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.5e-06,
      "loss": 0.7618,
      "step": 9
    },
    {
      "epoch": 0.0,
      "learning_rate": 5e-06,
      "loss": 1.0069,
      "step": 10
    },
    {
      "epoch": 0.0,
      "learning_rate": 5.500000000000001e-06,
      "loss": 0.6105,
      "step": 11
    },
    {
      "epoch": 0.0,
      "learning_rate": 6e-06,
      "loss": 0.8031,
      "step": 12
    },
    {
      "epoch": 0.0,
      "learning_rate": 6.5000000000000004e-06,
      "loss": 0.6609,
      "step": 13
    },
    {
      "epoch": 0.0,
      "learning_rate": 7.000000000000001e-06,
      "loss": 0.3965,
      "step": 14
    },
    {
      "epoch": 0.0,
      "learning_rate": 7.5e-06,
      "loss": 0.4597,
      "step": 15
    },
    {
      "epoch": 0.0,
      "learning_rate": 8.000000000000001e-06,
      "loss": 0.7346,
      "step": 16
    },
    {
      "epoch": 0.0,
      "learning_rate": 8.500000000000002e-06,
      "loss": 0.5825,
      "step": 17
    },
    {
      "epoch": 0.0,
      "learning_rate": 9e-06,
      "loss": 0.0774,
      "step": 18
    },
    {
      "epoch": 0.0,
      "learning_rate": 9.5e-06,
      "loss": 0.6184,
      "step": 19
    },
    {
      "epoch": 0.0,
      "learning_rate": 1e-05,
      "loss": 0.6736,
      "step": 20
    },
    {
      "epoch": 0.0,
      "learning_rate": 1.05e-05,
      "loss": 0.6338,
      "step": 21
    },
    {
      "epoch": 0.0,
      "learning_rate": 1.1000000000000001e-05,
      "loss": 0.4675,
      "step": 22
    },
    {
      "epoch": 0.0,
      "learning_rate": 1.1500000000000002e-05,
      "loss": 0.545,
      "step": 23
    },
    {
      "epoch": 0.0,
      "learning_rate": 1.2e-05,
      "loss": 0.5759,
      "step": 24
    },
    {
      "epoch": 0.0,
      "learning_rate": 1.25e-05,
      "loss": 0.7799,
      "step": 25
    },
    {
      "epoch": 0.0,
      "learning_rate": 1.3000000000000001e-05,
      "loss": 0.9734,
      "step": 26
    },
    {
      "epoch": 0.0,
      "learning_rate": 1.3500000000000001e-05,
      "loss": 0.7845,
      "step": 27
    },
    {
      "epoch": 0.0,
      "learning_rate": 1.4000000000000001e-05,
      "loss": 0.5261,
      "step": 28
    },
    {
      "epoch": 0.0,
      "learning_rate": 1.45e-05,
      "loss": 0.6737,
      "step": 29
    },
    {
      "epoch": 0.0,
      "learning_rate": 1.5e-05,
      "loss": 0.8363,
      "step": 30
    },
    {
      "epoch": 0.0,
      "learning_rate": 1.55e-05,
      "loss": 0.5208,
      "step": 31
    },
    {
      "epoch": 0.0,
      "learning_rate": 1.6000000000000003e-05,
      "loss": 0.4542,
      "step": 32
    },
    {
      "epoch": 0.0,
      "learning_rate": 1.65e-05,
      "loss": 0.7531,
      "step": 33
    },
    {
      "epoch": 0.0,
      "learning_rate": 1.7000000000000003e-05,
      "loss": 0.502,
      "step": 34
    },
    {
      "epoch": 0.0,
      "learning_rate": 1.75e-05,
      "loss": 0.5599,
      "step": 35
    },
    {
      "epoch": 0.0,
      "learning_rate": 1.8e-05,
      "loss": 0.7438,
      "step": 36
    },
    {
      "epoch": 0.0,
      "learning_rate": 1.85e-05,
      "loss": 1.0208,
      "step": 37
    },
    {
      "epoch": 0.0,
      "learning_rate": 1.9e-05,
      "loss": 0.548,
      "step": 38
    },
    {
      "epoch": 0.0,
      "learning_rate": 1.9500000000000003e-05,
      "loss": 0.6256,
      "step": 39
    },
    {
      "epoch": 0.0,
      "learning_rate": 2e-05,
      "loss": 0.6262,
      "step": 40
    },
    {
      "epoch": 0.0,
      "learning_rate": 2.05e-05,
      "loss": 0.6512,
      "step": 41
    },
    {
      "epoch": 0.0,
      "learning_rate": 2.1e-05,
      "loss": 0.6469,
      "step": 42
    },
    {
      "epoch": 0.0,
      "learning_rate": 2.15e-05,
      "loss": 0.4785,
      "step": 43
    },
    {
      "epoch": 0.0,
      "learning_rate": 2.2000000000000003e-05,
      "loss": 0.8584,
      "step": 44
    },
    {
      "epoch": 0.0,
      "learning_rate": 2.25e-05,
      "loss": 0.5898,
      "step": 45
    },
    {
      "epoch": 0.0,
      "learning_rate": 2.3000000000000003e-05,
      "loss": 0.8324,
      "step": 46
    },
    {
      "epoch": 0.0,
      "learning_rate": 2.35e-05,
      "loss": 0.4623,
      "step": 47
    },
    {
      "epoch": 0.0,
      "learning_rate": 2.4e-05,
      "loss": 0.9301,
      "step": 48
    },
    {
      "epoch": 0.0,
      "learning_rate": 2.45e-05,
      "loss": 0.8685,
      "step": 49
    },
    {
      "epoch": 0.01,
      "learning_rate": 2.5e-05,
      "loss": 0.8224,
      "step": 50
    },
    {
      "epoch": 0.01,
      "eval_loss": 0.6830028295516968,
      "eval_runtime": 74.5201,
      "eval_samples_per_second": 3.1,
      "eval_steps_per_second": 0.778,
      "step": 50
    },
    {
      "epoch": 0.01,
      "learning_rate": 2.5500000000000003e-05,
      "loss": 0.5349,
      "step": 51
    },
    {
      "epoch": 0.01,
      "learning_rate": 2.6000000000000002e-05,
      "loss": 0.8451,
      "step": 52
    },
    {
      "epoch": 0.01,
      "learning_rate": 2.6500000000000004e-05,
      "loss": 0.9516,
      "step": 53
    },
    {
      "epoch": 0.01,
      "learning_rate": 2.7000000000000002e-05,
      "loss": 1.0514,
      "step": 54
    },
    {
      "epoch": 0.01,
      "learning_rate": 2.7500000000000004e-05,
      "loss": 0.5882,
      "step": 55
    },
    {
      "epoch": 0.01,
      "learning_rate": 2.8000000000000003e-05,
      "loss": 0.9716,
      "step": 56
    },
    {
      "epoch": 0.01,
      "learning_rate": 2.8499999999999998e-05,
      "loss": 0.8603,
      "step": 57
    },
    {
      "epoch": 0.01,
      "learning_rate": 2.9e-05,
      "loss": 0.5738,
      "step": 58
    },
    {
      "epoch": 0.01,
      "learning_rate": 2.95e-05,
      "loss": 0.7023,
      "step": 59
    },
    {
      "epoch": 0.01,
      "learning_rate": 3e-05,
      "loss": 0.7417,
      "step": 60
    },
    {
      "epoch": 0.01,
      "learning_rate": 3.05e-05,
      "loss": 1.1152,
      "step": 61
    },
    {
      "epoch": 0.01,
      "learning_rate": 3.1e-05,
      "loss": 1.0047,
      "step": 62
    },
    {
      "epoch": 0.01,
      "learning_rate": 3.15e-05,
      "loss": 0.7791,
      "step": 63
    },
    {
      "epoch": 0.01,
      "learning_rate": 3.2000000000000005e-05,
      "loss": 0.8721,
      "step": 64
    },
    {
      "epoch": 0.01,
      "learning_rate": 3.2500000000000004e-05,
      "loss": 0.648,
      "step": 65
    },
    {
      "epoch": 0.01,
      "learning_rate": 3.3e-05,
      "loss": 0.6794,
      "step": 66
    },
    {
      "epoch": 0.01,
      "learning_rate": 3.35e-05,
      "loss": 0.5904,
      "step": 67
    },
    {
      "epoch": 0.01,
      "learning_rate": 3.4000000000000007e-05,
      "loss": 1.0816,
      "step": 68
    },
    {
      "epoch": 0.01,
      "learning_rate": 3.45e-05,
      "loss": 0.7182,
      "step": 69
    },
    {
      "epoch": 0.01,
      "learning_rate": 3.5e-05,
      "loss": 0.5579,
      "step": 70
    },
    {
      "epoch": 0.01,
      "learning_rate": 3.55e-05,
      "loss": 1.057,
      "step": 71
    },
    {
      "epoch": 0.01,
      "learning_rate": 3.6e-05,
      "loss": 1.0482,
      "step": 72
    },
    {
      "epoch": 0.01,
      "learning_rate": 3.65e-05,
      "loss": 1.332,
      "step": 73
    },
    {
      "epoch": 0.01,
      "learning_rate": 3.7e-05,
      "loss": 1.0051,
      "step": 74
    },
    {
      "epoch": 0.01,
      "learning_rate": 3.7500000000000003e-05,
      "loss": 0.9576,
      "step": 75
    },
    {
      "epoch": 0.01,
      "learning_rate": 3.8e-05,
      "loss": 0.7674,
      "step": 76
    },
    {
      "epoch": 0.01,
      "learning_rate": 3.85e-05,
      "loss": 0.7335,
      "step": 77
    },
    {
      "epoch": 0.01,
      "learning_rate": 3.9000000000000006e-05,
      "loss": 0.8671,
      "step": 78
    },
    {
      "epoch": 0.01,
      "learning_rate": 3.9500000000000005e-05,
      "loss": 0.7229,
      "step": 79
    },
    {
      "epoch": 0.01,
      "learning_rate": 4e-05,
      "loss": 0.5801,
      "step": 80
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.05e-05,
      "loss": 0.7611,
      "step": 81
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.1e-05,
      "loss": 0.6954,
      "step": 82
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.15e-05,
      "loss": 0.7706,
      "step": 83
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.2e-05,
      "loss": 0.5046,
      "step": 84
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.25e-05,
      "loss": 0.517,
      "step": 85
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.3e-05,
      "loss": 0.6457,
      "step": 86
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.35e-05,
      "loss": 0.6073,
      "step": 87
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.4000000000000006e-05,
      "loss": 0.7022,
      "step": 88
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.4500000000000004e-05,
      "loss": 0.7038,
      "step": 89
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.5e-05,
      "loss": 0.6388,
      "step": 90
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.55e-05,
      "loss": 0.6949,
      "step": 91
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.600000000000001e-05,
      "loss": 0.8944,
      "step": 92
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.6500000000000005e-05,
      "loss": 0.6052,
      "step": 93
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.7e-05,
      "loss": 0.5266,
      "step": 94
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.75e-05,
      "loss": 0.5245,
      "step": 95
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.8e-05,
      "loss": 0.707,
      "step": 96
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.85e-05,
      "loss": 0.9032,
      "step": 97
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9e-05,
      "loss": 0.6077,
      "step": 98
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9500000000000004e-05,
      "loss": 0.6444,
      "step": 99
    },
    {
      "epoch": 0.01,
      "learning_rate": 5e-05,
      "loss": 0.3562,
      "step": 100
    },
    {
      "epoch": 0.01,
      "eval_loss": 0.6634055972099304,
      "eval_runtime": 72.8686,
      "eval_samples_per_second": 3.17,
      "eval_steps_per_second": 0.796,
      "step": 100
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.999999874125034e-05,
      "loss": 0.3886,
      "step": 101
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9999994965001495e-05,
      "loss": 0.3238,
      "step": 102
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.999998867125384e-05,
      "loss": 0.4208,
      "step": 103
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9999979860008006e-05,
      "loss": 0.4293,
      "step": 104
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.999996853126489e-05,
      "loss": 0.607,
      "step": 105
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.999995468502562e-05,
      "loss": 0.5435,
      "step": 106
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9999938321291604e-05,
      "loss": 0.9222,
      "step": 107
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.999991944006448e-05,
      "loss": 0.4073,
      "step": 108
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9999898041346155e-05,
      "loss": 0.4382,
      "step": 109
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.999987412513878e-05,
      "loss": 0.7785,
      "step": 110
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.999984769144476e-05,
      "loss": 0.5614,
      "step": 111
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9999818740266766e-05,
      "loss": 0.6212,
      "step": 112
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9999787271607714e-05,
      "loss": 0.7045,
      "step": 113
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.999975328547076e-05,
      "loss": 0.6569,
      "step": 114
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.999971678185933e-05,
      "loss": 0.547,
      "step": 115
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9999677760777114e-05,
      "loss": 0.7026,
      "step": 116
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.999963622222803e-05,
      "loss": 0.5967,
      "step": 117
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9999592166216256e-05,
      "loss": 0.9554,
      "step": 118
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.999954559274624e-05,
      "loss": 0.5771,
      "step": 119
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.999949650182266e-05,
      "loss": 0.7597,
      "step": 120
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9999444893450476e-05,
      "loss": 0.7696,
      "step": 121
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.999939076763487e-05,
      "loss": 0.57,
      "step": 122
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.99993341243813e-05,
      "loss": 0.4663,
      "step": 123
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.999927496369547e-05,
      "loss": 0.7092,
      "step": 124
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.999921328558333e-05,
      "loss": 0.6261,
      "step": 125
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.99991490900511e-05,
      "loss": 0.5216,
      "step": 126
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.999908237710523e-05,
      "loss": 0.5158,
      "step": 127
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.999901314675246e-05,
      "loss": 0.4701,
      "step": 128
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9998941398999754e-05,
      "loss": 0.5331,
      "step": 129
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.999886713385432e-05,
      "loss": 0.4894,
      "step": 130
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.999879035132366e-05,
      "loss": 0.6031,
      "step": 131
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.999871105141549e-05,
      "loss": 0.395,
      "step": 132
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.999862923413781e-05,
      "loss": 1.031,
      "step": 133
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.999854489949884e-05,
      "loss": 1.3669,
      "step": 134
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.999845804750709e-05,
      "loss": 1.3045,
      "step": 135
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.999836867817129e-05,
      "loss": 1.1972,
      "step": 136
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.999827679150045e-05,
      "loss": 0.9508,
      "step": 137
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.999818238750382e-05,
      "loss": 0.6707,
      "step": 138
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.999808546619091e-05,
      "loss": 0.65,
      "step": 139
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9997986027571485e-05,
      "loss": 0.3974,
      "step": 140
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9997884071655546e-05,
      "loss": 0.2789,
      "step": 141
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.999777959845336e-05,
      "loss": 0.4515,
      "step": 142
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.999767260797546e-05,
      "loss": 0.523,
      "step": 143
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.999756310023261e-05,
      "loss": 0.5653,
      "step": 144
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9997451075235834e-05,
      "loss": 0.6913,
      "step": 145
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9997336532996426e-05,
      "loss": 0.4032,
      "step": 146
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.999721947352591e-05,
      "loss": 0.6353,
      "step": 147
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.999709989683607e-05,
      "loss": 0.4243,
      "step": 148
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.999697780293897e-05,
      "loss": 0.5788,
      "step": 149
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9996853191846885e-05,
      "loss": 0.581,
      "step": 150
    },
    {
      "epoch": 0.01,
      "eval_loss": 0.6563869714736938,
      "eval_runtime": 73.4664,
      "eval_samples_per_second": 3.144,
      "eval_steps_per_second": 0.789,
      "step": 150
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.999672606357236e-05,
      "loss": 0.7213,
      "step": 151
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.99965964181282e-05,
      "loss": 0.4243,
      "step": 152
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9996464255527475e-05,
      "loss": 0.2648,
      "step": 153
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.999632957578349e-05,
      "loss": 0.485,
      "step": 154
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9996192378909786e-05,
      "loss": 0.6709,
      "step": 155
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9996052664920195e-05,
      "loss": 0.4884,
      "step": 156
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.999591043382878e-05,
      "loss": 0.9807,
      "step": 157
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9995765685649885e-05,
      "loss": 0.8386,
      "step": 158
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.999561842039806e-05,
      "loss": 0.8263,
      "step": 159
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.999546863808815e-05,
      "loss": 0.8259,
      "step": 160
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.999531633873522e-05,
      "loss": 0.6713,
      "step": 161
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9995161522354626e-05,
      "loss": 0.6504,
      "step": 162
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9995004188961954e-05,
      "loss": 0.6794,
      "step": 163
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9994844338573047e-05,
      "loss": 0.6547,
      "step": 164
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9994681971203985e-05,
      "loss": 0.8636,
      "step": 165
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.999451708687114e-05,
      "loss": 0.6339,
      "step": 166
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.999434968559111e-05,
      "loss": 0.5616,
      "step": 167
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9994179767380746e-05,
      "loss": 0.5773,
      "step": 168
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9994007332257166e-05,
      "loss": 0.6204,
      "step": 169
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9993832380237735e-05,
      "loss": 0.9355,
      "step": 170
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.999365491134006e-05,
      "loss": 0.7628,
      "step": 171
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.999347492558202e-05,
      "loss": 1.1887,
      "step": 172
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9993292422981744e-05,
      "loss": 1.1806,
      "step": 173
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9993107403557606e-05,
      "loss": 0.9117,
      "step": 174
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.999291986732823e-05,
      "loss": 1.5463,
      "step": 175
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.999272981431251e-05,
      "loss": 1.314,
      "step": 176
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.999253724452958e-05,
      "loss": 0.8943,
      "step": 177
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.999234215799884e-05,
      "loss": 0.7575,
      "step": 178
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9992144554739915e-05,
      "loss": 0.682,
      "step": 179
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9991944434772734e-05,
      "loss": 0.5514,
      "step": 180
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.999174179811742e-05,
      "loss": 0.8652,
      "step": 181
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9991536644794394e-05,
      "loss": 0.8373,
      "step": 182
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9991328974824314e-05,
      "loss": 0.1269,
      "step": 183
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9991118788228084e-05,
      "loss": 0.5481,
      "step": 184
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.999090608502688e-05,
      "loss": 0.7791,
      "step": 185
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.999069086524212e-05,
      "loss": 0.7122,
      "step": 186
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.999047312889547e-05,
      "loss": 0.5228,
      "step": 187
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.999025287600886e-05,
      "loss": 0.6059,
      "step": 188
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9990030106604466e-05,
      "loss": 0.5502,
      "step": 189
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9989804820704735e-05,
      "loss": 0.7369,
      "step": 190
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.998957701833233e-05,
      "loss": 0.4237,
      "step": 191
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.998934669951021e-05,
      "loss": 0.266,
      "step": 192
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.998911386426156e-05,
      "loss": 0.6327,
      "step": 193
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.998887851260983e-05,
      "loss": 0.6381,
      "step": 194
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.998864064457871e-05,
      "loss": 0.1311,
      "step": 195
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.998840026019217e-05,
      "loss": 0.5762,
      "step": 196
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.99881573594744e-05,
      "loss": 0.5972,
      "step": 197
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9987911942449874e-05,
      "loss": 0.5997,
      "step": 198
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.998766400914329e-05,
      "loss": 0.6591,
      "step": 199
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9987413559579636e-05,
      "loss": 0.6721,
      "step": 200
    },
    {
      "epoch": 0.02,
      "eval_loss": 0.643097996711731,
      "eval_runtime": 73.5939,
      "eval_samples_per_second": 3.139,
      "eval_steps_per_second": 0.788,
      "step": 200
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.998716059378411e-05,
      "loss": 0.5859,
      "step": 201
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.99869051117822e-05,
      "loss": 0.6699,
      "step": 202
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.998664711359963e-05,
      "loss": 0.7184,
      "step": 203
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9986386599262374e-05,
      "loss": 0.6907,
      "step": 204
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.998612356879667e-05,
      "loss": 0.5556,
      "step": 205
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9985858022229015e-05,
      "loss": 0.6168,
      "step": 206
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.998558995958614e-05,
      "loss": 0.498,
      "step": 207
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.998531938089503e-05,
      "loss": 0.3772,
      "step": 208
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.998504628618296e-05,
      "loss": 0.5199,
      "step": 209
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.99847706754774e-05,
      "loss": 0.7257,
      "step": 210
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.998449254880612e-05,
      "loss": 0.6686,
      "step": 211
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.998421190619711e-05,
      "loss": 0.7182,
      "step": 212
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9983928747678663e-05,
      "loss": 0.5628,
      "step": 213
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.998364307327927e-05,
      "loss": 0.6771,
      "step": 214
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.99833548830277e-05,
      "loss": 0.5334,
      "step": 215
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9983064176952976e-05,
      "loss": 0.6313,
      "step": 216
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9982770955084376e-05,
      "loss": 0.5438,
      "step": 217
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9982475217451426e-05,
      "loss": 0.5493,
      "step": 218
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.998217696408391e-05,
      "loss": 0.767,
      "step": 219
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9981876195011844e-05,
      "loss": 0.9534,
      "step": 220
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.998157291026553e-05,
      "loss": 0.4405,
      "step": 221
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.998126710987552e-05,
      "loss": 0.6228,
      "step": 222
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9980958793872577e-05,
      "loss": 0.6933,
      "step": 223
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.998064796228779e-05,
      "loss": 0.5963,
      "step": 224
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.998033461515242e-05,
      "loss": 0.6155,
      "step": 225
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9980018752498035e-05,
      "loss": 0.5339,
      "step": 226
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9979700374356455e-05,
      "loss": 0.6127,
      "step": 227
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.997937948075973e-05,
      "loss": 1.0426,
      "step": 228
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.997905607174017e-05,
      "loss": 1.271,
      "step": 229
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9978730147330355e-05,
      "loss": 0.9125,
      "step": 230
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9978401707563096e-05,
      "loss": 1.1057,
      "step": 231
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.997807075247146e-05,
      "loss": 1.2377,
      "step": 232
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.997773728208879e-05,
      "loss": 1.0029,
      "step": 233
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.997740129644865e-05,
      "loss": 0.7311,
      "step": 234
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9977062795584893e-05,
      "loss": 0.6608,
      "step": 235
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.99767217795316e-05,
      "loss": 0.7215,
      "step": 236
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9976378248323095e-05,
      "loss": 0.8252,
      "step": 237
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.997603220199399e-05,
      "loss": 0.759,
      "step": 238
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9975683640579126e-05,
      "loss": 0.7659,
      "step": 239
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.99753325641136e-05,
      "loss": 0.6734,
      "step": 240
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.997497897263277e-05,
      "loss": 0.5855,
      "step": 241
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.997462286617224e-05,
      "loss": 0.6813,
      "step": 242
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.997426424476787e-05,
      "loss": 0.7645,
      "step": 243
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.997390310845578e-05,
      "loss": 0.7712,
      "step": 244
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.997353945727232e-05,
      "loss": 0.7542,
      "step": 245
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9973173291254126e-05,
      "loss": 0.7605,
      "step": 246
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.997280461043806e-05,
      "loss": 0.58,
      "step": 247
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.997243341486127e-05,
      "loss": 0.5442,
      "step": 248
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9972059704561094e-05,
      "loss": 0.7431,
      "step": 249
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.99716834795752e-05,
      "loss": 0.7751,
      "step": 250
    },
    {
      "epoch": 0.03,
      "eval_loss": 0.6371973156929016,
      "eval_runtime": 74.9108,
      "eval_samples_per_second": 3.084,
      "eval_steps_per_second": 0.774,
      "step": 250
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.9971304739941465e-05,
      "loss": 0.8253,
      "step": 251
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.9970923485698025e-05,
      "loss": 0.824,
      "step": 252
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.997053971688327e-05,
      "loss": 0.6124,
      "step": 253
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.997015343353585e-05,
      "loss": 0.9063,
      "step": 254
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.996976463569467e-05,
      "loss": 0.6135,
      "step": 255
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.996937332339887e-05,
      "loss": 0.7203,
      "step": 256
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.996897949668785e-05,
      "loss": 0.7164,
      "step": 257
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.996858315560129e-05,
      "loss": 0.7907,
      "step": 258
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.996818430017908e-05,
      "loss": 0.7871,
      "step": 259
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.996778293046141e-05,
      "loss": 0.8346,
      "step": 260
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.996737904648866e-05,
      "loss": 0.8766,
      "step": 261
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.9966972648301536e-05,
      "loss": 0.8504,
      "step": 262
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.996656373594095e-05,
      "loss": 0.5008,
      "step": 263
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.9966152309448076e-05,
      "loss": 0.4928,
      "step": 264
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.996573836886435e-05,
      "loss": 0.4989,
      "step": 265
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.996532191423145e-05,
      "loss": 0.7408,
      "step": 266
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.996490294559132e-05,
      "loss": 0.8694,
      "step": 267
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.996448146298614e-05,
      "loss": 0.818,
      "step": 268
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.996405746645837e-05,
      "loss": 0.8208,
      "step": 269
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.996363095605069e-05,
      "loss": 0.4913,
      "step": 270
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.996320193180606e-05,
      "loss": 0.7621,
      "step": 271
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.996277039376767e-05,
      "loss": 0.733,
      "step": 272
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.996233634197899e-05,
      "loss": 0.4811,
      "step": 273
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.996189977648372e-05,
      "loss": 0.8585,
      "step": 274
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.996146069732583e-05,
      "loss": 0.8439,
      "step": 275
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.996101910454953e-05,
      "loss": 0.6334,
      "step": 276
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.9960574998199285e-05,
      "loss": 0.2978,
      "step": 277
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.9960128378319825e-05,
      "loss": 0.4965,
      "step": 278
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.995967924495611e-05,
      "loss": 0.5137,
      "step": 279
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.995922759815339e-05,
      "loss": 0.5315,
      "step": 280
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.995877343795714e-05,
      "loss": 0.5277,
      "step": 281
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.995831676441307e-05,
      "loss": 0.5659,
      "step": 282
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.9957857577567197e-05,
      "loss": 0.5686,
      "step": 283
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.995739587746574e-05,
      "loss": 0.3249,
      "step": 284
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.995693166415521e-05,
      "loss": 0.6619,
      "step": 285
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.995646493768234e-05,
      "loss": 0.6657,
      "step": 286
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.995599569809414e-05,
      "loss": 0.5046,
      "step": 287
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.995552394543784e-05,
      "loss": 0.9346,
      "step": 288
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.995504967976098e-05,
      "loss": 0.745,
      "step": 289
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.9954572901111286e-05,
      "loss": 0.5448,
      "step": 290
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.995409360953679e-05,
      "loss": 0.41,
      "step": 291
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.995361180508575e-05,
      "loss": 0.4307,
      "step": 292
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.995312748780668e-05,
      "loss": 0.4238,
      "step": 293
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.995264065774836e-05,
      "loss": 0.5623,
      "step": 294
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.995215131495981e-05,
      "loss": 0.7215,
      "step": 295
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.9951659459490294e-05,
      "loss": 1.0697,
      "step": 296
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.995116509138936e-05,
      "loss": 0.768,
      "step": 297
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.995066821070679e-05,
      "loss": 0.8224,
      "step": 298
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.995016881749261e-05,
      "loss": 1.104,
      "step": 299
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.994966691179711e-05,
      "loss": 0.7601,
      "step": 300
    },
    {
      "epoch": 0.03,
      "eval_loss": 0.6263386607170105,
      "eval_runtime": 74.3824,
      "eval_samples_per_second": 3.106,
      "eval_steps_per_second": 0.78,
      "step": 300
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.994916249367084e-05,
      "loss": 0.6469,
      "step": 301
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.994865556316458e-05,
      "loss": 0.7143,
      "step": 302
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.9948146120329395e-05,
      "loss": 0.8679,
      "step": 303
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.9947634165216584e-05,
      "loss": 0.5472,
      "step": 304
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.994711969787769e-05,
      "loss": 0.6685,
      "step": 305
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.9946602718364515e-05,
      "loss": 0.8331,
      "step": 306
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.994608322672914e-05,
      "loss": 0.4162,
      "step": 307
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.994556122302386e-05,
      "loss": 0.8399,
      "step": 308
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.994503670730125e-05,
      "loss": 0.6069,
      "step": 309
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.994450967961413e-05,
      "loss": 0.4844,
      "step": 310
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.994398014001557e-05,
      "loss": 0.5809,
      "step": 311
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.994344808855888e-05,
      "loss": 0.5347,
      "step": 312
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.9942913525297655e-05,
      "loss": 0.7109,
      "step": 313
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.994237645028572e-05,
      "loss": 0.5811,
      "step": 314
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.994183686357717e-05,
      "loss": 0.8049,
      "step": 315
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.994129476522632e-05,
      "loss": 0.8672,
      "step": 316
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.9940750155287775e-05,
      "loss": 0.6436,
      "step": 317
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.994020303381636e-05,
      "loss": 1.1322,
      "step": 318
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.993965340086719e-05,
      "loss": 0.702,
      "step": 319
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.993910125649561e-05,
      "loss": 0.707,
      "step": 320
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.9938546600757205e-05,
      "loss": 0.5961,
      "step": 321
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.993798943370785e-05,
      "loss": 0.7122,
      "step": 322
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.9937429755403634e-05,
      "loss": 0.7922,
      "step": 323
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.993686756590093e-05,
      "loss": 0.6173,
      "step": 324
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.993630286525634e-05,
      "loss": 0.7334,
      "step": 325
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.993573565352674e-05,
      "loss": 0.7492,
      "step": 326
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.9935165930769235e-05,
      "loss": 0.2091,
      "step": 327
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.99345936970412e-05,
      "loss": 0.4691,
      "step": 328
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.993401895240027e-05,
      "loss": 0.4668,
      "step": 329
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.993344169690431e-05,
      "loss": 0.5829,
      "step": 330
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.9932861930611454e-05,
      "loss": 0.4732,
      "step": 331
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.993227965358008e-05,
      "loss": 0.8368,
      "step": 332
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.993169486586884e-05,
      "loss": 0.6468,
      "step": 333
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.99311075675366e-05,
      "loss": 0.5867,
      "step": 334
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.9930517758642503e-05,
      "loss": 0.3379,
      "step": 335
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.992992543924596e-05,
      "loss": 0.665,
      "step": 336
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.992933060940661e-05,
      "loss": 0.5194,
      "step": 337
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.992873326918434e-05,
      "loss": 0.4472,
      "step": 338
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.9928133418639316e-05,
      "loss": 0.7619,
      "step": 339
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.992753105783194e-05,
      "loss": 1.163,
      "step": 340
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.992692618682286e-05,
      "loss": 0.8505,
      "step": 341
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.992631880567301e-05,
      "loss": 1.1603,
      "step": 342
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.9925708914443526e-05,
      "loss": 0.837,
      "step": 343
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.9925096513195846e-05,
      "loss": 0.8401,
      "step": 344
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.992448160199162e-05,
      "loss": 1.0011,
      "step": 345
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.992386418089279e-05,
      "loss": 1.0981,
      "step": 346
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.992324424996151e-05,
      "loss": 0.7491,
      "step": 347
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.992262180926022e-05,
      "loss": 0.4852,
      "step": 348
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.992199685885159e-05,
      "loss": 0.7445,
      "step": 349
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.992136939879856e-05,
      "loss": 0.6917,
      "step": 350
    },
    {
      "epoch": 0.04,
      "eval_loss": 0.6251617074012756,
      "eval_runtime": 71.9356,
      "eval_samples_per_second": 3.211,
      "eval_steps_per_second": 0.806,
      "step": 350
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.992073942916432e-05,
      "loss": 0.8102,
      "step": 351
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.992010695001229e-05,
      "loss": 0.832,
      "step": 352
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.991947196140618e-05,
      "loss": 0.8412,
      "step": 353
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.991883446340992e-05,
      "loss": 0.5506,
      "step": 354
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.991819445608772e-05,
      "loss": 0.6858,
      "step": 355
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.991755193950401e-05,
      "loss": 0.6543,
      "step": 356
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.991690691372352e-05,
      "loss": 0.2063,
      "step": 357
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.991625937881116e-05,
      "loss": 0.3045,
      "step": 358
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.991560933483218e-05,
      "loss": 0.48,
      "step": 359
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.991495678185202e-05,
      "loss": 0.4064,
      "step": 360
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.9914301719936386e-05,
      "loss": 0.5863,
      "step": 361
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.9913644149151256e-05,
      "loss": 1.062,
      "step": 362
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.991298406956284e-05,
      "loss": 0.6867,
      "step": 363
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.991232148123761e-05,
      "loss": 1.1911,
      "step": 364
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.991165638424229e-05,
      "loss": 0.7268,
      "step": 365
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.991098877864385e-05,
      "loss": 0.5563,
      "step": 366
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.991031866450953e-05,
      "loss": 0.5797,
      "step": 367
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.990964604190679e-05,
      "loss": 0.8599,
      "step": 368
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.990897091090338e-05,
      "loss": 0.652,
      "step": 369
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.9908293271567286e-05,
      "loss": 0.5431,
      "step": 370
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.990761312396673e-05,
      "loss": 0.8861,
      "step": 371
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.990693046817023e-05,
      "loss": 0.5358,
      "step": 372
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.99062453042465e-05,
      "loss": 0.9368,
      "step": 373
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.990555763226455e-05,
      "loss": 0.7549,
      "step": 374
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.990486745229364e-05,
      "loss": 0.8044,
      "step": 375
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.9904174764403255e-05,
      "loss": 0.437,
      "step": 376
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.990347956866315e-05,
      "loss": 0.6413,
      "step": 377
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.9902781865143326e-05,
      "loss": 0.4837,
      "step": 378
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.9902081653914056e-05,
      "loss": 0.5189,
      "step": 379
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.990137893504585e-05,
      "loss": 0.7079,
      "step": 380
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.9900673708609455e-05,
      "loss": 0.6145,
      "step": 381
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.989996597467591e-05,
      "loss": 0.4166,
      "step": 382
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.9899255733316465e-05,
      "loss": 0.5838,
      "step": 383
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.9898542984602656e-05,
      "loss": 0.5692,
      "step": 384
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.989782772860624e-05,
      "loss": 0.2197,
      "step": 385
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.989710996539926e-05,
      "loss": 0.2094,
      "step": 386
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.989638969505399e-05,
      "loss": 0.6446,
      "step": 387
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.989566691764295e-05,
      "loss": 0.7095,
      "step": 388
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.989494163323894e-05,
      "loss": 0.3534,
      "step": 389
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.989421384191499e-05,
      "loss": 0.3785,
      "step": 390
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.989348354374438e-05,
      "loss": 0.438,
      "step": 391
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.9892750738800664e-05,
      "loss": 0.5131,
      "step": 392
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.989201542715762e-05,
      "loss": 0.5108,
      "step": 393
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.989127760888932e-05,
      "loss": 0.6559,
      "step": 394
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.9890537284070037e-05,
      "loss": 0.6618,
      "step": 395
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.988979445277433e-05,
      "loss": 0.4774,
      "step": 396
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.9889049115077005e-05,
      "loss": 0.6686,
      "step": 397
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.988830127105311e-05,
      "loss": 0.564,
      "step": 398
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.9887550920777956e-05,
      "loss": 0.8886,
      "step": 399
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.988679806432712e-05,
      "loss": 0.4939,
      "step": 400
    },
    {
      "epoch": 0.04,
      "eval_loss": 0.611499547958374,
      "eval_runtime": 73.2575,
      "eval_samples_per_second": 3.153,
      "eval_steps_per_second": 0.792,
      "step": 400
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.988604270177639e-05,
      "loss": 0.7945,
      "step": 401
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.988528483320184e-05,
      "loss": 1.0034,
      "step": 402
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.988452445867979e-05,
      "loss": 0.9501,
      "step": 403
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.98837615782868e-05,
      "loss": 0.6513,
      "step": 404
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.988299619209972e-05,
      "loss": 0.5054,
      "step": 405
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.988222830019559e-05,
      "loss": 0.6421,
      "step": 406
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.988145790265175e-05,
      "loss": 0.604,
      "step": 407
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.988068499954578e-05,
      "loss": 0.4039,
      "step": 408
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.9879909590955515e-05,
      "loss": 0.4319,
      "step": 409
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.987913167695904e-05,
      "loss": 0.3111,
      "step": 410
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.987835125763468e-05,
      "loss": 0.4037,
      "step": 411
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.987756833306102e-05,
      "loss": 0.4258,
      "step": 412
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.987678290331692e-05,
      "loss": 0.4062,
      "step": 413
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.9875994968481465e-05,
      "loss": 0.4309,
      "step": 414
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.987520452863399e-05,
      "loss": 0.6125,
      "step": 415
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.9874411583854106e-05,
      "loss": 0.5541,
      "step": 416
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.9873616134221654e-05,
      "loss": 0.4718,
      "step": 417
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.987281817981674e-05,
      "loss": 0.8312,
      "step": 418
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.987201772071971e-05,
      "loss": 0.5376,
      "step": 419
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.9871214757011176e-05,
      "loss": 1.056,
      "step": 420
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.9870409288772005e-05,
      "loss": 1.1088,
      "step": 421
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.9869601316083284e-05,
      "loss": 0.5477,
      "step": 422
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.9868790839026404e-05,
      "loss": 0.6795,
      "step": 423
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.9867977857682965e-05,
      "loss": 0.5224,
      "step": 424
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.986716237213484e-05,
      "loss": 0.5375,
      "step": 425
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.986634438246413e-05,
      "loss": 0.7905,
      "step": 426
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.986552388875323e-05,
      "loss": 0.563,
      "step": 427
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.9864700891084756e-05,
      "loss": 0.4875,
      "step": 428
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.986387538954158e-05,
      "loss": 0.4413,
      "step": 429
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.9863047384206835e-05,
      "loss": 0.5209,
      "step": 430
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.9862216875163896e-05,
      "loss": 0.4202,
      "step": 431
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.9861383862496405e-05,
      "loss": 0.3509,
      "step": 432
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.986054834628823e-05,
      "loss": 0.6968,
      "step": 433
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.985971032662352e-05,
      "loss": 0.7782,
      "step": 434
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.985886980358666e-05,
      "loss": 0.476,
      "step": 435
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.9858026777262295e-05,
      "loss": 0.6217,
      "step": 436
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.9857181247735306e-05,
      "loss": 0.6646,
      "step": 437
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.985633321509085e-05,
      "loss": 1.0248,
      "step": 438
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.9855482679414324e-05,
      "loss": 0.9704,
      "step": 439
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.985462964079137e-05,
      "loss": 0.4524,
      "step": 440
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.985377409930789e-05,
      "loss": 0.5634,
      "step": 441
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.9852916055050035e-05,
      "loss": 0.5876,
      "step": 442
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.985205550810421e-05,
      "loss": 0.8222,
      "step": 443
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.985119245855708e-05,
      "loss": 0.7348,
      "step": 444
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.985032690649556e-05,
      "loss": 0.5419,
      "step": 445
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.984945885200679e-05,
      "loss": 0.5903,
      "step": 446
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.984858829517819e-05,
      "loss": 0.6229,
      "step": 447
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.984771523609744e-05,
      "loss": 0.7099,
      "step": 448
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.984683967485243e-05,
      "loss": 0.6028,
      "step": 449
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.984596161153136e-05,
      "loss": 0.3443,
      "step": 450
    },
    {
      "epoch": 0.04,
      "eval_loss": 0.6082293391227722,
      "eval_runtime": 74.3177,
      "eval_samples_per_second": 3.108,
      "eval_steps_per_second": 0.78,
      "step": 450
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.9845081046222625e-05,
      "loss": 0.394,
      "step": 451
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.984419797901491e-05,
      "loss": 0.3893,
      "step": 452
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.984331240999715e-05,
      "loss": 0.5893,
      "step": 453
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.984242433925849e-05,
      "loss": 0.4342,
      "step": 454
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.9841533766888395e-05,
      "loss": 0.5357,
      "step": 455
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.984064069297652e-05,
      "loss": 0.9112,
      "step": 456
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.9839745117612815e-05,
      "loss": 0.5541,
      "step": 457
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.983884704088745e-05,
      "loss": 0.7432,
      "step": 458
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.9837946462890866e-05,
      "loss": 0.5662,
      "step": 459
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.9837043383713753e-05,
      "loss": 0.3723,
      "step": 460
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.983613780344706e-05,
      "loss": 0.3947,
      "step": 461
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.9835229722181964e-05,
      "loss": 0.6137,
      "step": 462
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.983431914000991e-05,
      "loss": 0.5005,
      "step": 463
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.98334060570226e-05,
      "loss": 0.116,
      "step": 464
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.983249047331199e-05,
      "loss": 0.4162,
      "step": 465
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.983157238897026e-05,
      "loss": 0.5898,
      "step": 466
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.9830651804089864e-05,
      "loss": 0.4611,
      "step": 467
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.982972871876353e-05,
      "loss": 0.38,
      "step": 468
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.982880313308417e-05,
      "loss": 0.4583,
      "step": 469
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.982787504714503e-05,
      "loss": 0.4434,
      "step": 470
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.982694446103955e-05,
      "loss": 0.7421,
      "step": 471
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.9826011374861435e-05,
      "loss": 0.854,
      "step": 472
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.9825075788704656e-05,
      "loss": 0.681,
      "step": 473
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.982413770266342e-05,
      "loss": 0.4172,
      "step": 474
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.982319711683221e-05,
      "loss": 0.5902,
      "step": 475
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.982225403130572e-05,
      "loss": 0.6976,
      "step": 476
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.9821308446178934e-05,
      "loss": 0.5172,
      "step": 477
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.982036036154706e-05,
      "loss": 0.4105,
      "step": 478
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.981940977750558e-05,
      "loss": 0.6119,
      "step": 479
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.981845669415022e-05,
      "loss": 0.474,
      "step": 480
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.981750111157694e-05,
      "loss": 0.4216,
      "step": 481
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.981654302988198e-05,
      "loss": 0.6513,
      "step": 482
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.981558244916182e-05,
      "loss": 0.9019,
      "step": 483
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.9814619369513184e-05,
      "loss": 0.4784,
      "step": 484
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.9813653791033057e-05,
      "loss": 0.6036,
      "step": 485
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.981268571381867e-05,
      "loss": 0.5026,
      "step": 486
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.981171513796751e-05,
      "loss": 0.4932,
      "step": 487
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.981074206357731e-05,
      "loss": 0.556,
      "step": 488
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.9809766490746074e-05,
      "loss": 0.4225,
      "step": 489
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.980878841957203e-05,
      "loss": 0.7808,
      "step": 490
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.980780785015367e-05,
      "loss": 0.4139,
      "step": 491
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.9806824782589737e-05,
      "loss": 0.7057,
      "step": 492
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.980583921697922e-05,
      "loss": 0.3875,
      "step": 493
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.980485115342138e-05,
      "loss": 0.8572,
      "step": 494
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.9803860592015704e-05,
      "loss": 0.719,
      "step": 495
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.980286753286195e-05,
      "loss": 0.7209,
      "step": 496
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.980187197606011e-05,
      "loss": 0.3659,
      "step": 497
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.980087392171045e-05,
      "loss": 0.758,
      "step": 498
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.979987336991345e-05,
      "loss": 0.8174,
      "step": 499
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.9798870320769886e-05,
      "loss": 0.9695,
      "step": 500
    },
    {
      "epoch": 0.05,
      "eval_loss": 0.5970413684844971,
      "eval_runtime": 72.5667,
      "eval_samples_per_second": 3.183,
      "eval_steps_per_second": 0.799,
      "step": 500
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.979786477438076e-05,
      "loss": 0.3938,
      "step": 501
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.979685673084733e-05,
      "loss": 0.8628,
      "step": 502
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.97958461902711e-05,
      "loss": 0.7134,
      "step": 503
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.979483315275385e-05,
      "loss": 0.4396,
      "step": 504
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.979381761839757e-05,
      "loss": 0.6139,
      "step": 505
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.979279958730454e-05,
      "loss": 0.6341,
      "step": 506
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.979177905957726e-05,
      "loss": 1.0027,
      "step": 507
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.979075603531852e-05,
      "loss": 0.9674,
      "step": 508
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.978973051463132e-05,
      "loss": 0.724,
      "step": 509
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.978870249761893e-05,
      "loss": 0.756,
      "step": 510
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.978767198438488e-05,
      "loss": 0.5962,
      "step": 511
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.978663897503294e-05,
      "loss": 0.5516,
      "step": 512
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.978560346966714e-05,
      "loss": 0.3647,
      "step": 513
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.978456546839174e-05,
      "loss": 1.0308,
      "step": 514
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.978352497131128e-05,
      "loss": 0.6387,
      "step": 515
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.978248197853053e-05,
      "loss": 0.4594,
      "step": 516
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.978143649015452e-05,
      "loss": 0.9483,
      "step": 517
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.978038850628854e-05,
      "loss": 0.9749,
      "step": 518
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.977933802703812e-05,
      "loss": 1.2434,
      "step": 519
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.977828505250903e-05,
      "loss": 0.8763,
      "step": 520
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.9777229582807316e-05,
      "loss": 0.9004,
      "step": 521
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.9776171618039264e-05,
      "loss": 0.49,
      "step": 522
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.977511115831141e-05,
      "loss": 0.6131,
      "step": 523
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.9774048203730526e-05,
      "loss": 0.8303,
      "step": 524
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.977298275440368e-05,
      "loss": 0.6568,
      "step": 525
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.9771914810438144e-05,
      "loss": 0.5529,
      "step": 526
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.977084437194146e-05,
      "loss": 0.6793,
      "step": 527
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.976977143902143e-05,
      "loss": 0.5676,
      "step": 528
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.976869601178609e-05,
      "loss": 0.6577,
      "step": 529
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.9767618090343745e-05,
      "loss": 0.4773,
      "step": 530
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.976653767480293e-05,
      "loss": 0.4453,
      "step": 531
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.976545476527246e-05,
      "loss": 0.5257,
      "step": 532
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.976436936186136e-05,
      "loss": 0.491,
      "step": 533
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.976328146467895e-05,
      "loss": 0.6275,
      "step": 534
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.9762191073834776e-05,
      "loss": 0.5815,
      "step": 535
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.976109818943863e-05,
      "loss": 0.4945,
      "step": 536
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.976000281160057e-05,
      "loss": 0.5731,
      "step": 537
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.975890494043092e-05,
      "loss": 0.8256,
      "step": 538
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.975780457604021e-05,
      "loss": 0.4377,
      "step": 539
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.975670171853926e-05,
      "loss": 0.3518,
      "step": 540
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.975559636803913e-05,
      "loss": 0.4648,
      "step": 541
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.975448852465111e-05,
      "loss": 0.5418,
      "step": 542
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.9753378188486776e-05,
      "loss": 0.8305,
      "step": 543
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.975226535965795e-05,
      "loss": 0.559,
      "step": 544
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.975115003827666e-05,
      "loss": 0.6078,
      "step": 545
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.9750032224455244e-05,
      "loss": 0.3191,
      "step": 546
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.974891191830627e-05,
      "loss": 0.3324,
      "step": 547
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.974778911994254e-05,
      "loss": 0.2733,
      "step": 548
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.9746663829477113e-05,
      "loss": 0.34,
      "step": 549
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9745536047023324e-05,
      "loss": 0.3613,
      "step": 550
    },
    {
      "epoch": 0.06,
      "eval_loss": 0.5936978459358215,
      "eval_runtime": 74.2005,
      "eval_samples_per_second": 3.113,
      "eval_steps_per_second": 0.782,
      "step": 550
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9744405772694725e-05,
      "loss": 0.5014,
      "step": 551
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.974327300660515e-05,
      "loss": 0.4554,
      "step": 552
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.974213774886865e-05,
      "loss": 0.8921,
      "step": 553
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.974099999959957e-05,
      "loss": 0.2808,
      "step": 554
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.973985975891245e-05,
      "loss": 0.3787,
      "step": 555
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.973871702692214e-05,
      "loss": 0.6525,
      "step": 556
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9737571803743706e-05,
      "loss": 0.4897,
      "step": 557
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.973642408949246e-05,
      "loss": 0.4678,
      "step": 558
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.973527388428399e-05,
      "loss": 0.5889,
      "step": 559
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.973412118823412e-05,
      "loss": 0.5506,
      "step": 560
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9732966001458916e-05,
      "loss": 0.4381,
      "step": 561
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9731808324074717e-05,
      "loss": 0.6109,
      "step": 562
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.973064815619809e-05,
      "loss": 0.4542,
      "step": 563
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.972948549794587e-05,
      "loss": 0.8525,
      "step": 564
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.972832034943514e-05,
      "loss": 0.5466,
      "step": 565
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9727152710783235e-05,
      "loss": 0.6447,
      "step": 566
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9725982582107715e-05,
      "loss": 0.6457,
      "step": 567
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.972480996352644e-05,
      "loss": 0.4238,
      "step": 568
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.972363485515746e-05,
      "loss": 0.3693,
      "step": 569
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.972245725711914e-05,
      "loss": 0.5934,
      "step": 570
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.972127716953005e-05,
      "loss": 0.4956,
      "step": 571
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.972009459250903e-05,
      "loss": 0.4232,
      "step": 572
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.971890952617515e-05,
      "loss": 0.4165,
      "step": 573
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9717721970647754e-05,
      "loss": 0.3947,
      "step": 574
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9716531926046446e-05,
      "loss": 0.4366,
      "step": 575
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.971533939249105e-05,
      "loss": 0.4206,
      "step": 576
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.971414437010163e-05,
      "loss": 0.5225,
      "step": 577
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.971294685899857e-05,
      "loss": 0.3589,
      "step": 578
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9711746859302436e-05,
      "loss": 0.9089,
      "step": 579
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.971054437113406e-05,
      "loss": 1.2079,
      "step": 580
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.970933939461455e-05,
      "loss": 1.1637,
      "step": 581
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.970813192986524e-05,
      "loss": 1.1147,
      "step": 582
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9706921977007714e-05,
      "loss": 0.7921,
      "step": 583
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9705709536163824e-05,
      "loss": 0.5604,
      "step": 584
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.970449460745566e-05,
      "loss": 0.5509,
      "step": 585
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9703277191005556e-05,
      "loss": 0.3127,
      "step": 586
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.970205728693613e-05,
      "loss": 0.2098,
      "step": 587
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.970083489537021e-05,
      "loss": 0.3538,
      "step": 588
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.969961001643088e-05,
      "loss": 0.3941,
      "step": 589
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.969838265024151e-05,
      "loss": 0.4727,
      "step": 590
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9697152796925674e-05,
      "loss": 0.5654,
      "step": 591
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9695920456607226e-05,
      "loss": 0.3577,
      "step": 592
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9694685629410264e-05,
      "loss": 0.5573,
      "step": 593
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.969344831545914e-05,
      "loss": 0.3316,
      "step": 594
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9692208514878444e-05,
      "loss": 0.4971,
      "step": 595
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.969096622779303e-05,
      "loss": 0.4785,
      "step": 596
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9689721454327985e-05,
      "loss": 0.5819,
      "step": 597
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.968847419460867e-05,
      "loss": 0.3049,
      "step": 598
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9687224448760685e-05,
      "loss": 0.216,
      "step": 599
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.968597221690986e-05,
      "loss": 0.4075,
      "step": 600
    },
    {
      "epoch": 0.06,
      "eval_loss": 0.6104547381401062,
      "eval_runtime": 74.4418,
      "eval_samples_per_second": 3.103,
      "eval_steps_per_second": 0.779,
      "step": 600
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9684717499182315e-05,
      "loss": 0.584,
      "step": 601
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.968346029570439e-05,
      "loss": 0.4236,
      "step": 602
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9682200606602696e-05,
      "loss": 0.8391,
      "step": 603
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9680938432004074e-05,
      "loss": 0.787,
      "step": 604
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9679673772035624e-05,
      "loss": 0.7751,
      "step": 605
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.96784066268247e-05,
      "loss": 0.7739,
      "step": 606
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.967713699649891e-05,
      "loss": 0.6151,
      "step": 607
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.967586488118609e-05,
      "loss": 0.5542,
      "step": 608
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9674590281014354e-05,
      "loss": 0.6383,
      "step": 609
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.967331319611206e-05,
      "loss": 0.5716,
      "step": 610
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.967203362660779e-05,
      "loss": 0.7372,
      "step": 611
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.967075157263042e-05,
      "loss": 0.5174,
      "step": 612
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9669467034309035e-05,
      "loss": 0.5107,
      "step": 613
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9668180011773004e-05,
      "loss": 0.4419,
      "step": 614
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9666890505151906e-05,
      "loss": 0.5656,
      "step": 615
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.966559851457562e-05,
      "loss": 0.8392,
      "step": 616
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.966430404017424e-05,
      "loss": 0.7421,
      "step": 617
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.966300708207811e-05,
      "loss": 1.1243,
      "step": 618
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9661707640417845e-05,
      "loss": 1.12,
      "step": 619
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.96604057153243e-05,
      "loss": 0.8489,
      "step": 620
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.965910130692857e-05,
      "loss": 1.4645,
      "step": 621
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9657794415362014e-05,
      "loss": 1.2494,
      "step": 622
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.965648504075623e-05,
      "loss": 0.8771,
      "step": 623
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.965517318324308e-05,
      "loss": 0.6358,
      "step": 624
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.965385884295467e-05,
      "loss": 0.5833,
      "step": 625
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.965254202002334e-05,
      "loss": 0.5002,
      "step": 626
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.965122271458171e-05,
      "loss": 0.7094,
      "step": 627
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.964990092676263e-05,
      "loss": 0.7774,
      "step": 628
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9648576656699195e-05,
      "loss": 0.0792,
      "step": 629
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.964724990452476e-05,
      "loss": 0.5074,
      "step": 630
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.964592067037295e-05,
      "loss": 0.6906,
      "step": 631
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.964458895437759e-05,
      "loss": 0.6452,
      "step": 632
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9643254756672794e-05,
      "loss": 0.4555,
      "step": 633
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.964191807739293e-05,
      "loss": 0.5049,
      "step": 634
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.964057891667259e-05,
      "loss": 0.4868,
      "step": 635
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.963923727464661e-05,
      "loss": 0.6339,
      "step": 636
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.963789315145012e-05,
      "loss": 0.3244,
      "step": 637
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.963654654721848e-05,
      "loss": 0.2105,
      "step": 638
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.963519746208726e-05,
      "loss": 0.5185,
      "step": 639
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.963384589619233e-05,
      "loss": 0.5843,
      "step": 640
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.963249184966979e-05,
      "loss": 0.1213,
      "step": 641
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9631135322656e-05,
      "loss": 0.5081,
      "step": 642
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9629776315287555e-05,
      "loss": 0.5424,
      "step": 643
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9628414827701317e-05,
      "loss": 0.522,
      "step": 644
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.962705086003437e-05,
      "loss": 0.564,
      "step": 645
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.962568441242408e-05,
      "loss": 0.6166,
      "step": 646
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9624315485008036e-05,
      "loss": 0.5206,
      "step": 647
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.9622944077924106e-05,
      "loss": 0.5835,
      "step": 648
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.962157019131037e-05,
      "loss": 0.6917,
      "step": 649
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.962019382530521e-05,
      "loss": 0.5534,
      "step": 650
    },
    {
      "epoch": 0.07,
      "eval_loss": 0.5888915061950684,
      "eval_runtime": 74.8341,
      "eval_samples_per_second": 3.087,
      "eval_steps_per_second": 0.775,
      "step": 650
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.961881498004719e-05,
      "loss": 0.4717,
      "step": 651
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9617433655675174e-05,
      "loss": 0.5065,
      "step": 652
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.961604985232826e-05,
      "loss": 0.4428,
      "step": 653
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9614663570145815e-05,
      "loss": 0.3383,
      "step": 654
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9613274809267404e-05,
      "loss": 0.4437,
      "step": 655
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.961188356983291e-05,
      "loss": 0.6478,
      "step": 656
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.96104898519824e-05,
      "loss": 0.5795,
      "step": 657
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.960909365585624e-05,
      "loss": 0.6316,
      "step": 658
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.960769498159502e-05,
      "loss": 0.5064,
      "step": 659
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9606293829339595e-05,
      "loss": 0.5739,
      "step": 660
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.960489019923105e-05,
      "loss": 0.5168,
      "step": 661
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9603484091410735e-05,
      "loss": 0.5638,
      "step": 662
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.960207550602025e-05,
      "loss": 0.503,
      "step": 663
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.960066444320143e-05,
      "loss": 0.5044,
      "step": 664
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.959925090309637e-05,
      "loss": 0.7241,
      "step": 665
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.959783488584743e-05,
      "loss": 0.812,
      "step": 666
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.959641639159718e-05,
      "loss": 0.4091,
      "step": 667
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9594995420488475e-05,
      "loss": 0.5971,
      "step": 668
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.95935719726644e-05,
      "loss": 0.6795,
      "step": 669
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.959214604826831e-05,
      "loss": 0.4752,
      "step": 670
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9590717647443775e-05,
      "loss": 0.5231,
      "step": 671
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9589286770334654e-05,
      "loss": 0.3557,
      "step": 672
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.958785341708502e-05,
      "loss": 0.4605,
      "step": 673
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.958641758783922e-05,
      "loss": 0.8953,
      "step": 674
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.958497928274185e-05,
      "loss": 1.1342,
      "step": 675
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.958353850193773e-05,
      "loss": 0.8551,
      "step": 676
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.958209524557196e-05,
      "loss": 1.0098,
      "step": 677
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9580649513789876e-05,
      "loss": 1.1233,
      "step": 678
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9579201306737055e-05,
      "loss": 0.8855,
      "step": 679
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.957775062455933e-05,
      "loss": 0.6155,
      "step": 680
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9576297467402796e-05,
      "loss": 0.5712,
      "step": 681
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9574841835413773e-05,
      "loss": 0.6116,
      "step": 682
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.957338372873886e-05,
      "loss": 0.7677,
      "step": 683
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.957192314752487e-05,
      "loss": 0.6806,
      "step": 684
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.957046009191889e-05,
      "loss": 0.6431,
      "step": 685
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.956899456206826e-05,
      "loss": 0.5738,
      "step": 686
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.956752655812054e-05,
      "loss": 0.4557,
      "step": 687
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9566056080223574e-05,
      "loss": 0.6068,
      "step": 688
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9564583128525435e-05,
      "loss": 0.665,
      "step": 689
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9563107703174436e-05,
      "loss": 0.6815,
      "step": 690
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.956162980431917e-05,
      "loss": 0.6564,
      "step": 691
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.956014943210845e-05,
      "loss": 0.6604,
      "step": 692
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.955866658669136e-05,
      "loss": 0.5148,
      "step": 693
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9557181268217227e-05,
      "loss": 0.5461,
      "step": 694
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9555693476835597e-05,
      "loss": 0.656,
      "step": 695
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9554203212696304e-05,
      "loss": 0.6175,
      "step": 696
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9552710475949424e-05,
      "loss": 0.7542,
      "step": 697
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.955121526674528e-05,
      "loss": 0.855,
      "step": 698
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.954971758523442e-05,
      "loss": 0.5228,
      "step": 699
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9548217431567665e-05,
      "loss": 0.8592,
      "step": 700
    },
    {
      "epoch": 0.07,
      "eval_loss": 0.5875081419944763,
      "eval_runtime": 73.9276,
      "eval_samples_per_second": 3.125,
      "eval_steps_per_second": 0.785,
      "step": 700
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.95467148058961e-05,
      "loss": 0.5892,
      "step": 701
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9545209708371024e-05,
      "loss": 0.6602,
      "step": 702
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9543702139143996e-05,
      "loss": 0.6368,
      "step": 703
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.954219209836684e-05,
      "loss": 0.698,
      "step": 704
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9540679586191605e-05,
      "loss": 0.6832,
      "step": 705
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9539164602770604e-05,
      "loss": 0.7164,
      "step": 706
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.953764714825641e-05,
      "loss": 0.7606,
      "step": 707
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.953612722280181e-05,
      "loss": 0.8039,
      "step": 708
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.953460482655987e-05,
      "loss": 0.4628,
      "step": 709
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.95330799596839e-05,
      "loss": 0.4019,
      "step": 710
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.953155262232745e-05,
      "loss": 0.4369,
      "step": 711
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.953002281464432e-05,
      "loss": 0.6489,
      "step": 712
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.952849053678857e-05,
      "loss": 0.7662,
      "step": 713
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9526955788914485e-05,
      "loss": 0.7192,
      "step": 714
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.952541857117663e-05,
      "loss": 0.7775,
      "step": 715
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.952387888372979e-05,
      "loss": 0.416,
      "step": 716
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9522336726729024e-05,
      "loss": 0.677,
      "step": 717
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9520792100329616e-05,
      "loss": 0.6631,
      "step": 718
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9519245004687116e-05,
      "loss": 0.4333,
      "step": 719
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.951769543995731e-05,
      "loss": 0.8155,
      "step": 720
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.951614340629625e-05,
      "loss": 0.7352,
      "step": 721
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9514588903860214e-05,
      "loss": 0.5536,
      "step": 722
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9513031932805757e-05,
      "loss": 0.2685,
      "step": 723
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9511472493289646e-05,
      "loss": 0.4282,
      "step": 724
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.950991058546893e-05,
      "loss": 0.4777,
      "step": 725
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.950834620950088e-05,
      "loss": 0.48,
      "step": 726
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9506779365543046e-05,
      "loss": 0.4748,
      "step": 727
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.95052100537532e-05,
      "loss": 0.4794,
      "step": 728
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.950363827428937e-05,
      "loss": 0.4514,
      "step": 729
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9502064027309836e-05,
      "loss": 0.2449,
      "step": 730
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.950048731297313e-05,
      "loss": 0.5648,
      "step": 731
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9498908131438016e-05,
      "loss": 0.6343,
      "step": 732
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.949732648286353e-05,
      "loss": 0.469,
      "step": 733
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9495742367408926e-05,
      "loss": 0.8296,
      "step": 734
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9494155785233743e-05,
      "loss": 0.6801,
      "step": 735
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9492566736497744e-05,
      "loss": 0.4789,
      "step": 736
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9490975221360944e-05,
      "loss": 0.325,
      "step": 737
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.94893812399836e-05,
      "loss": 0.4111,
      "step": 738
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.948778479252625e-05,
      "loss": 0.3426,
      "step": 739
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.948618587914963e-05,
      "loss": 0.5252,
      "step": 740
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.948458450001477e-05,
      "loss": 0.594,
      "step": 741
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9482980655282915e-05,
      "loss": 0.9605,
      "step": 742
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9481374345115584e-05,
      "loss": 0.6671,
      "step": 743
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.947976556967452e-05,
      "loss": 0.7389,
      "step": 744
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.947815432912174e-05,
      "loss": 1.0028,
      "step": 745
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9476540623619485e-05,
      "loss": 0.6888,
      "step": 746
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.947492445333025e-05,
      "loss": 0.5044,
      "step": 747
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.9473305818416806e-05,
      "loss": 0.634,
      "step": 748
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.947168471904213e-05,
      "loss": 0.7764,
      "step": 749
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.947006115536947e-05,
      "loss": 0.487,
      "step": 750
    },
    {
      "epoch": 0.07,
      "eval_loss": 0.5822863578796387,
      "eval_runtime": 73.7829,
      "eval_samples_per_second": 3.131,
      "eval_steps_per_second": 0.786,
      "step": 750
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.9468435127562326e-05,
      "loss": 0.5895,
      "step": 751
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.946680663578443e-05,
      "loss": 0.762,
      "step": 752
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.946517568019978e-05,
      "loss": 0.3472,
      "step": 753
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.9463542260972606e-05,
      "loss": 0.7419,
      "step": 754
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.946190637826739e-05,
      "loss": 0.4947,
      "step": 755
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.946026803224888e-05,
      "loss": 0.4059,
      "step": 756
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.9458627223082046e-05,
      "loss": 0.551,
      "step": 757
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.945698395093212e-05,
      "loss": 0.5246,
      "step": 758
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.945533821596457e-05,
      "loss": 0.6468,
      "step": 759
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.9453690018345144e-05,
      "loss": 0.5306,
      "step": 760
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.94520393582398e-05,
      "loss": 0.7046,
      "step": 761
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.945038623581476e-05,
      "loss": 0.7403,
      "step": 762
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.9448730651236486e-05,
      "loss": 0.5293,
      "step": 763
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.944707260467172e-05,
      "loss": 0.9935,
      "step": 764
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.9445412096287404e-05,
      "loss": 0.6451,
      "step": 765
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.944374912625075e-05,
      "loss": 0.5945,
      "step": 766
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.944208369472924e-05,
      "loss": 0.5229,
      "step": 767
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.9440415801890566e-05,
      "loss": 0.6071,
      "step": 768
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.943874544790269e-05,
      "loss": 0.7172,
      "step": 769
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.9437072632933814e-05,
      "loss": 0.5427,
      "step": 770
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.94353973571524e-05,
      "loss": 0.6683,
      "step": 771
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.9433719620727136e-05,
      "loss": 0.6679,
      "step": 772
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.943203942382697e-05,
      "loss": 0.2238,
      "step": 773
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.943035676662111e-05,
      "loss": 0.3929,
      "step": 774
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.942867164927899e-05,
      "loss": 0.4248,
      "step": 775
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.9426984071970305e-05,
      "loss": 0.5328,
      "step": 776
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.942529403486499e-05,
      "loss": 0.4164,
      "step": 777
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.942360153813323e-05,
      "loss": 0.7493,
      "step": 778
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.942190658194547e-05,
      "loss": 0.5608,
      "step": 779
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.942020916647238e-05,
      "loss": 0.5023,
      "step": 780
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.9418509291884897e-05,
      "loss": 0.2955,
      "step": 781
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.94168069583542e-05,
      "loss": 0.5706,
      "step": 782
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.941510216605171e-05,
      "loss": 0.4534,
      "step": 783
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.9413394915149094e-05,
      "loss": 0.3834,
      "step": 784
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.941168520581828e-05,
      "loss": 0.6421,
      "step": 785
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.940997303823144e-05,
      "loss": 1.0766,
      "step": 786
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.9408258412560974e-05,
      "loss": 0.7549,
      "step": 787
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.940654132897956e-05,
      "loss": 0.9721,
      "step": 788
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.94048217876601e-05,
      "loss": 0.7417,
      "step": 789
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.9403099788775754e-05,
      "loss": 0.7783,
      "step": 790
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.9401375332499927e-05,
      "loss": 0.9411,
      "step": 791
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.939964841900627e-05,
      "loss": 1.0391,
      "step": 792
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.939791904846869e-05,
      "loss": 0.6536,
      "step": 793
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.9396187221061326e-05,
      "loss": 0.4458,
      "step": 794
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.939445293695857e-05,
      "loss": 0.6569,
      "step": 795
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.939271619633508e-05,
      "loss": 0.6609,
      "step": 796
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.9390976999365734e-05,
      "loss": 0.7462,
      "step": 797
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.938923534622567e-05,
      "loss": 0.7326,
      "step": 798
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.938749123709028e-05,
      "loss": 0.7939,
      "step": 799
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.938574467213518e-05,
      "loss": 0.5261,
      "step": 800
    },
    {
      "epoch": 0.08,
      "eval_loss": 0.5817704796791077,
      "eval_runtime": 73.6695,
      "eval_samples_per_second": 3.136,
      "eval_steps_per_second": 0.787,
      "step": 800
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.9383995651536266e-05,
      "loss": 0.588,
      "step": 801
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.938224417546965e-05,
      "loss": 0.5949,
      "step": 802
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.9380490244111716e-05,
      "loss": 0.1494,
      "step": 803
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.937873385763908e-05,
      "loss": 0.2772,
      "step": 804
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.937697501622862e-05,
      "loss": 0.4244,
      "step": 805
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.937521372005743e-05,
      "loss": 0.3226,
      "step": 806
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.9373449969302897e-05,
      "loss": 0.4404,
      "step": 807
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.9371683764142615e-05,
      "loss": 0.9064,
      "step": 808
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.936991510475444e-05,
      "loss": 0.6278,
      "step": 809
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.936814399131648e-05,
      "loss": 1.1324,
      "step": 810
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.93663704240071e-05,
      "loss": 0.6582,
      "step": 811
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.936459440300487e-05,
      "loss": 0.5273,
      "step": 812
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.936281592848866e-05,
      "loss": 0.4142,
      "step": 813
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.936103500063755e-05,
      "loss": 0.8026,
      "step": 814
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.9359251619630886e-05,
      "loss": 0.5359,
      "step": 815
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.9357465785648247e-05,
      "loss": 0.4981,
      "step": 816
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.935567749886947e-05,
      "loss": 0.7869,
      "step": 817
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.935388675947463e-05,
      "loss": 0.4591,
      "step": 818
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.935209356764406e-05,
      "loss": 0.8371,
      "step": 819
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.935029792355834e-05,
      "loss": 0.631,
      "step": 820
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.9348499827398284e-05,
      "loss": 0.7406,
      "step": 821
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.934669927934496e-05,
      "loss": 0.3887,
      "step": 822
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.934489627957969e-05,
      "loss": 0.5535,
      "step": 823
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.934309082828402e-05,
      "loss": 0.3997,
      "step": 824
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.934128292563978e-05,
      "loss": 0.4251,
      "step": 825
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.933947257182901e-05,
      "loss": 0.6411,
      "step": 826
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.9337659767034014e-05,
      "loss": 0.5345,
      "step": 827
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.933584451143736e-05,
      "loss": 0.3318,
      "step": 828
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.933402680522181e-05,
      "loss": 0.4912,
      "step": 829
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.933220664857044e-05,
      "loss": 0.4756,
      "step": 830
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.933038404166652e-05,
      "loss": 0.1617,
      "step": 831
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.93285589846936e-05,
      "loss": 0.1619,
      "step": 832
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.932673147783545e-05,
      "loss": 0.5347,
      "step": 833
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.932490152127611e-05,
      "loss": 0.6166,
      "step": 834
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.9323069115199846e-05,
      "loss": 0.3164,
      "step": 835
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.9321234259791196e-05,
      "loss": 0.3263,
      "step": 836
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.931939695523492e-05,
      "loss": 0.3827,
      "step": 837
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.931755720171603e-05,
      "loss": 0.461,
      "step": 838
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.9315714999419797e-05,
      "loss": 0.4215,
      "step": 839
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.931387034853173e-05,
      "loss": 0.5498,
      "step": 840
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.931202324923758e-05,
      "loss": 0.609,
      "step": 841
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.931017370172336e-05,
      "loss": 0.3935,
      "step": 842
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.930832170617531e-05,
      "loss": 0.6199,
      "step": 843
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.930646726277994e-05,
      "loss": 0.4925,
      "step": 844
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.930461037172397e-05,
      "loss": 0.8275,
      "step": 845
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.9302751033194406e-05,
      "loss": 0.4527,
      "step": 846
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.930088924737847e-05,
      "loss": 0.7004,
      "step": 847
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.929902501446366e-05,
      "loss": 0.9237,
      "step": 848
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.92971583346377e-05,
      "loss": 0.8759,
      "step": 849
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.929528920808854e-05,
      "loss": 0.5656,
      "step": 850
    },
    {
      "epoch": 0.09,
      "eval_loss": 0.5719671845436096,
      "eval_runtime": 73.7133,
      "eval_samples_per_second": 3.134,
      "eval_steps_per_second": 0.787,
      "step": 850
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.929341763500444e-05,
      "loss": 0.4424,
      "step": 851
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.929154361557384e-05,
      "loss": 0.5565,
      "step": 852
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.928966714998547e-05,
      "loss": 0.5437,
      "step": 853
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.928778823842828e-05,
      "loss": 0.362,
      "step": 854
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.9285906881091476e-05,
      "loss": 0.3749,
      "step": 855
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.928402307816451e-05,
      "loss": 0.238,
      "step": 856
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.928213682983709e-05,
      "loss": 0.3535,
      "step": 857
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.928024813629916e-05,
      "loss": 0.3732,
      "step": 858
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.9278356997740904e-05,
      "loss": 0.3415,
      "step": 859
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.9276463414352757e-05,
      "loss": 0.3582,
      "step": 860
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.927456738632542e-05,
      "loss": 0.5433,
      "step": 861
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.92726689138498e-05,
      "loss": 0.474,
      "step": 862
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.927076799711709e-05,
      "loss": 0.3946,
      "step": 863
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.92688646363187e-05,
      "loss": 0.7652,
      "step": 864
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.9266958831646315e-05,
      "loss": 0.4828,
      "step": 865
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.926505058329184e-05,
      "loss": 0.9748,
      "step": 866
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.926313989144743e-05,
      "loss": 1.0292,
      "step": 867
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.926122675630549e-05,
      "loss": 0.5177,
      "step": 868
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.925931117805869e-05,
      "loss": 0.5959,
      "step": 869
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.925739315689991e-05,
      "loss": 0.472,
      "step": 870
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.9255472693022306e-05,
      "loss": 0.4707,
      "step": 871
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.925354978661928e-05,
      "loss": 0.7326,
      "step": 872
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.9251624437884436e-05,
      "loss": 0.5086,
      "step": 873
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.924969664701168e-05,
      "loss": 0.4441,
      "step": 874
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.924776641419513e-05,
      "loss": 0.3872,
      "step": 875
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.9245833739629175e-05,
      "loss": 0.4503,
      "step": 876
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.924389862350842e-05,
      "loss": 0.3878,
      "step": 877
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.924196106602774e-05,
      "loss": 0.303,
      "step": 878
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.9240021067382244e-05,
      "loss": 0.6617,
      "step": 879
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.923807862776728e-05,
      "loss": 0.7394,
      "step": 880
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.9236133747378475e-05,
      "loss": 0.4339,
      "step": 881
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.923418642641166e-05,
      "loss": 0.5631,
      "step": 882
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.923223666506294e-05,
      "loss": 0.5317,
      "step": 883
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.923028446352864e-05,
      "loss": 0.9146,
      "step": 884
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.922832982200536e-05,
      "loss": 0.9427,
      "step": 885
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.922637274068993e-05,
      "loss": 0.3841,
      "step": 886
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.9224413219779434e-05,
      "loss": 0.5255,
      "step": 887
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.922245125947119e-05,
      "loss": 0.4685,
      "step": 888
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.922048685996276e-05,
      "loss": 0.7303,
      "step": 889
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.921852002145196e-05,
      "loss": 0.6245,
      "step": 890
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.921655074413687e-05,
      "loss": 0.453,
      "step": 891
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.9214579028215776e-05,
      "loss": 0.4749,
      "step": 892
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.921260487388724e-05,
      "loss": 0.5129,
      "step": 893
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.921062828135006e-05,
      "loss": 0.5829,
      "step": 894
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.920864925080326e-05,
      "loss": 0.5658,
      "step": 895
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.920666778244616e-05,
      "loss": 0.3088,
      "step": 896
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.9204683876478266e-05,
      "loss": 0.3482,
      "step": 897
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.920269753309937e-05,
      "loss": 0.3608,
      "step": 898
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.920070875250949e-05,
      "loss": 0.5511,
      "step": 899
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.919871753490891e-05,
      "loss": 0.2989,
      "step": 900
    },
    {
      "epoch": 0.09,
      "eval_loss": 0.5741930603981018,
      "eval_runtime": 73.7238,
      "eval_samples_per_second": 3.133,
      "eval_steps_per_second": 0.787,
      "step": 900
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.919672388049813e-05,
      "loss": 0.4454,
      "step": 901
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.9194727789477925e-05,
      "loss": 0.8523,
      "step": 902
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.919272926204929e-05,
      "loss": 0.4969,
      "step": 903
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.919072829841347e-05,
      "loss": 0.7005,
      "step": 904
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.918872489877198e-05,
      "loss": 0.5087,
      "step": 905
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.918671906332656e-05,
      "loss": 0.2942,
      "step": 906
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.918471079227918e-05,
      "loss": 0.3283,
      "step": 907
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.91827000858321e-05,
      "loss": 0.5421,
      "step": 908
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.918068694418777e-05,
      "loss": 0.4627,
      "step": 909
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.917867136754893e-05,
      "loss": 0.1136,
      "step": 910
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.917665335611855e-05,
      "loss": 0.3444,
      "step": 911
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.917463291009983e-05,
      "loss": 0.4331,
      "step": 912
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.917261002969624e-05,
      "loss": 0.345,
      "step": 913
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.917058471511149e-05,
      "loss": 0.2742,
      "step": 914
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.9168556966549515e-05,
      "loss": 0.3539,
      "step": 915
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.9166526784214506e-05,
      "loss": 0.3239,
      "step": 916
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.9164494168310925e-05,
      "loss": 0.6589,
      "step": 917
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.916245911904344e-05,
      "loss": 0.812,
      "step": 918
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.916042163661697e-05,
      "loss": 0.654,
      "step": 919
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.915838172123671e-05,
      "loss": 0.3942,
      "step": 920
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.915633937310808e-05,
      "loss": 0.4489,
      "step": 921
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.9154294592436725e-05,
      "loss": 0.5578,
      "step": 922
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.9152247379428573e-05,
      "loss": 0.4524,
      "step": 923
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.9150197734289766e-05,
      "loss": 0.3666,
      "step": 924
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.914814565722671e-05,
      "loss": 0.5837,
      "step": 925
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.914609114844605e-05,
      "loss": 0.401,
      "step": 926
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.914403420815466e-05,
      "loss": 0.3233,
      "step": 927
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.9141974836559704e-05,
      "loss": 0.5801,
      "step": 928
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.913991303386853e-05,
      "loss": 0.837,
      "step": 929
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.913784880028878e-05,
      "loss": 0.4178,
      "step": 930
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.913578213602831e-05,
      "loss": 0.4928,
      "step": 931
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.913371304129524e-05,
      "loss": 0.3917,
      "step": 932
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.913164151629793e-05,
      "loss": 0.4486,
      "step": 933
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.9129567561244974e-05,
      "loss": 0.4757,
      "step": 934
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.912749117634523e-05,
      "loss": 0.3778,
      "step": 935
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.912541236180779e-05,
      "loss": 0.709,
      "step": 936
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.912333111784198e-05,
      "loss": 0.2019,
      "step": 937
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.912124744465738e-05,
      "loss": 0.6071,
      "step": 938
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.911916134246384e-05,
      "loss": 0.3361,
      "step": 939
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.91170728114714e-05,
      "loss": 0.8143,
      "step": 940
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.9114981851890384e-05,
      "loss": 0.6419,
      "step": 941
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.911288846393136e-05,
      "loss": 0.6592,
      "step": 942
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.911079264780513e-05,
      "loss": 0.2441,
      "step": 943
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.910869440372274e-05,
      "loss": 0.6682,
      "step": 944
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.910659373189548e-05,
      "loss": 0.7283,
      "step": 945
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.9104490632534894e-05,
      "loss": 0.8975,
      "step": 946
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.910238510585276e-05,
      "loss": 0.2906,
      "step": 947
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.91002771520611e-05,
      "loss": 0.8257,
      "step": 948
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.9098166771372194e-05,
      "loss": 0.6182,
      "step": 949
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.909605396399856e-05,
      "loss": 0.3647,
      "step": 950
    },
    {
      "epoch": 0.1,
      "eval_loss": 0.5622363090515137,
      "eval_runtime": 73.7228,
      "eval_samples_per_second": 3.133,
      "eval_steps_per_second": 0.787,
      "step": 950
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.9093938730152936e-05,
      "loss": 0.6047,
      "step": 951
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.909182107004835e-05,
      "loss": 0.5037,
      "step": 952
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.908970098389805e-05,
      "loss": 0.9448,
      "step": 953
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.908757847191551e-05,
      "loss": 0.8945,
      "step": 954
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.9085453534314476e-05,
      "loss": 0.6547,
      "step": 955
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.908332617130893e-05,
      "loss": 0.7021,
      "step": 956
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.9081196383113106e-05,
      "loss": 0.5584,
      "step": 957
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.907906416994146e-05,
      "loss": 0.4166,
      "step": 958
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.9076929532008706e-05,
      "loss": 0.194,
      "step": 959
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.9074792469529815e-05,
      "loss": 0.9422,
      "step": 960
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.907265298271997e-05,
      "loss": 0.545,
      "step": 961
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.907051107179464e-05,
      "loss": 0.3657,
      "step": 962
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.906836673696949e-05,
      "loss": 0.8823,
      "step": 963
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.906621997846049e-05,
      "loss": 0.9489,
      "step": 964
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.9064070796483784e-05,
      "loss": 1.2077,
      "step": 965
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.90619191912558e-05,
      "loss": 0.7889,
      "step": 966
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.905976516299322e-05,
      "loss": 0.8412,
      "step": 967
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.905760871191295e-05,
      "loss": 0.2868,
      "step": 968
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.905544983823214e-05,
      "loss": 0.5597,
      "step": 969
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.9053288542168185e-05,
      "loss": 0.7556,
      "step": 970
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.905112482393873e-05,
      "loss": 0.5919,
      "step": 971
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.904895868376167e-05,
      "loss": 0.5269,
      "step": 972
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.904679012185512e-05,
      "loss": 0.57,
      "step": 973
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.904461913843747e-05,
      "loss": 0.513,
      "step": 974
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.904244573372733e-05,
      "loss": 0.5804,
      "step": 975
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.904026990794356e-05,
      "loss": 0.4483,
      "step": 976
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.903809166130526e-05,
      "loss": 0.3693,
      "step": 977
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.9035910994031805e-05,
      "loss": 0.4408,
      "step": 978
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.903372790634276e-05,
      "loss": 0.4466,
      "step": 979
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.9031542398457974e-05,
      "loss": 0.5941,
      "step": 980
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.902935447059753e-05,
      "loss": 0.5256,
      "step": 981
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.902716412298174e-05,
      "loss": 0.4252,
      "step": 982
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.902497135583118e-05,
      "loss": 0.4974,
      "step": 983
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.9022776169366666e-05,
      "loss": 0.749,
      "step": 984
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.9020578563809256e-05,
      "loss": 0.3546,
      "step": 985
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.901837853938024e-05,
      "loss": 0.2833,
      "step": 986
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.9016176096301156e-05,
      "loss": 0.3902,
      "step": 987
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.9013971234793795e-05,
      "loss": 0.4881,
      "step": 988
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.9011763955080195e-05,
      "loss": 0.7818,
      "step": 989
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.9009554257382616e-05,
      "loss": 0.4916,
      "step": 990
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.900734214192358e-05,
      "loss": 0.5413,
      "step": 991
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.900512760892585e-05,
      "loss": 0.2923,
      "step": 992
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.9002910658612425e-05,
      "loss": 0.29,
      "step": 993
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.9000691291206555e-05,
      "loss": 0.2405,
      "step": 994
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.8998469506931726e-05,
      "loss": 0.3063,
      "step": 995
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.899624530601168e-05,
      "loss": 0.3184,
      "step": 996
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.899401868867038e-05,
      "loss": 0.3978,
      "step": 997
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.899178965513206e-05,
      "loss": 0.4153,
      "step": 998
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.898955820562118e-05,
      "loss": 0.8505,
      "step": 999
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.898732434036244e-05,
      "loss": 0.2069,
      "step": 1000
    },
    {
      "epoch": 0.1,
      "eval_loss": 0.5629862546920776,
      "eval_runtime": 73.8812,
      "eval_samples_per_second": 3.127,
      "eval_steps_per_second": 0.785,
      "step": 1000
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.89850880595808e-05,
      "loss": 0.3643,
      "step": 1001
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.898284936350144e-05,
      "loss": 0.5738,
      "step": 1002
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.8980608252349816e-05,
      "loss": 0.448,
      "step": 1003
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.897836472635159e-05,
      "loss": 0.3721,
      "step": 1004
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.8976118785732695e-05,
      "loss": 0.5195,
      "step": 1005
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.8973870430719296e-05,
      "loss": 0.4994,
      "step": 1006
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.8971619661537796e-05,
      "loss": 0.4122,
      "step": 1007
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.8969366478414854e-05,
      "loss": 0.5538,
      "step": 1008
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.896711088157736e-05,
      "loss": 0.3462,
      "step": 1009
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.896485287125246e-05,
      "loss": 0.7995,
      "step": 1010
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.8962592447667534e-05,
      "loss": 0.5188,
      "step": 1011
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.8960329611050204e-05,
      "loss": 0.5097,
      "step": 1012
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.895806436162833e-05,
      "loss": 0.5859,
      "step": 1013
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.895579669963004e-05,
      "loss": 0.3894,
      "step": 1014
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.8953526625283675e-05,
      "loss": 0.326,
      "step": 1015
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.895125413881783e-05,
      "loss": 0.5485,
      "step": 1016
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.894897924046135e-05,
      "loss": 0.4239,
      "step": 1017
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.894670193044332e-05,
      "loss": 0.3831,
      "step": 1018
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.894442220899306e-05,
      "loss": 0.3396,
      "step": 1019
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.8942140076340135e-05,
      "loss": 0.3409,
      "step": 1020
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.893985553271436e-05,
      "loss": 0.3866,
      "step": 1021
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.8937568578345785e-05,
      "loss": 0.3834,
      "step": 1022
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.893527921346472e-05,
      "loss": 0.4597,
      "step": 1023
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.893298743830168e-05,
      "loss": 0.3374,
      "step": 1024
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.8930693253087464e-05,
      "loss": 0.8339,
      "step": 1025
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.89283966580531e-05,
      "loss": 1.0939,
      "step": 1026
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.892609765342984e-05,
      "loss": 1.0881,
      "step": 1027
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.8923796239449204e-05,
      "loss": 1.0123,
      "step": 1028
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.892149241634294e-05,
      "loss": 0.7462,
      "step": 1029
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.8919186184343046e-05,
      "loss": 0.491,
      "step": 1030
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.8916877543681754e-05,
      "loss": 0.4818,
      "step": 1031
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.891456649459155e-05,
      "loss": 0.2802,
      "step": 1032
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.8912253037305155e-05,
      "loss": 0.1793,
      "step": 1033
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.890993717205553e-05,
      "loss": 0.312,
      "step": 1034
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.890761889907589e-05,
      "loss": 0.3317,
      "step": 1035
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.890529821859968e-05,
      "loss": 0.3949,
      "step": 1036
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.8902975130860594e-05,
      "loss": 0.4669,
      "step": 1037
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.890064963609256e-05,
      "loss": 0.3082,
      "step": 1038
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.889832173452977e-05,
      "loss": 0.502,
      "step": 1039
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.889599142640663e-05,
      "loss": 0.2841,
      "step": 1040
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.889365871195781e-05,
      "loss": 0.4328,
      "step": 1041
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.889132359141822e-05,
      "loss": 0.4021,
      "step": 1042
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.888898606502298e-05,
      "loss": 0.4813,
      "step": 1043
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.888664613300751e-05,
      "loss": 0.2259,
      "step": 1044
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.888430379560742e-05,
      "loss": 0.1829,
      "step": 1045
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.888195905305859e-05,
      "loss": 0.3485,
      "step": 1046
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.8879611905597146e-05,
      "loss": 0.5823,
      "step": 1047
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.887726235345943e-05,
      "loss": 0.3949,
      "step": 1048
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.8874910396882054e-05,
      "loss": 0.7423,
      "step": 1049
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.887255603610185e-05,
      "loss": 0.6882,
      "step": 1050
    },
    {
      "epoch": 0.1,
      "eval_loss": 0.5688005685806274,
      "eval_runtime": 69.9979,
      "eval_samples_per_second": 3.3,
      "eval_steps_per_second": 0.829,
      "step": 1050
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.887019927135591e-05,
      "loss": 0.6703,
      "step": 1051
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.886784010288155e-05,
      "loss": 0.7029,
      "step": 1052
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.8865478530916356e-05,
      "loss": 0.569,
      "step": 1053
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.886311455569811e-05,
      "loss": 0.4273,
      "step": 1054
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.886074817746489e-05,
      "loss": 0.5751,
      "step": 1055
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.8858379396454986e-05,
      "loss": 0.4924,
      "step": 1056
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.8856008212906925e-05,
      "loss": 0.664,
      "step": 1057
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.885363462705948e-05,
      "loss": 0.5064,
      "step": 1058
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.88512586391517e-05,
      "loss": 0.4416,
      "step": 1059
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.8848880249422815e-05,
      "loss": 0.4022,
      "step": 1060
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.8846499458112346e-05,
      "loss": 0.4953,
      "step": 1061
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.884411626546004e-05,
      "loss": 0.7858,
      "step": 1062
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.884173067170587e-05,
      "loss": 0.6951,
      "step": 1063
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.883934267709007e-05,
      "loss": 1.1088,
      "step": 1064
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.883695228185312e-05,
      "loss": 1.063,
      "step": 1065
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.883455948623573e-05,
      "loss": 0.8006,
      "step": 1066
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.883216429047885e-05,
      "loss": 1.3842,
      "step": 1067
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.882976669482367e-05,
      "loss": 1.2112,
      "step": 1068
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.882736669951165e-05,
      "loss": 0.8245,
      "step": 1069
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.8824964304784446e-05,
      "loss": 0.5148,
      "step": 1070
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.882255951088399e-05,
      "loss": 0.502,
      "step": 1071
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.882015231805245e-05,
      "loss": 0.4873,
      "step": 1072
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.881774272653222e-05,
      "loss": 0.5592,
      "step": 1073
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.881533073656595e-05,
      "loss": 0.7514,
      "step": 1074
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.8812916348396515e-05,
      "loss": 0.0574,
      "step": 1075
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.8810499562267064e-05,
      "loss": 0.4329,
      "step": 1076
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.880808037842096e-05,
      "loss": 0.5841,
      "step": 1077
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.88056587971018e-05,
      "loss": 0.5524,
      "step": 1078
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.880323481855347e-05,
      "loss": 0.4033,
      "step": 1079
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.880080844302004e-05,
      "loss": 0.4474,
      "step": 1080
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.879837967074584e-05,
      "loss": 0.4232,
      "step": 1081
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.879594850197547e-05,
      "loss": 0.5326,
      "step": 1082
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.879351493695373e-05,
      "loss": 0.253,
      "step": 1083
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.8791078975925694e-05,
      "loss": 0.1852,
      "step": 1084
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.878864061913665e-05,
      "loss": 0.4475,
      "step": 1085
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.878619986683215e-05,
      "loss": 0.4705,
      "step": 1086
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.878375671925797e-05,
      "loss": 0.1403,
      "step": 1087
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.878131117666014e-05,
      "loss": 0.4861,
      "step": 1088
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.877886323928493e-05,
      "loss": 0.5282,
      "step": 1089
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.877641290737884e-05,
      "loss": 0.452,
      "step": 1090
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.877396018118862e-05,
      "loss": 0.4948,
      "step": 1091
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.8771505060961265e-05,
      "loss": 0.5992,
      "step": 1092
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.876904754694399e-05,
      "loss": 0.4444,
      "step": 1093
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.876658763938429e-05,
      "loss": 0.5178,
      "step": 1094
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.8764125338529854e-05,
      "loss": 0.6297,
      "step": 1095
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.876166064462865e-05,
      "loss": 0.4905,
      "step": 1096
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.875919355792887e-05,
      "loss": 0.4131,
      "step": 1097
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.875672407867896e-05,
      "loss": 0.4151,
      "step": 1098
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.875425220712757e-05,
      "loss": 0.3883,
      "step": 1099
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.8751777943523634e-05,
      "loss": 0.3113,
      "step": 1100
    },
    {
      "epoch": 0.11,
      "eval_loss": 0.5613126158714294,
      "eval_runtime": 67.7326,
      "eval_samples_per_second": 3.41,
      "eval_steps_per_second": 0.856,
      "step": 1100
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.874930128811631e-05,
      "loss": 0.4043,
      "step": 1101
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.8746822241155e-05,
      "loss": 0.573,
      "step": 1102
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.874434080288934e-05,
      "loss": 0.5332,
      "step": 1103
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.874185697356921e-05,
      "loss": 0.6165,
      "step": 1104
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.873937075344474e-05,
      "loss": 0.4809,
      "step": 1105
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.873688214276627e-05,
      "loss": 0.5479,
      "step": 1106
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.8734391141784426e-05,
      "loss": 0.472,
      "step": 1107
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.8731897750750047e-05,
      "loss": 0.5079,
      "step": 1108
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.87294019699142e-05,
      "loss": 0.4645,
      "step": 1109
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.8726903799528234e-05,
      "loss": 0.4856,
      "step": 1110
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.872440323984371e-05,
      "loss": 0.6691,
      "step": 1111
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.8721900291112415e-05,
      "loss": 0.7469,
      "step": 1112
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.8719394953586416e-05,
      "loss": 0.3687,
      "step": 1113
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.8716887227517995e-05,
      "loss": 0.5764,
      "step": 1114
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.8714377113159684e-05,
      "loss": 0.6271,
      "step": 1115
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.871186461076424e-05,
      "loss": 0.4089,
      "step": 1116
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.870934972058468e-05,
      "loss": 0.3953,
      "step": 1117
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.870683244287425e-05,
      "loss": 0.2362,
      "step": 1118
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.870431277788644e-05,
      "loss": 0.4031,
      "step": 1119
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.870179072587499e-05,
      "loss": 0.8201,
      "step": 1120
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.869926628709386e-05,
      "loss": 0.9723,
      "step": 1121
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.869673946179726e-05,
      "loss": 0.7656,
      "step": 1122
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.869421025023965e-05,
      "loss": 0.9546,
      "step": 1123
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.869167865267571e-05,
      "loss": 0.9757,
      "step": 1124
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.8689144669360375e-05,
      "loss": 0.7834,
      "step": 1125
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.868660830054883e-05,
      "loss": 0.5493,
      "step": 1126
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.868406954649647e-05,
      "loss": 0.521,
      "step": 1127
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.868152840745895e-05,
      "loss": 0.5595,
      "step": 1128
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.867898488369218e-05,
      "loss": 0.6766,
      "step": 1129
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.8676438975452274e-05,
      "loss": 0.5878,
      "step": 1130
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.867389068299561e-05,
      "loss": 0.5975,
      "step": 1131
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.86713400065788e-05,
      "loss": 0.5266,
      "step": 1132
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.866878694645871e-05,
      "loss": 0.3982,
      "step": 1133
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.8666231502892415e-05,
      "loss": 0.5446,
      "step": 1134
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.866367367613725e-05,
      "loss": 0.5879,
      "step": 1135
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.86611134664508e-05,
      "loss": 0.643,
      "step": 1136
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.865855087409087e-05,
      "loss": 0.5679,
      "step": 1137
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.8655985899315516e-05,
      "loss": 0.5588,
      "step": 1138
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.865341854238302e-05,
      "loss": 0.4467,
      "step": 1139
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.865084880355193e-05,
      "loss": 0.4919,
      "step": 1140
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.864827668308102e-05,
      "loss": 0.5898,
      "step": 1141
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.8645702181229285e-05,
      "loss": 0.591,
      "step": 1142
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.8643125298255985e-05,
      "loss": 0.6709,
      "step": 1143
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.864054603442062e-05,
      "loss": 0.7782,
      "step": 1144
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.8637964389982926e-05,
      "loss": 0.4681,
      "step": 1145
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.8635380365202853e-05,
      "loss": 0.7899,
      "step": 1146
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.8632793960340626e-05,
      "loss": 0.5369,
      "step": 1147
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.86302051756567e-05,
      "loss": 0.647,
      "step": 1148
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.862761401141175e-05,
      "loss": 0.4883,
      "step": 1149
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.862502046786671e-05,
      "loss": 0.6235,
      "step": 1150
    },
    {
      "epoch": 0.12,
      "eval_loss": 0.5598667860031128,
      "eval_runtime": 67.5078,
      "eval_samples_per_second": 3.422,
      "eval_steps_per_second": 0.859,
      "step": 1150
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.862242454528277e-05,
      "loss": 0.6017,
      "step": 1151
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.861982624392132e-05,
      "loss": 0.6293,
      "step": 1152
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.861722556404401e-05,
      "loss": 0.7365,
      "step": 1153
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.8614622505912736e-05,
      "loss": 0.7289,
      "step": 1154
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.8612017069789614e-05,
      "loss": 0.4247,
      "step": 1155
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.860940925593703e-05,
      "loss": 0.3659,
      "step": 1156
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.8606799064617576e-05,
      "loss": 0.3914,
      "step": 1157
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.86041864960941e-05,
      "loss": 0.5365,
      "step": 1158
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.8601571550629684e-05,
      "loss": 0.7141,
      "step": 1159
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.859895422848767e-05,
      "loss": 0.6517,
      "step": 1160
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.859633452993161e-05,
      "loss": 0.7299,
      "step": 1161
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.85937124552253e-05,
      "loss": 0.4108,
      "step": 1162
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.85910880046328e-05,
      "loss": 0.6007,
      "step": 1163
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.8588461178418374e-05,
      "loss": 0.6077,
      "step": 1164
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.8585831976846564e-05,
      "loss": 0.3624,
      "step": 1165
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.858320040018212e-05,
      "loss": 0.8118,
      "step": 1166
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.858056644869002e-05,
      "loss": 0.6493,
      "step": 1167
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.857793012263555e-05,
      "loss": 0.5047,
      "step": 1168
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.857529142228414e-05,
      "loss": 0.2532,
      "step": 1169
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.8572650347901544e-05,
      "loss": 0.3836,
      "step": 1170
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.8570006899753695e-05,
      "loss": 0.4225,
      "step": 1171
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.85673610781068e-05,
      "loss": 0.4334,
      "step": 1172
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.8564712883227294e-05,
      "loss": 0.4247,
      "step": 1173
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.856206231538184e-05,
      "loss": 0.4971,
      "step": 1174
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.855940937483735e-05,
      "loss": 0.4308,
      "step": 1175
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.855675406186099e-05,
      "loss": 0.1872,
      "step": 1176
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.855409637672014e-05,
      "loss": 0.5781,
      "step": 1177
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.855143631968242e-05,
      "loss": 0.5677,
      "step": 1178
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.8548773891015714e-05,
      "loss": 0.4327,
      "step": 1179
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.854610909098812e-05,
      "loss": 0.8156,
      "step": 1180
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.854344191986798e-05,
      "loss": 0.538,
      "step": 1181
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.854077237792389e-05,
      "loss": 0.4088,
      "step": 1182
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.8538100465424664e-05,
      "loss": 0.3072,
      "step": 1183
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.8535426182639366e-05,
      "loss": 0.3636,
      "step": 1184
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.8532749529837294e-05,
      "loss": 0.3368,
      "step": 1185
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.8530070507287994e-05,
      "loss": 0.449,
      "step": 1186
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.852738911526123e-05,
      "loss": 0.5537,
      "step": 1187
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.852470535402703e-05,
      "loss": 0.9073,
      "step": 1188
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.852201922385564e-05,
      "loss": 0.6233,
      "step": 1189
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.851933072501756e-05,
      "loss": 0.7408,
      "step": 1190
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.851663985778352e-05,
      "loss": 0.9393,
      "step": 1191
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.851394662242449e-05,
      "loss": 0.6159,
      "step": 1192
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.851125101921168e-05,
      "loss": 0.4906,
      "step": 1193
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.850855304841653e-05,
      "loss": 0.5877,
      "step": 1194
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.850585271031074e-05,
      "loss": 0.6662,
      "step": 1195
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.850315000516622e-05,
      "loss": 0.4564,
      "step": 1196
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.8500444933255136e-05,
      "loss": 0.5261,
      "step": 1197
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.849773749484989e-05,
      "loss": 0.65,
      "step": 1198
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.849502769022313e-05,
      "loss": 0.3359,
      "step": 1199
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.849231551964771e-05,
      "loss": 0.6073,
      "step": 1200
    },
    {
      "epoch": 0.12,
      "eval_loss": 0.5582781434059143,
      "eval_runtime": 67.2456,
      "eval_samples_per_second": 3.435,
      "eval_steps_per_second": 0.863,
      "step": 1200
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.8489600983396765e-05,
      "loss": 0.4462,
      "step": 1201
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.8486884081743654e-05,
      "loss": 0.3314,
      "step": 1202
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.848416481496195e-05,
      "loss": 0.4997,
      "step": 1203
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.848144318332549e-05,
      "loss": 0.4982,
      "step": 1204
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.8478719187108344e-05,
      "loss": 0.5781,
      "step": 1205
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.8475992826584826e-05,
      "loss": 0.4281,
      "step": 1206
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.847326410202947e-05,
      "loss": 0.5794,
      "step": 1207
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.8470533013717055e-05,
      "loss": 0.7125,
      "step": 1208
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.8467799561922614e-05,
      "loss": 0.5189,
      "step": 1209
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.8465063746921395e-05,
      "loss": 0.9685,
      "step": 1210
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.84623255689889e-05,
      "loss": 0.4678,
      "step": 1211
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.8459585028400864e-05,
      "loss": 0.5452,
      "step": 1212
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.8456842125433255e-05,
      "loss": 0.4808,
      "step": 1213
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.845409686036229e-05,
      "loss": 0.5678,
      "step": 1214
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.845134923346441e-05,
      "loss": 0.6176,
      "step": 1215
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.84485992450163e-05,
      "loss": 0.4585,
      "step": 1216
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.8445846895294894e-05,
      "loss": 0.6083,
      "step": 1217
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.8443092184577344e-05,
      "loss": 0.5851,
      "step": 1218
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.844033511314106e-05,
      "loss": 0.1332,
      "step": 1219
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.8437575681263656e-05,
      "loss": 0.4254,
      "step": 1220
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.843481388922303e-05,
      "loss": 0.3706,
      "step": 1221
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.843204973729729e-05,
      "loss": 0.5288,
      "step": 1222
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.8429283225764774e-05,
      "loss": 0.4231,
      "step": 1223
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.842651435490409e-05,
      "loss": 0.7227,
      "step": 1224
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.842374312499405e-05,
      "loss": 0.4096,
      "step": 1225
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.842096953631371e-05,
      "loss": 0.4484,
      "step": 1226
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.841819358914238e-05,
      "loss": 0.2488,
      "step": 1227
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.84154152837596e-05,
      "loss": 0.5499,
      "step": 1228
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.841263462044514e-05,
      "loss": 0.3679,
      "step": 1229
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.8409851599479015e-05,
      "loss": 0.3764,
      "step": 1230
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.840706622114147e-05,
      "loss": 0.6517,
      "step": 1231
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.8404278485713005e-05,
      "loss": 0.9365,
      "step": 1232
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.840148839347434e-05,
      "loss": 0.6205,
      "step": 1233
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.839869594470642e-05,
      "loss": 0.9696,
      "step": 1234
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.839590113969047e-05,
      "loss": 0.7075,
      "step": 1235
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.839310397870791e-05,
      "loss": 0.6818,
      "step": 1236
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.8390304462040414e-05,
      "loss": 0.7666,
      "step": 1237
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.8387502589969916e-05,
      "loss": 0.9876,
      "step": 1238
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.838469836277853e-05,
      "loss": 0.4617,
      "step": 1239
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.838189178074867e-05,
      "loss": 0.401,
      "step": 1240
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.837908284416294e-05,
      "loss": 0.637,
      "step": 1241
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.837627155330421e-05,
      "loss": 0.6022,
      "step": 1242
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.837345790845557e-05,
      "loss": 0.7197,
      "step": 1243
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.837064190990036e-05,
      "loss": 0.6484,
      "step": 1244
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.8367823557922155e-05,
      "loss": 0.6691,
      "step": 1245
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.836500285280475e-05,
      "loss": 0.5512,
      "step": 1246
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.836217979483221e-05,
      "loss": 0.5023,
      "step": 1247
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.835935438428879e-05,
      "loss": 0.4462,
      "step": 1248
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.835652662145903e-05,
      "loss": 0.1189,
      "step": 1249
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.835369650662767e-05,
      "loss": 0.2483,
      "step": 1250
    },
    {
      "epoch": 0.12,
      "eval_loss": 0.5568283796310425,
      "eval_runtime": 66.8974,
      "eval_samples_per_second": 3.453,
      "eval_steps_per_second": 0.867,
      "step": 1250
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.8350864040079715e-05,
      "loss": 0.4702,
      "step": 1251
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.834802922210039e-05,
      "loss": 0.2648,
      "step": 1252
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.8345192052975166e-05,
      "loss": 0.3836,
      "step": 1253
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.834235253298973e-05,
      "loss": 0.8729,
      "step": 1254
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.8339510662430046e-05,
      "loss": 0.5689,
      "step": 1255
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.8336666441582265e-05,
      "loss": 1.0063,
      "step": 1256
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.833381987073282e-05,
      "loss": 0.565,
      "step": 1257
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.833097095016835e-05,
      "loss": 0.411,
      "step": 1258
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.832811968017575e-05,
      "loss": 0.5089,
      "step": 1259
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.832526606104213e-05,
      "loss": 0.6622,
      "step": 1260
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.8322410093054854e-05,
      "loss": 0.4594,
      "step": 1261
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.831955177650153e-05,
      "loss": 0.5151,
      "step": 1262
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.8316691111669964e-05,
      "loss": 0.7155,
      "step": 1263
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.831382809884825e-05,
      "loss": 0.4194,
      "step": 1264
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.8310962738324686e-05,
      "loss": 0.7444,
      "step": 1265
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.830809503038781e-05,
      "loss": 0.5995,
      "step": 1266
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.83052249753264e-05,
      "loss": 0.6697,
      "step": 1267
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.8302352573429476e-05,
      "loss": 0.3341,
      "step": 1268
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.829947782498628e-05,
      "loss": 0.5603,
      "step": 1269
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.829660073028631e-05,
      "loss": 0.2878,
      "step": 1270
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.8293721289619286e-05,
      "loss": 0.384,
      "step": 1271
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.829083950327516e-05,
      "loss": 0.6235,
      "step": 1272
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.828795537154414e-05,
      "loss": 0.5354,
      "step": 1273
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.828506889471664e-05,
      "loss": 0.3167,
      "step": 1274
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.8282180073083346e-05,
      "loss": 0.4271,
      "step": 1275
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.8279288906935155e-05,
      "loss": 0.3745,
      "step": 1276
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.827639539656321e-05,
      "loss": 0.127,
      "step": 1277
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.827349954225888e-05,
      "loss": 0.1411,
      "step": 1278
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.827060134431379e-05,
      "loss": 0.4626,
      "step": 1279
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.826770080301978e-05,
      "loss": 0.5845,
      "step": 1280
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.8264797918668933e-05,
      "loss": 0.2916,
      "step": 1281
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.8261892691553576e-05,
      "loss": 0.2809,
      "step": 1282
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.825898512196626e-05,
      "loss": 0.3841,
      "step": 1283
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.8256075210199776e-05,
      "loss": 0.4009,
      "step": 1284
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.8253162956547155e-05,
      "loss": 0.3874,
      "step": 1285
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.8250248361301665e-05,
      "loss": 0.4098,
      "step": 1286
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.8247331424756794e-05,
      "loss": 0.5591,
      "step": 1287
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.8244412147206284e-05,
      "loss": 0.342,
      "step": 1288
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.824149052894411e-05,
      "loss": 0.59,
      "step": 1289
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.823856657026448e-05,
      "loss": 0.4772,
      "step": 1290
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.823564027146183e-05,
      "loss": 0.7114,
      "step": 1291
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.823271163283084e-05,
      "loss": 0.406,
      "step": 1292
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.822978065466642e-05,
      "loss": 0.7362,
      "step": 1293
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.822684733726373e-05,
      "loss": 0.8482,
      "step": 1294
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.8223911680918146e-05,
      "loss": 0.7928,
      "step": 1295
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.822097368592529e-05,
      "loss": 0.5358,
      "step": 1296
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.8218033352581024e-05,
      "loss": 0.3678,
      "step": 1297
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.821509068118143e-05,
      "loss": 0.5297,
      "step": 1298
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.8212145672022844e-05,
      "loss": 0.4751,
      "step": 1299
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.8209198325401815e-05,
      "loss": 0.3006,
      "step": 1300
    },
    {
      "epoch": 0.13,
      "eval_loss": 0.550031840801239,
      "eval_runtime": 68.576,
      "eval_samples_per_second": 3.369,
      "eval_steps_per_second": 0.846,
      "step": 1300
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.820624864161516e-05,
      "loss": 0.3333,
      "step": 1301
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.820329662095989e-05,
      "loss": 0.1932,
      "step": 1302
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.82003422637333e-05,
      "loss": 0.3263,
      "step": 1303
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.8197385570232866e-05,
      "loss": 0.3164,
      "step": 1304
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.819442654075635e-05,
      "loss": 0.2949,
      "step": 1305
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.8191465175601706e-05,
      "loss": 0.3947,
      "step": 1306
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.818850147506716e-05,
      "loss": 0.5003,
      "step": 1307
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.8185535439451146e-05,
      "loss": 0.3878,
      "step": 1308
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.8182567069052353e-05,
      "loss": 0.3781,
      "step": 1309
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.817959636416969e-05,
      "loss": 0.712,
      "step": 1310
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.81766233251023e-05,
      "loss": 0.4819,
      "step": 1311
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.817364795214958e-05,
      "loss": 0.8471,
      "step": 1312
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.817067024561115e-05,
      "loss": 0.93,
      "step": 1313
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.816769020578685e-05,
      "loss": 0.4714,
      "step": 1314
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.8164707832976783e-05,
      "loss": 0.5217,
      "step": 1315
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.816172312748128e-05,
      "loss": 0.4664,
      "step": 1316
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.815873608960089e-05,
      "loss": 0.5761,
      "step": 1317
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.81557467196364e-05,
      "loss": 0.5849,
      "step": 1318
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.815275501788885e-05,
      "loss": 0.5184,
      "step": 1319
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.8149760984659506e-05,
      "loss": 0.3719,
      "step": 1320
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.814676462024988e-05,
      "loss": 0.3852,
      "step": 1321
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.814376592496167e-05,
      "loss": 0.4318,
      "step": 1322
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.814076489909687e-05,
      "loss": 0.3462,
      "step": 1323
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.813776154295767e-05,
      "loss": 0.3223,
      "step": 1324
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.8134755856846524e-05,
      "loss": 0.5972,
      "step": 1325
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.81317478410661e-05,
      "loss": 0.7002,
      "step": 1326
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.81287374959193e-05,
      "loss": 0.4102,
      "step": 1327
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.812572482170926e-05,
      "loss": 0.5175,
      "step": 1328
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.812270981873937e-05,
      "loss": 0.5315,
      "step": 1329
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.811969248731323e-05,
      "loss": 0.8085,
      "step": 1330
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.811667282773469e-05,
      "loss": 0.7934,
      "step": 1331
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.8113650840307834e-05,
      "loss": 0.3109,
      "step": 1332
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.811062652533697e-05,
      "loss": 0.5228,
      "step": 1333
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.810759988312664e-05,
      "loss": 0.361,
      "step": 1334
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.810457091398164e-05,
      "loss": 0.6814,
      "step": 1335
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.810153961820697e-05,
      "loss": 0.4829,
      "step": 1336
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.80985059961079e-05,
      "loss": 0.3692,
      "step": 1337
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.809547004798991e-05,
      "loss": 0.4549,
      "step": 1338
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.809243177415872e-05,
      "loss": 0.4248,
      "step": 1339
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.8089391174920275e-05,
      "loss": 0.5175,
      "step": 1340
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.8086348250580784e-05,
      "loss": 0.4768,
      "step": 1341
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.808330300144665e-05,
      "loss": 0.2814,
      "step": 1342
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.808025542782453e-05,
      "loss": 0.3416,
      "step": 1343
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.807720553002132e-05,
      "loss": 0.3185,
      "step": 1344
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.807415330834414e-05,
      "loss": 0.5053,
      "step": 1345
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.807109876310037e-05,
      "loss": 0.2627,
      "step": 1346
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.806804189459757e-05,
      "loss": 0.4627,
      "step": 1347
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.806498270314359e-05,
      "loss": 0.7526,
      "step": 1348
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.806192118904648e-05,
      "loss": 0.426,
      "step": 1349
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.805885735261454e-05,
      "loss": 0.6167,
      "step": 1350
    },
    {
      "epoch": 0.14,
      "eval_loss": 0.5568918585777283,
      "eval_runtime": 62.4998,
      "eval_samples_per_second": 3.696,
      "eval_steps_per_second": 0.928,
      "step": 1350
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.805579119415629e-05,
      "loss": 0.447,
      "step": 1351
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.8052722713980505e-05,
      "loss": 0.2484,
      "step": 1352
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.804965191239616e-05,
      "loss": 0.2831,
      "step": 1353
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.8046578789712515e-05,
      "loss": 0.5159,
      "step": 1354
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.804350334623901e-05,
      "loss": 0.4063,
      "step": 1355
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.804042558228535e-05,
      "loss": 0.0862,
      "step": 1356
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.8037345498161453e-05,
      "loss": 0.4516,
      "step": 1357
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.8034263094177515e-05,
      "loss": 0.263,
      "step": 1358
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.8031178370643906e-05,
      "loss": 0.3099,
      "step": 1359
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.802809132787125e-05,
      "loss": 0.2389,
      "step": 1360
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.8025001966170447e-05,
      "loss": 0.3211,
      "step": 1361
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.802191028585257e-05,
      "loss": 0.3474,
      "step": 1362
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.801881628722895e-05,
      "loss": 0.5901,
      "step": 1363
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.8015719970611165e-05,
      "loss": 0.72,
      "step": 1364
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.8012621336311016e-05,
      "loss": 0.6229,
      "step": 1365
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.800952038464052e-05,
      "loss": 0.3464,
      "step": 1366
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.800641711591195e-05,
      "loss": 0.4711,
      "step": 1367
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.800331153043781e-05,
      "loss": 0.5401,
      "step": 1368
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.800020362853082e-05,
      "loss": 0.409,
      "step": 1369
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.799709341050396e-05,
      "loss": 0.3403,
      "step": 1370
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.799398087667043e-05,
      "loss": 0.5111,
      "step": 1371
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.799086602734364e-05,
      "loss": 0.3117,
      "step": 1372
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.798774886283728e-05,
      "loss": 0.2824,
      "step": 1373
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.798462938346523e-05,
      "loss": 0.5151,
      "step": 1374
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.798150758954164e-05,
      "loss": 0.8023,
      "step": 1375
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.797838348138086e-05,
      "loss": 0.3508,
      "step": 1376
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.7975257059297494e-05,
      "loss": 0.3548,
      "step": 1377
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.797212832360637e-05,
      "loss": 0.3348,
      "step": 1378
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.796899727462255e-05,
      "loss": 0.3417,
      "step": 1379
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.796586391266134e-05,
      "loss": 0.4857,
      "step": 1380
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.796272823803826e-05,
      "loss": 0.358,
      "step": 1381
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.795959025106907e-05,
      "loss": 0.6273,
      "step": 1382
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.795644995206977e-05,
      "loss": 0.083,
      "step": 1383
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.795330734135659e-05,
      "loss": 0.5613,
      "step": 1384
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.7950162419245994e-05,
      "loss": 0.2857,
      "step": 1385
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.7947015186054664e-05,
      "loss": 0.6311,
      "step": 1386
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.794386564209953e-05,
      "loss": 0.6505,
      "step": 1387
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.7940713787697756e-05,
      "loss": 0.6111,
      "step": 1388
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.793755962316674e-05,
      "loss": 0.3161,
      "step": 1389
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.793440314882408e-05,
      "loss": 0.6213,
      "step": 1390
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.793124436498766e-05,
      "loss": 0.6115,
      "step": 1391
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.7928083271975564e-05,
      "loss": 0.7854,
      "step": 1392
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.792491987010611e-05,
      "loss": 0.3097,
      "step": 1393
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.792175415969785e-05,
      "loss": 0.7413,
      "step": 1394
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.791858614106957e-05,
      "loss": 0.4358,
      "step": 1395
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.7915415814540296e-05,
      "loss": 0.3613,
      "step": 1396
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.7912243180429276e-05,
      "loss": 0.6063,
      "step": 1397
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.790906823905599e-05,
      "loss": 0.42,
      "step": 1398
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.790589099074017e-05,
      "loss": 0.9442,
      "step": 1399
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.790271143580174e-05,
      "loss": 0.7505,
      "step": 1400
    },
    {
      "epoch": 0.14,
      "eval_loss": 0.5425001978874207,
      "eval_runtime": 67.3898,
      "eval_samples_per_second": 3.428,
      "eval_steps_per_second": 0.861,
      "step": 1400
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.789952957456091e-05,
      "loss": 0.6298,
      "step": 1401
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.7896345407338064e-05,
      "loss": 0.6537,
      "step": 1402
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.789315893445387e-05,
      "loss": 0.5224,
      "step": 1403
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.78899701562292e-05,
      "loss": 0.2681,
      "step": 1404
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.7886779072985156e-05,
      "loss": 0.1745,
      "step": 1405
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.788358568504309e-05,
      "loss": 0.9139,
      "step": 1406
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.788038999272456e-05,
      "loss": 0.4897,
      "step": 1407
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.78771919963514e-05,
      "loss": 0.3937,
      "step": 1408
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.7873991696245624e-05,
      "loss": 0.8347,
      "step": 1409
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.787078909272951e-05,
      "loss": 0.8834,
      "step": 1410
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.786758418612556e-05,
      "loss": 1.0837,
      "step": 1411
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.786437697675651e-05,
      "loss": 0.716,
      "step": 1412
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.786116746494532e-05,
      "loss": 0.7307,
      "step": 1413
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.78579556510152e-05,
      "loss": 0.1096,
      "step": 1414
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.785474153528956e-05,
      "loss": 0.6608,
      "step": 1415
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.785152511809208e-05,
      "loss": 0.6705,
      "step": 1416
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.7848306399746646e-05,
      "loss": 0.4772,
      "step": 1417
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.7845085380577385e-05,
      "loss": 0.4964,
      "step": 1418
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.784186206090865e-05,
      "loss": 0.4661,
      "step": 1419
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.783863644106502e-05,
      "loss": 0.4577,
      "step": 1420
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.783540852137134e-05,
      "loss": 0.5127,
      "step": 1421
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.783217830215264e-05,
      "loss": 0.4202,
      "step": 1422
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.782894578373421e-05,
      "loss": 0.2622,
      "step": 1423
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.782571096644156e-05,
      "loss": 0.399,
      "step": 1424
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.7822473850600444e-05,
      "loss": 0.4198,
      "step": 1425
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.7819234436536845e-05,
      "loss": 0.5613,
      "step": 1426
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.781599272457695e-05,
      "loss": 0.4656,
      "step": 1427
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.781274871504722e-05,
      "loss": 0.402,
      "step": 1428
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.780950240827431e-05,
      "loss": 0.5345,
      "step": 1429
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.780625380458513e-05,
      "loss": 0.5967,
      "step": 1430
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.780300290430682e-05,
      "loss": 0.2666,
      "step": 1431
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.779974970776675e-05,
      "loss": 0.3393,
      "step": 1432
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.7796494215292505e-05,
      "loss": 0.402,
      "step": 1433
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.779323642721191e-05,
      "loss": 0.4445,
      "step": 1434
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.778997634385304e-05,
      "loss": 0.7218,
      "step": 1435
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.778671396554416e-05,
      "loss": 0.4217,
      "step": 1436
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.778344929261382e-05,
      "loss": 0.4908,
      "step": 1437
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.7780182325390754e-05,
      "loss": 0.2908,
      "step": 1438
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.7776913064203954e-05,
      "loss": 0.2607,
      "step": 1439
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.777364150938263e-05,
      "loss": 0.202,
      "step": 1440
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.7770367661256235e-05,
      "loss": 0.2876,
      "step": 1441
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.776709152015443e-05,
      "loss": 0.2901,
      "step": 1442
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.776381308640714e-05,
      "loss": 0.3472,
      "step": 1443
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.776053236034449e-05,
      "loss": 0.373,
      "step": 1444
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.775724934229685e-05,
      "loss": 0.7874,
      "step": 1445
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.7753964032594836e-05,
      "loss": 0.1203,
      "step": 1446
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.775067643156926e-05,
      "loss": 0.4547,
      "step": 1447
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.774738653955119e-05,
      "loss": 0.452,
      "step": 1448
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.7744094356871914e-05,
      "loss": 0.3497,
      "step": 1449
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.774079988386296e-05,
      "loss": 0.3322,
      "step": 1450
    },
    {
      "epoch": 0.14,
      "eval_loss": 0.5475420951843262,
      "eval_runtime": 66.6065,
      "eval_samples_per_second": 3.468,
      "eval_steps_per_second": 0.871,
      "step": 1450
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.773750312085609e-05,
      "loss": 0.4929,
      "step": 1451
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.7734204068183264e-05,
      "loss": 0.4324,
      "step": 1452
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.773090272617672e-05,
      "loss": 0.421,
      "step": 1453
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.7727599095168886e-05,
      "loss": 0.4789,
      "step": 1454
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.7724293175492454e-05,
      "loss": 0.3211,
      "step": 1455
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.772098496748031e-05,
      "loss": 0.7152,
      "step": 1456
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.771767447146561e-05,
      "loss": 0.4194,
      "step": 1457
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.7714361687781705e-05,
      "loss": 0.4707,
      "step": 1458
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.7711046616762206e-05,
      "loss": 0.5314,
      "step": 1459
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.770772925874093e-05,
      "loss": 0.3547,
      "step": 1460
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.770440961405194e-05,
      "loss": 0.2621,
      "step": 1461
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.770108768302953e-05,
      "loss": 0.4904,
      "step": 1462
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.769776346600821e-05,
      "loss": 0.429,
      "step": 1463
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.769443696332272e-05,
      "loss": 0.41,
      "step": 1464
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.7691108175308054e-05,
      "loss": 0.293,
      "step": 1465
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.768777710229941e-05,
      "loss": 0.2917,
      "step": 1466
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.7684443744632246e-05,
      "loss": 0.3884,
      "step": 1467
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.768110810264221e-05,
      "loss": 0.3713,
      "step": 1468
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.7677770176665205e-05,
      "loss": 0.3617,
      "step": 1469
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.767442996703737e-05,
      "loss": 0.3494,
      "step": 1470
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.767108747409506e-05,
      "loss": 0.7813,
      "step": 1471
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.7667742698174855e-05,
      "loss": 1.023,
      "step": 1472
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.766439563961358e-05,
      "loss": 0.9458,
      "step": 1473
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.766104629874829e-05,
      "loss": 0.8289,
      "step": 1474
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.765769467591625e-05,
      "loss": 0.6043,
      "step": 1475
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.765434077145499e-05,
      "loss": 0.4253,
      "step": 1476
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.765098458570222e-05,
      "loss": 0.4609,
      "step": 1477
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.7647626118995924e-05,
      "loss": 0.1903,
      "step": 1478
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.76442653716743e-05,
      "loss": 0.1726,
      "step": 1479
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.764090234407577e-05,
      "loss": 0.266,
      "step": 1480
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.7637537036538996e-05,
      "loss": 0.2922,
      "step": 1481
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.7634169449402865e-05,
      "loss": 0.4239,
      "step": 1482
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.763079958300649e-05,
      "loss": 0.3457,
      "step": 1483
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.762742743768921e-05,
      "loss": 0.2598,
      "step": 1484
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.7624053013790606e-05,
      "loss": 0.4624,
      "step": 1485
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.762067631165049e-05,
      "loss": 0.2733,
      "step": 1486
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.761729733160889e-05,
      "loss": 0.3661,
      "step": 1487
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.761391607400606e-05,
      "loss": 0.3929,
      "step": 1488
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.76105325391825e-05,
      "loss": 0.4245,
      "step": 1489
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.7607146727478935e-05,
      "loss": 0.1498,
      "step": 1490
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.760375863923631e-05,
      "loss": 0.1426,
      "step": 1491
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.7600368274795816e-05,
      "loss": 0.3743,
      "step": 1492
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.759697563449884e-05,
      "loss": 0.5123,
      "step": 1493
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.759358071868705e-05,
      "loss": 0.342,
      "step": 1494
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.759018352770229e-05,
      "loss": 0.7078,
      "step": 1495
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.758678406188668e-05,
      "loss": 0.5919,
      "step": 1496
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.758338232158252e-05,
      "loss": 0.62,
      "step": 1497
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.7579978307132387e-05,
      "loss": 0.6925,
      "step": 1498
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.757657201887905e-05,
      "loss": 0.5462,
      "step": 1499
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.7573163457165534e-05,
      "loss": 0.3176,
      "step": 1500
    },
    {
      "epoch": 0.15,
      "eval_loss": 0.5496878623962402,
      "eval_runtime": 67.0528,
      "eval_samples_per_second": 3.445,
      "eval_steps_per_second": 0.865,
      "step": 1500
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.756975262233507e-05,
      "loss": 0.5118,
      "step": 1501
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.756633951473114e-05,
      "loss": 0.5246,
      "step": 1502
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.756292413469743e-05,
      "loss": 0.4999,
      "step": 1503
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.7559506482577886e-05,
      "loss": 0.4491,
      "step": 1504
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.755608655871665e-05,
      "loss": 0.5021,
      "step": 1505
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.755266436345812e-05,
      "loss": 0.3848,
      "step": 1506
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.75492398971469e-05,
      "loss": 0.5094,
      "step": 1507
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.754581316012785e-05,
      "loss": 0.7176,
      "step": 1508
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.7542384152746024e-05,
      "loss": 0.6049,
      "step": 1509
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.753895287534673e-05,
      "loss": 1.1589,
      "step": 1510
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.7535519328275504e-05,
      "loss": 0.8889,
      "step": 1511
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.753208351187809e-05,
      "loss": 0.8369,
      "step": 1512
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.752864542650048e-05,
      "loss": 1.4946,
      "step": 1513
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.75252050724889e-05,
      "loss": 1.0499,
      "step": 1514
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.752176245018979e-05,
      "loss": 0.7616,
      "step": 1515
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.751831755994981e-05,
      "loss": 0.4092,
      "step": 1516
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.751487040211586e-05,
      "loss": 0.4405,
      "step": 1517
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.751142097703509e-05,
      "loss": 0.4721,
      "step": 1518
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.7507969285054845e-05,
      "loss": 0.4436,
      "step": 1519
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.75045153265227e-05,
      "loss": 0.6094,
      "step": 1520
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.7501059101786485e-05,
      "loss": 0.0478,
      "step": 1521
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.7497600611194225e-05,
      "loss": 0.3952,
      "step": 1522
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.74941398550942e-05,
      "loss": 0.5328,
      "step": 1523
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.749067683383491e-05,
      "loss": 0.4998,
      "step": 1524
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.748721154776508e-05,
      "loss": 0.3559,
      "step": 1525
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.7483743997233666e-05,
      "loss": 0.3862,
      "step": 1526
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.748027418258984e-05,
      "loss": 0.3921,
      "step": 1527
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.747680210418302e-05,
      "loss": 0.536,
      "step": 1528
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.747332776236284e-05,
      "loss": 0.1768,
      "step": 1529
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.7469851157479177e-05,
      "loss": 0.1384,
      "step": 1530
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.746637228988211e-05,
      "loss": 0.4234,
      "step": 1531
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.746289115992197e-05,
      "loss": 0.3551,
      "step": 1532
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.745940776794932e-05,
      "loss": 0.1626,
      "step": 1533
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.74559221143149e-05,
      "loss": 0.4428,
      "step": 1534
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.745243419936974e-05,
      "loss": 0.4449,
      "step": 1535
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.744894402346508e-05,
      "loss": 0.399,
      "step": 1536
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.744545158695237e-05,
      "loss": 0.4791,
      "step": 1537
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.74419568901833e-05,
      "loss": 0.6002,
      "step": 1538
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.7438459933509784e-05,
      "loss": 0.3869,
      "step": 1539
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.743496071728396e-05,
      "loss": 0.4867,
      "step": 1540
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.743145924185821e-05,
      "loss": 0.5542,
      "step": 1541
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.742795550758513e-05,
      "loss": 0.4035,
      "step": 1542
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.7424449514817545e-05,
      "loss": 0.3656,
      "step": 1543
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.74209412639085e-05,
      "loss": 0.3318,
      "step": 1544
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.741743075521129e-05,
      "loss": 0.354,
      "step": 1545
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.7413917989079414e-05,
      "loss": 0.2645,
      "step": 1546
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.7410402965866616e-05,
      "loss": 0.384,
      "step": 1547
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.740688568592685e-05,
      "loss": 0.5053,
      "step": 1548
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.7403366149614304e-05,
      "loss": 0.5264,
      "step": 1549
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.7399844357283397e-05,
      "loss": 0.6204,
      "step": 1550
    },
    {
      "epoch": 0.15,
      "eval_loss": 0.5433027744293213,
      "eval_runtime": 73.406,
      "eval_samples_per_second": 3.147,
      "eval_steps_per_second": 0.79,
      "step": 1550
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.739632030928878e-05,
      "loss": 0.4609,
      "step": 1551
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7392794005985326e-05,
      "loss": 0.479,
      "step": 1552
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.738926544772812e-05,
      "loss": 0.426,
      "step": 1553
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.73857346348725e-05,
      "loss": 0.4938,
      "step": 1554
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7382201567774016e-05,
      "loss": 0.3797,
      "step": 1555
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7378666246788444e-05,
      "loss": 0.4719,
      "step": 1556
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.73751286722718e-05,
      "loss": 0.6126,
      "step": 1557
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.73715888445803e-05,
      "loss": 0.6252,
      "step": 1558
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.736804676407042e-05,
      "loss": 0.3494,
      "step": 1559
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7364502431098844e-05,
      "loss": 0.5624,
      "step": 1560
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7360955846022484e-05,
      "loss": 0.6102,
      "step": 1561
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.735740700919849e-05,
      "loss": 0.3404,
      "step": 1562
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.73538559209842e-05,
      "loss": 0.4384,
      "step": 1563
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7350302581737246e-05,
      "loss": 0.0457,
      "step": 1564
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.734674699181544e-05,
      "loss": 0.4074,
      "step": 1565
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.734318915157682e-05,
      "loss": 0.7823,
      "step": 1566
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7339629061379656e-05,
      "loss": 0.9256,
      "step": 1567
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7336066721582464e-05,
      "loss": 0.7305,
      "step": 1568
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.733250213254395e-05,
      "loss": 0.917,
      "step": 1569
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.73289352946231e-05,
      "loss": 0.9506,
      "step": 1570
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.732536620817907e-05,
      "loss": 0.6062,
      "step": 1571
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.732179487357127e-05,
      "loss": 0.4667,
      "step": 1572
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7318221291159344e-05,
      "loss": 0.5003,
      "step": 1573
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.731464546130314e-05,
      "loss": 0.5793,
      "step": 1574
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.731106738436275e-05,
      "loss": 0.5345,
      "step": 1575
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.730748706069849e-05,
      "loss": 0.6345,
      "step": 1576
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.730390449067088e-05,
      "loss": 0.5051,
      "step": 1577
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7300319674640706e-05,
      "loss": 0.4511,
      "step": 1578
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.729673261296895e-05,
      "loss": 0.3974,
      "step": 1579
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7293143306016836e-05,
      "loss": 0.4305,
      "step": 1580
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.72895517541458e-05,
      "loss": 0.5799,
      "step": 1581
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7285957957717504e-05,
      "loss": 0.5919,
      "step": 1582
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7282361917093854e-05,
      "loss": 0.5248,
      "step": 1583
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7278763632636966e-05,
      "loss": 0.5154,
      "step": 1584
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.72751631047092e-05,
      "loss": 0.3734,
      "step": 1585
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.727156033367311e-05,
      "loss": 0.4327,
      "step": 1586
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.726795531989151e-05,
      "loss": 0.5276,
      "step": 1587
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.726434806372742e-05,
      "loss": 0.5969,
      "step": 1588
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.726073856554408e-05,
      "loss": 0.607,
      "step": 1589
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.725712682570498e-05,
      "loss": 0.636,
      "step": 1590
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.725351284457382e-05,
      "loss": 0.4392,
      "step": 1591
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7249896622514524e-05,
      "loss": 0.7121,
      "step": 1592
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.724627815989125e-05,
      "loss": 0.4948,
      "step": 1593
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.724265745706836e-05,
      "loss": 0.5903,
      "step": 1594
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.723903451441049e-05,
      "loss": 0.472,
      "step": 1595
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.723540933228244e-05,
      "loss": 0.4633,
      "step": 1596
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.723178191104929e-05,
      "loss": 0.563,
      "step": 1597
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.72281522510763e-05,
      "loss": 0.5968,
      "step": 1598
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.722452035272899e-05,
      "loss": 0.618,
      "step": 1599
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.722088621637309e-05,
      "loss": 0.565,
      "step": 1600
    },
    {
      "epoch": 0.16,
      "eval_loss": 0.5554822683334351,
      "eval_runtime": 73.5732,
      "eval_samples_per_second": 3.14,
      "eval_steps_per_second": 0.788,
      "step": 1600
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.721724984237456e-05,
      "loss": 0.3935,
      "step": 1601
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.721361123109957e-05,
      "loss": 0.3369,
      "step": 1602
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7209970382914534e-05,
      "loss": 0.342,
      "step": 1603
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.720632729818611e-05,
      "loss": 0.5052,
      "step": 1604
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.720268197728111e-05,
      "loss": 0.589,
      "step": 1605
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.719903442056665e-05,
      "loss": 0.604,
      "step": 1606
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.719538462841003e-05,
      "loss": 0.6917,
      "step": 1607
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7191732601178793e-05,
      "loss": 0.3838,
      "step": 1608
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.718807833924069e-05,
      "loss": 0.5299,
      "step": 1609
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.71844218429637e-05,
      "loss": 0.5551,
      "step": 1610
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7180763112716036e-05,
      "loss": 0.3234,
      "step": 1611
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.717710214886614e-05,
      "loss": 0.7452,
      "step": 1612
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7173438951782654e-05,
      "loss": 0.5786,
      "step": 1613
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7169773521834484e-05,
      "loss": 0.4187,
      "step": 1614
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.716610585939072e-05,
      "loss": 0.2164,
      "step": 1615
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.716243596482071e-05,
      "loss": 0.3562,
      "step": 1616
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.715876383849399e-05,
      "loss": 0.4,
      "step": 1617
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.715508948078037e-05,
      "loss": 0.401,
      "step": 1618
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.715141289204984e-05,
      "loss": 0.3535,
      "step": 1619
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7147734072672644e-05,
      "loss": 0.431,
      "step": 1620
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.714405302301923e-05,
      "loss": 0.3488,
      "step": 1621
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7140369743460275e-05,
      "loss": 0.1506,
      "step": 1622
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.71366842343667e-05,
      "loss": 0.5596,
      "step": 1623
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.713299649610963e-05,
      "loss": 0.3734,
      "step": 1624
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.712930652906041e-05,
      "loss": 0.4673,
      "step": 1625
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.712561433359064e-05,
      "loss": 0.7818,
      "step": 1626
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.712191991007211e-05,
      "loss": 0.4263,
      "step": 1627
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7118223258876845e-05,
      "loss": 0.2873,
      "step": 1628
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.71145243803771e-05,
      "loss": 0.3546,
      "step": 1629
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.711082327494536e-05,
      "loss": 0.2811,
      "step": 1630
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7107119942954326e-05,
      "loss": 0.3629,
      "step": 1631
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.710341438477691e-05,
      "loss": 0.3946,
      "step": 1632
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7099706600786275e-05,
      "loss": 0.4916,
      "step": 1633
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.709599659135578e-05,
      "loss": 0.798,
      "step": 1634
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7092284356859046e-05,
      "loss": 0.5729,
      "step": 1635
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7088569897669875e-05,
      "loss": 0.6728,
      "step": 1636
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7084853214162325e-05,
      "loss": 0.7782,
      "step": 1637
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7081134306710656e-05,
      "loss": 0.4466,
      "step": 1638
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7077413175689365e-05,
      "loss": 0.518,
      "step": 1639
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.707368982147318e-05,
      "loss": 0.6038,
      "step": 1640
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.706996424443703e-05,
      "loss": 0.5287,
      "step": 1641
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.706623644495608e-05,
      "loss": 0.5174,
      "step": 1642
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7062506423405724e-05,
      "loss": 0.4532,
      "step": 1643
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7058774180161577e-05,
      "loss": 0.4372,
      "step": 1644
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.705503971559947e-05,
      "loss": 0.3393,
      "step": 1645
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.705130303009547e-05,
      "loss": 0.5344,
      "step": 1646
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.704756412402586e-05,
      "loss": 0.3765,
      "step": 1647
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.704382299776715e-05,
      "loss": 0.2682,
      "step": 1648
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.7040079651696057e-05,
      "loss": 0.4969,
      "step": 1649
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.7036334086189555e-05,
      "loss": 0.4719,
      "step": 1650
    },
    {
      "epoch": 0.17,
      "eval_loss": 0.5502030253410339,
      "eval_runtime": 73.8157,
      "eval_samples_per_second": 3.129,
      "eval_steps_per_second": 0.786,
      "step": 1650
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.70325863016248e-05,
      "loss": 0.5191,
      "step": 1651
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.7028836298379226e-05,
      "loss": 0.3954,
      "step": 1652
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.702508407683043e-05,
      "loss": 0.5257,
      "step": 1653
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.702132963735627e-05,
      "loss": 0.5953,
      "step": 1654
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.701757298033482e-05,
      "loss": 0.5752,
      "step": 1655
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.7013814106144374e-05,
      "loss": 0.8008,
      "step": 1656
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.7010053015163445e-05,
      "loss": 0.4095,
      "step": 1657
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.7006289707770784e-05,
      "loss": 0.4001,
      "step": 1658
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.7002524184345345e-05,
      "loss": 0.4956,
      "step": 1659
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6998756445266336e-05,
      "loss": 0.4671,
      "step": 1660
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.699498649091314e-05,
      "loss": 0.5056,
      "step": 1661
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6991214321665414e-05,
      "loss": 0.4429,
      "step": 1662
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.698743993790301e-05,
      "loss": 0.5074,
      "step": 1663
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6983663340006e-05,
      "loss": 0.5466,
      "step": 1664
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6979884528354694e-05,
      "loss": 0.0733,
      "step": 1665
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.697610350332962e-05,
      "loss": 0.3398,
      "step": 1666
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.697232026531152e-05,
      "loss": 0.3345,
      "step": 1667
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.696853481468137e-05,
      "loss": 0.4455,
      "step": 1668
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.696474715182038e-05,
      "loss": 0.4193,
      "step": 1669
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.696095727710994e-05,
      "loss": 0.6568,
      "step": 1670
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6957165190931705e-05,
      "loss": 0.2621,
      "step": 1671
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6953370893667533e-05,
      "loss": 0.4082,
      "step": 1672
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.694957438569951e-05,
      "loss": 0.3088,
      "step": 1673
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.694577566740997e-05,
      "loss": 0.5111,
      "step": 1674
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6941974739181395e-05,
      "loss": 0.2999,
      "step": 1675
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6938171601396575e-05,
      "loss": 0.3552,
      "step": 1676
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.693436625443847e-05,
      "loss": 0.7969,
      "step": 1677
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6930558698690284e-05,
      "loss": 0.7173,
      "step": 1678
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.692674893453544e-05,
      "loss": 0.4615,
      "step": 1679
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.692293696235758e-05,
      "loss": 0.8608,
      "step": 1680
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.691912278254056e-05,
      "loss": 0.5487,
      "step": 1681
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6915306395468486e-05,
      "loss": 0.7356,
      "step": 1682
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6911487801525646e-05,
      "loss": 0.7201,
      "step": 1683
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.690766700109659e-05,
      "loss": 0.8273,
      "step": 1684
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6903843994566064e-05,
      "loss": 0.2617,
      "step": 1685
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.690001878231906e-05,
      "loss": 0.4255,
      "step": 1686
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.689619136474075e-05,
      "loss": 0.5817,
      "step": 1687
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6892361742216576e-05,
      "loss": 0.5694,
      "step": 1688
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.688852991513216e-05,
      "loss": 0.6614,
      "step": 1689
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.688469588387339e-05,
      "loss": 0.7189,
      "step": 1690
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6880859648826345e-05,
      "loss": 0.4589,
      "step": 1691
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.687702121037734e-05,
      "loss": 0.519,
      "step": 1692
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.687318056891288e-05,
      "loss": 0.4277,
      "step": 1693
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6869337724819744e-05,
      "loss": 0.2886,
      "step": 1694
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6865492678484895e-05,
      "loss": 0.1077,
      "step": 1695
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.686164543029554e-05,
      "loss": 0.2792,
      "step": 1696
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6857795980639076e-05,
      "loss": 0.4597,
      "step": 1697
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.685394432990317e-05,
      "loss": 0.1931,
      "step": 1698
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.685009047847565e-05,
      "loss": 0.352,
      "step": 1699
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.684623442674463e-05,
      "loss": 0.7629,
      "step": 1700
    },
    {
      "epoch": 0.17,
      "eval_loss": 0.5480176210403442,
      "eval_runtime": 73.7265,
      "eval_samples_per_second": 3.133,
      "eval_steps_per_second": 0.787,
      "step": 1700
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.684237617509839e-05,
      "loss": 0.5755,
      "step": 1701
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.683851572392548e-05,
      "loss": 0.8582,
      "step": 1702
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.683465307361462e-05,
      "loss": 0.5217,
      "step": 1703
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6830788224554803e-05,
      "loss": 0.3506,
      "step": 1704
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.682692117713521e-05,
      "loss": 0.5652,
      "step": 1705
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.682305193174524e-05,
      "loss": 0.4638,
      "step": 1706
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.681918048877455e-05,
      "loss": 0.3381,
      "step": 1707
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.681530684861298e-05,
      "loss": 0.628,
      "step": 1708
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.68114310116506e-05,
      "loss": 0.4652,
      "step": 1709
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6807552978277725e-05,
      "loss": 0.4604,
      "step": 1710
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.680367274888485e-05,
      "loss": 0.7004,
      "step": 1711
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6799790323862734e-05,
      "loss": 0.4344,
      "step": 1712
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.679590570360232e-05,
      "loss": 0.6171,
      "step": 1713
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.67920188884948e-05,
      "loss": 0.2403,
      "step": 1714
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6788129878931584e-05,
      "loss": 0.4429,
      "step": 1715
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6784238675304284e-05,
      "loss": 0.1959,
      "step": 1716
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.678034527800474e-05,
      "loss": 0.4163,
      "step": 1717
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.677644968742502e-05,
      "loss": 0.522,
      "step": 1718
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6772551903957416e-05,
      "loss": 0.4316,
      "step": 1719
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6768651927994434e-05,
      "loss": 0.2862,
      "step": 1720
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.676474975992879e-05,
      "loss": 0.3704,
      "step": 1721
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.676084540015345e-05,
      "loss": 0.2698,
      "step": 1722
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6756938849061574e-05,
      "loss": 0.0897,
      "step": 1723
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.675303010704654e-05,
      "loss": 0.1606,
      "step": 1724
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6749119174501975e-05,
      "loss": 0.4182,
      "step": 1725
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.674520605182171e-05,
      "loss": 0.4642,
      "step": 1726
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6741290739399785e-05,
      "loss": 0.2514,
      "step": 1727
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6737373237630476e-05,
      "loss": 0.2553,
      "step": 1728
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6733453546908277e-05,
      "loss": 0.3658,
      "step": 1729
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6729531667627905e-05,
      "loss": 0.3598,
      "step": 1730
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.672560760018428e-05,
      "loss": 0.3738,
      "step": 1731
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.672168134497258e-05,
      "loss": 0.3159,
      "step": 1732
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6717752902388153e-05,
      "loss": 0.3914,
      "step": 1733
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.67138222728266e-05,
      "loss": 0.3487,
      "step": 1734
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6709889456683744e-05,
      "loss": 0.5323,
      "step": 1735
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.670595445435561e-05,
      "loss": 0.5549,
      "step": 1736
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6702017266238455e-05,
      "loss": 0.5574,
      "step": 1737
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6698077892728765e-05,
      "loss": 0.415,
      "step": 1738
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.669413633422322e-05,
      "loss": 0.6828,
      "step": 1739
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6690192591118734e-05,
      "loss": 0.7432,
      "step": 1740
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.668624666381245e-05,
      "loss": 0.7692,
      "step": 1741
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.668229855270172e-05,
      "loss": 0.4625,
      "step": 1742
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.667834825818412e-05,
      "loss": 0.315,
      "step": 1743
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.667439578065744e-05,
      "loss": 0.5683,
      "step": 1744
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.66704411205197e-05,
      "loss": 0.3961,
      "step": 1745
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6666484278169144e-05,
      "loss": 0.2691,
      "step": 1746
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.66625252540042e-05,
      "loss": 0.2725,
      "step": 1747
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.665856404842356e-05,
      "loss": 0.2134,
      "step": 1748
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.665460066182611e-05,
      "loss": 0.2609,
      "step": 1749
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.665063509461097e-05,
      "loss": 0.3627,
      "step": 1750
    },
    {
      "epoch": 0.17,
      "eval_loss": 0.5404762625694275,
      "eval_runtime": 73.9516,
      "eval_samples_per_second": 3.124,
      "eval_steps_per_second": 0.784,
      "step": 1750
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6646667347177465e-05,
      "loss": 0.231,
      "step": 1751
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6642697419925154e-05,
      "loss": 0.4077,
      "step": 1752
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6638725313253803e-05,
      "loss": 0.437,
      "step": 1753
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.66347510275634e-05,
      "loss": 0.299,
      "step": 1754
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.663077456325417e-05,
      "loss": 0.4053,
      "step": 1755
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6626795920726527e-05,
      "loss": 0.5517,
      "step": 1756
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6622815100381134e-05,
      "loss": 0.5797,
      "step": 1757
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6618832102618844e-05,
      "loss": 0.7594,
      "step": 1758
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6614846927840757e-05,
      "loss": 0.8446,
      "step": 1759
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6610859576448176e-05,
      "loss": 0.3564,
      "step": 1760
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6606870048842624e-05,
      "loss": 0.489,
      "step": 1761
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.660287834542585e-05,
      "loss": 0.4162,
      "step": 1762
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.659888446659981e-05,
      "loss": 0.5361,
      "step": 1763
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.659488841276671e-05,
      "loss": 0.4987,
      "step": 1764
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6590890184328925e-05,
      "loss": 0.4817,
      "step": 1765
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.65868897816891e-05,
      "loss": 0.3624,
      "step": 1766
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.658288720525006e-05,
      "loss": 0.3399,
      "step": 1767
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.657888245541486e-05,
      "loss": 0.3915,
      "step": 1768
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6574875532586804e-05,
      "loss": 0.1996,
      "step": 1769
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.657086643716936e-05,
      "loss": 0.3368,
      "step": 1770
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6566855169566265e-05,
      "loss": 0.5911,
      "step": 1771
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.656284173018144e-05,
      "loss": 0.594,
      "step": 1772
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.655882611941904e-05,
      "loss": 0.4391,
      "step": 1773
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.655480833768344e-05,
      "loss": 0.3465,
      "step": 1774
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.655078838537924e-05,
      "loss": 0.5282,
      "step": 1775
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.654676626291123e-05,
      "loss": 0.7469,
      "step": 1776
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6542741970684446e-05,
      "loss": 0.5386,
      "step": 1777
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6538715509104135e-05,
      "loss": 0.3339,
      "step": 1778
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6534686878575765e-05,
      "loss": 0.4272,
      "step": 1779
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.653065607950502e-05,
      "loss": 0.2867,
      "step": 1780
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6526623112297784e-05,
      "loss": 0.597,
      "step": 1781
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.65225879773602e-05,
      "loss": 0.3821,
      "step": 1782
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.65185506750986e-05,
      "loss": 0.2838,
      "step": 1783
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.651451120591952e-05,
      "loss": 0.3973,
      "step": 1784
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6510469570229766e-05,
      "loss": 0.4129,
      "step": 1785
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.65064257684363e-05,
      "loss": 0.4505,
      "step": 1786
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.650237980094636e-05,
      "loss": 0.3914,
      "step": 1787
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.649833166816736e-05,
      "loss": 0.3032,
      "step": 1788
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6494281370506944e-05,
      "loss": 0.2296,
      "step": 1789
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.649022890837298e-05,
      "loss": 0.2948,
      "step": 1790
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.648617428217356e-05,
      "loss": 0.484,
      "step": 1791
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.648211749231698e-05,
      "loss": 0.2161,
      "step": 1792
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.647805853921175e-05,
      "loss": 0.496,
      "step": 1793
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6473997423266614e-05,
      "loss": 0.5245,
      "step": 1794
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.646993414489053e-05,
      "loss": 0.4405,
      "step": 1795
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6465868704492655e-05,
      "loss": 0.5831,
      "step": 1796
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.646180110248239e-05,
      "loss": 0.3867,
      "step": 1797
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.645773133926935e-05,
      "loss": 0.2222,
      "step": 1798
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.645365941526335e-05,
      "loss": 0.263,
      "step": 1799
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.644958533087443e-05,
      "loss": 0.5591,
      "step": 1800
    },
    {
      "epoch": 0.18,
      "eval_loss": 0.5494588017463684,
      "eval_runtime": 73.6169,
      "eval_samples_per_second": 3.138,
      "eval_steps_per_second": 0.788,
      "step": 1800
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.644550908651285e-05,
      "loss": 0.2444,
      "step": 1801
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.64414306825891e-05,
      "loss": 0.0353,
      "step": 1802
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.643735011951387e-05,
      "loss": 0.4903,
      "step": 1803
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.643326739769805e-05,
      "loss": 0.0971,
      "step": 1804
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.642918251755281e-05,
      "loss": 0.2928,
      "step": 1805
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6425095479489465e-05,
      "loss": 0.1785,
      "step": 1806
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.64210062839196e-05,
      "loss": 0.2606,
      "step": 1807
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.641691493125498e-05,
      "loss": 0.3397,
      "step": 1808
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.641282142190762e-05,
      "loss": 0.6238,
      "step": 1809
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.640872575628973e-05,
      "loss": 0.6322,
      "step": 1810
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6404627934813736e-05,
      "loss": 0.5049,
      "step": 1811
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.640052795789229e-05,
      "loss": 0.2597,
      "step": 1812
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.639642582593827e-05,
      "loss": 0.4948,
      "step": 1813
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.639232153936476e-05,
      "loss": 0.4583,
      "step": 1814
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.638821509858505e-05,
      "loss": 0.3378,
      "step": 1815
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.638410650401267e-05,
      "loss": 0.3374,
      "step": 1816
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6379995756061344e-05,
      "loss": 0.422,
      "step": 1817
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.637588285514504e-05,
      "loss": 0.2405,
      "step": 1818
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.63717678016779e-05,
      "loss": 0.3545,
      "step": 1819
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.636765059607434e-05,
      "loss": 0.5545,
      "step": 1820
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6363531238748944e-05,
      "loss": 0.5963,
      "step": 1821
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.635940973011654e-05,
      "loss": 0.2709,
      "step": 1822
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.635528607059216e-05,
      "loss": 0.3042,
      "step": 1823
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6351160260591063e-05,
      "loss": 0.2887,
      "step": 1824
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.63470323005287e-05,
      "loss": 0.3766,
      "step": 1825
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.634290219082078e-05,
      "loss": 0.3634,
      "step": 1826
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6338769931883185e-05,
      "loss": 0.3622,
      "step": 1827
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6334635524132046e-05,
      "loss": 0.4799,
      "step": 1828
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6330498967983696e-05,
      "loss": 0.1218,
      "step": 1829
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.632636026385468e-05,
      "loss": 0.4266,
      "step": 1830
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6322219412161774e-05,
      "loss": 0.2318,
      "step": 1831
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6318076413321945e-05,
      "loss": 0.72,
      "step": 1832
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.631393126775241e-05,
      "loss": 0.5075,
      "step": 1833
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.630978397587058e-05,
      "loss": 0.5138,
      "step": 1834
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.630563453809409e-05,
      "loss": 0.1639,
      "step": 1835
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.630148295484078e-05,
      "loss": 0.5552,
      "step": 1836
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6297329226528724e-05,
      "loss": 0.5673,
      "step": 1837
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.629317335357619e-05,
      "loss": 0.7383,
      "step": 1838
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.628901533640169e-05,
      "loss": 0.236,
      "step": 1839
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.628485517542392e-05,
      "loss": 0.686,
      "step": 1840
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6280692871061826e-05,
      "loss": 0.4514,
      "step": 1841
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.627652842373454e-05,
      "loss": 0.298,
      "step": 1842
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.627236183386142e-05,
      "loss": 0.5282,
      "step": 1843
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.626819310186205e-05,
      "loss": 0.412,
      "step": 1844
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6264022228156215e-05,
      "loss": 0.8617,
      "step": 1845
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.625984921316392e-05,
      "loss": 0.7275,
      "step": 1846
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6255674057305384e-05,
      "loss": 0.5717,
      "step": 1847
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.625149676100107e-05,
      "loss": 0.61,
      "step": 1848
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6247317324671605e-05,
      "loss": 0.4318,
      "step": 1849
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.6243135748737864e-05,
      "loss": 0.2832,
      "step": 1850
    },
    {
      "epoch": 0.18,
      "eval_loss": 0.5335546135902405,
      "eval_runtime": 73.8924,
      "eval_samples_per_second": 3.126,
      "eval_steps_per_second": 0.785,
      "step": 1850
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.623895203362093e-05,
      "loss": 0.1143,
      "step": 1851
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.623476617974212e-05,
      "loss": 0.8312,
      "step": 1852
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.6230578187522934e-05,
      "loss": 0.4279,
      "step": 1853
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.6226388057385095e-05,
      "loss": 0.3641,
      "step": 1854
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.622219578975057e-05,
      "loss": 0.7395,
      "step": 1855
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.6218001385041506e-05,
      "loss": 0.837,
      "step": 1856
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.621380484368028e-05,
      "loss": 0.9606,
      "step": 1857
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.6209606166089495e-05,
      "loss": 0.6445,
      "step": 1858
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.6205405352691946e-05,
      "loss": 0.6335,
      "step": 1859
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.620120240391065e-05,
      "loss": 0.0917,
      "step": 1860
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.6196997320168856e-05,
      "loss": 0.611,
      "step": 1861
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.6192790101890015e-05,
      "loss": 0.5886,
      "step": 1862
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.618858074949779e-05,
      "loss": 0.4103,
      "step": 1863
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.6184369263416065e-05,
      "loss": 0.4351,
      "step": 1864
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.618015564406894e-05,
      "loss": 0.3825,
      "step": 1865
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.617593989188071e-05,
      "loss": 0.4349,
      "step": 1866
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.617172200727592e-05,
      "loss": 0.4416,
      "step": 1867
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.61675019906793e-05,
      "loss": 0.3883,
      "step": 1868
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.6163279842515803e-05,
      "loss": 0.2108,
      "step": 1869
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.6159055563210604e-05,
      "loss": 0.3343,
      "step": 1870
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.615482915318911e-05,
      "loss": 0.3987,
      "step": 1871
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.6150600612876874e-05,
      "loss": 0.4757,
      "step": 1872
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.614636994269975e-05,
      "loss": 0.3902,
      "step": 1873
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.614213714308374e-05,
      "loss": 0.3385,
      "step": 1874
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.613790221445511e-05,
      "loss": 0.4764,
      "step": 1875
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.61336651572403e-05,
      "loss": 0.5078,
      "step": 1876
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.6129425971865994e-05,
      "loss": 0.2262,
      "step": 1877
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.612518465875906e-05,
      "loss": 0.283,
      "step": 1878
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.6120941218346615e-05,
      "loss": 0.404,
      "step": 1879
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.611669565105596e-05,
      "loss": 0.3313,
      "step": 1880
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.6112447957314636e-05,
      "loss": 0.6269,
      "step": 1881
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.610819813755038e-05,
      "loss": 0.3524,
      "step": 1882
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.610394619219115e-05,
      "loss": 0.4218,
      "step": 1883
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.6099692121665115e-05,
      "loss": 0.2589,
      "step": 1884
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.609543592640066e-05,
      "loss": 0.2428,
      "step": 1885
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.6091177606826384e-05,
      "loss": 0.1931,
      "step": 1886
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.60869171633711e-05,
      "loss": 0.2348,
      "step": 1887
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.6082654596463836e-05,
      "loss": 0.2691,
      "step": 1888
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.607838990653384e-05,
      "loss": 0.2929,
      "step": 1889
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.607412309401054e-05,
      "loss": 0.3027,
      "step": 1890
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.6069854159323636e-05,
      "loss": 0.6844,
      "step": 1891
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.606558310290298e-05,
      "loss": 0.0885,
      "step": 1892
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.606130992517869e-05,
      "loss": 0.3924,
      "step": 1893
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.605703462658107e-05,
      "loss": 0.4139,
      "step": 1894
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.605275720754063e-05,
      "loss": 0.3146,
      "step": 1895
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.604847766848812e-05,
      "loss": 0.2794,
      "step": 1896
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.604419600985449e-05,
      "loss": 0.4664,
      "step": 1897
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.603991223207089e-05,
      "loss": 0.4016,
      "step": 1898
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.603562633556871e-05,
      "loss": 0.3882,
      "step": 1899
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.6031338320779534e-05,
      "loss": 0.387,
      "step": 1900
    },
    {
      "epoch": 0.19,
      "eval_loss": 0.548890233039856,
      "eval_runtime": 63.6,
      "eval_samples_per_second": 3.632,
      "eval_steps_per_second": 0.912,
      "step": 1900
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.6027048188135155e-05,
      "loss": 0.2995,
      "step": 1901
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.602275593806761e-05,
      "loss": 0.6271,
      "step": 1902
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.601846157100911e-05,
      "loss": 0.372,
      "step": 1903
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.601416508739211e-05,
      "loss": 0.4348,
      "step": 1904
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.6009866487649256e-05,
      "loss": 0.443,
      "step": 1905
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.600556577221342e-05,
      "loss": 0.3245,
      "step": 1906
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.6001262941517696e-05,
      "loss": 0.2811,
      "step": 1907
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.599695799599536e-05,
      "loss": 0.4459,
      "step": 1908
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.599265093607993e-05,
      "loss": 0.3697,
      "step": 1909
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.5988341762205125e-05,
      "loss": 0.3645,
      "step": 1910
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.598403047480488e-05,
      "loss": 0.275,
      "step": 1911
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.5979717074313334e-05,
      "loss": 0.2522,
      "step": 1912
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.597540156116486e-05,
      "loss": 0.3405,
      "step": 1913
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.597108393579402e-05,
      "loss": 0.3082,
      "step": 1914
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.5966764198635606e-05,
      "loss": 0.3515,
      "step": 1915
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.59624423501246e-05,
      "loss": 0.3382,
      "step": 1916
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.5958118390696236e-05,
      "loss": 0.7091,
      "step": 1917
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.595379232078592e-05,
      "loss": 0.9017,
      "step": 1918
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.594946414082928e-05,
      "loss": 0.8054,
      "step": 1919
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.594513385126218e-05,
      "loss": 0.6901,
      "step": 1920
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.594080145252068e-05,
      "loss": 0.516,
      "step": 1921
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.5936466945041046e-05,
      "loss": 0.3852,
      "step": 1922
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.593213032925976e-05,
      "loss": 0.3833,
      "step": 1923
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.592779160561352e-05,
      "loss": 0.1444,
      "step": 1924
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.5923450774539244e-05,
      "loss": 0.1478,
      "step": 1925
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.591910783647404e-05,
      "loss": 0.2239,
      "step": 1926
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.591476279185526e-05,
      "loss": 0.2379,
      "step": 1927
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.591041564112043e-05,
      "loss": 0.4029,
      "step": 1928
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.5906066384707326e-05,
      "loss": 0.2557,
      "step": 1929
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.59017150230539e-05,
      "loss": 0.2071,
      "step": 1930
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.5897361556598345e-05,
      "loss": 0.3804,
      "step": 1931
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.589300598577906e-05,
      "loss": 0.2326,
      "step": 1932
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.588864831103463e-05,
      "loss": 0.305,
      "step": 1933
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.58842885328039e-05,
      "loss": 0.336,
      "step": 1934
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.5879926651525877e-05,
      "loss": 0.349,
      "step": 1935
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.587556266763981e-05,
      "loss": 0.1095,
      "step": 1936
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.5871196581585166e-05,
      "loss": 0.1087,
      "step": 1937
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.586682839380159e-05,
      "loss": 0.3709,
      "step": 1938
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.5862458104728965e-05,
      "loss": 0.4611,
      "step": 1939
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.5858085714807384e-05,
      "loss": 0.305,
      "step": 1940
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.5853711224477136e-05,
      "loss": 0.6139,
      "step": 1941
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.584933463417874e-05,
      "loss": 0.5424,
      "step": 1942
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.5844955944352916e-05,
      "loss": 0.5536,
      "step": 1943
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.584057515544061e-05,
      "loss": 0.6596,
      "step": 1944
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.583619226788294e-05,
      "loss": 0.4498,
      "step": 1945
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.583180728212129e-05,
      "loss": 0.2729,
      "step": 1946
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.582742019859722e-05,
      "loss": 0.4811,
      "step": 1947
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.5823031017752485e-05,
      "loss": 0.4752,
      "step": 1948
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.5818639740029113e-05,
      "loss": 0.4612,
      "step": 1949
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.581424636586929e-05,
      "loss": 0.3763,
      "step": 1950
    },
    {
      "epoch": 0.2,
      "eval_loss": 0.5417795181274414,
      "eval_runtime": 72.6761,
      "eval_samples_per_second": 3.178,
      "eval_steps_per_second": 0.798,
      "step": 1950
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.580985089571542e-05,
      "loss": 0.4607,
      "step": 1951
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.580545333001014e-05,
      "loss": 0.3117,
      "step": 1952
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.580105366919627e-05,
      "loss": 0.4677,
      "step": 1953
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.579665191371687e-05,
      "loss": 0.6598,
      "step": 1954
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.5792248064015196e-05,
      "loss": 0.5234,
      "step": 1955
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.578784212053471e-05,
      "loss": 1.0772,
      "step": 1956
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.578343408371908e-05,
      "loss": 0.8271,
      "step": 1957
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.577902395401222e-05,
      "loss": 0.763,
      "step": 1958
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.577461173185821e-05,
      "loss": 1.4918,
      "step": 1959
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.5770197417701365e-05,
      "loss": 0.9449,
      "step": 1960
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.576578101198622e-05,
      "loss": 0.6724,
      "step": 1961
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.576136251515748e-05,
      "loss": 0.3215,
      "step": 1962
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.575694192766011e-05,
      "loss": 0.3887,
      "step": 1963
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.5752519249939255e-05,
      "loss": 0.3882,
      "step": 1964
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.574809448244028e-05,
      "loss": 0.4095,
      "step": 1965
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.5743667625608754e-05,
      "loss": 0.5811,
      "step": 1966
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.573923867989047e-05,
      "loss": 0.0618,
      "step": 1967
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.573480764573143e-05,
      "loss": 0.3144,
      "step": 1968
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.5730374523577804e-05,
      "loss": 0.4433,
      "step": 1969
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.572593931387604e-05,
      "loss": 0.4848,
      "step": 1970
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.572150201707276e-05,
      "loss": 0.2843,
      "step": 1971
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.5717062633614796e-05,
      "loss": 0.3346,
      "step": 1972
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.571262116394918e-05,
      "loss": 0.322,
      "step": 1973
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.570817760852318e-05,
      "loss": 0.4065,
      "step": 1974
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.570373196778427e-05,
      "loss": 0.1313,
      "step": 1975
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.569928424218012e-05,
      "loss": 0.1206,
      "step": 1976
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.56948344321586e-05,
      "loss": 0.3733,
      "step": 1977
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.5690382538167834e-05,
      "loss": 0.2939,
      "step": 1978
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.56859285606561e-05,
      "loss": 0.133,
      "step": 1979
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.568147250007193e-05,
      "loss": 0.3761,
      "step": 1980
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.567701435686404e-05,
      "loss": 0.4401,
      "step": 1981
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.567255413148138e-05,
      "loss": 0.351,
      "step": 1982
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.566809182437308e-05,
      "loss": 0.3943,
      "step": 1983
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.566362743598851e-05,
      "loss": 0.537,
      "step": 1984
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.5659160966777204e-05,
      "loss": 0.3333,
      "step": 1985
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.565469241718896e-05,
      "loss": 0.4393,
      "step": 1986
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.565022178767376e-05,
      "loss": 0.4803,
      "step": 1987
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.564574907868179e-05,
      "loss": 0.3691,
      "step": 1988
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.564127429066345e-05,
      "loss": 0.3611,
      "step": 1989
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.563679742406935e-05,
      "loss": 0.2703,
      "step": 1990
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.563231847935032e-05,
      "loss": 0.3371,
      "step": 1991
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.562783745695738e-05,
      "loss": 0.215,
      "step": 1992
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.5623354357341776e-05,
      "loss": 0.357,
      "step": 1993
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.561886918095495e-05,
      "loss": 0.4508,
      "step": 1994
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.561438192824856e-05,
      "loss": 0.4772,
      "step": 1995
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.5609892599674475e-05,
      "loss": 0.5614,
      "step": 1996
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.560540119568477e-05,
      "loss": 0.4451,
      "step": 1997
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.560090771673173e-05,
      "loss": 0.4207,
      "step": 1998
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.5596412163267846e-05,
      "loss": 0.3799,
      "step": 1999
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.559191453574582e-05,
      "loss": 0.449,
      "step": 2000
    },
    {
      "epoch": 0.2,
      "eval_loss": 0.5424825549125671,
      "eval_runtime": 74.7512,
      "eval_samples_per_second": 3.09,
      "eval_steps_per_second": 0.776,
      "step": 2000
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.558741483461857e-05,
      "loss": 0.3472,
      "step": 2001
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.5582913060339194e-05,
      "loss": 0.4221,
      "step": 2002
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.557840921336105e-05,
      "loss": 0.5404,
      "step": 2003
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.5573903294137655e-05,
      "loss": 0.5742,
      "step": 2004
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.5569395303122765e-05,
      "loss": 0.2903,
      "step": 2005
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.556488524077033e-05,
      "loss": 0.5557,
      "step": 2006
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.556037310753451e-05,
      "loss": 0.5037,
      "step": 2007
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.5555858903869685e-05,
      "loss": 0.2784,
      "step": 2008
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.5551342630230426e-05,
      "loss": 0.3413,
      "step": 2009
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.554682428707153e-05,
      "loss": 0.0369,
      "step": 2010
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.554230387484799e-05,
      "loss": 0.3443,
      "step": 2011
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.553778139401501e-05,
      "loss": 0.7113,
      "step": 2012
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.5533256845028006e-05,
      "loss": 0.8413,
      "step": 2013
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.5528730228342605e-05,
      "loss": 0.6437,
      "step": 2014
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.552420154441462e-05,
      "loss": 0.8155,
      "step": 2015
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.5519670793700116e-05,
      "loss": 0.8878,
      "step": 2016
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.5515137976655316e-05,
      "loss": 0.461,
      "step": 2017
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.5510603093736683e-05,
      "loss": 0.3824,
      "step": 2018
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.5506066145400884e-05,
      "loss": 0.4695,
      "step": 2019
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.550152713210478e-05,
      "loss": 0.5032,
      "step": 2020
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.5496986054305454e-05,
      "loss": 0.4986,
      "step": 2021
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.54924429124602e-05,
      "loss": 0.5641,
      "step": 2022
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.54878977070265e-05,
      "loss": 0.4288,
      "step": 2023
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.548335043846206e-05,
      "loss": 0.4048,
      "step": 2024
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.54788011072248e-05,
      "loss": 0.3457,
      "step": 2025
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.547424971377282e-05,
      "loss": 0.4351,
      "step": 2026
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.5469696258564456e-05,
      "loss": 0.4422,
      "step": 2027
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.5465140742058245e-05,
      "loss": 0.5297,
      "step": 2028
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.546058316471291e-05,
      "loss": 0.4335,
      "step": 2029
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.545602352698742e-05,
      "loss": 0.5031,
      "step": 2030
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.545146182934091e-05,
      "loss": 0.2934,
      "step": 2031
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.544689807223277e-05,
      "loss": 0.4265,
      "step": 2032
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.544233225612254e-05,
      "loss": 0.418,
      "step": 2033
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.543776438147002e-05,
      "loss": 0.5427,
      "step": 2034
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.543319444873517e-05,
      "loss": 0.546,
      "step": 2035
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.542862245837821e-05,
      "loss": 0.5747,
      "step": 2036
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.5424048410859533e-05,
      "loss": 0.4436,
      "step": 2037
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.5419472306639735e-05,
      "loss": 0.6081,
      "step": 2038
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.541489414617963e-05,
      "loss": 0.4867,
      "step": 2039
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.5410313929940244e-05,
      "loss": 0.5651,
      "step": 2040
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.540573165838281e-05,
      "loss": 0.3871,
      "step": 2041
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.540114733196875e-05,
      "loss": 0.3949,
      "step": 2042
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.539656095115972e-05,
      "loss": 0.5039,
      "step": 2043
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.539197251641755e-05,
      "loss": 0.5174,
      "step": 2044
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.538738202820431e-05,
      "loss": 0.5927,
      "step": 2045
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.538278948698226e-05,
      "loss": 0.4948,
      "step": 2046
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.537819489321386e-05,
      "loss": 0.3685,
      "step": 2047
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.537359824736179e-05,
      "loss": 0.3275,
      "step": 2048
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.536899954988895e-05,
      "loss": 0.3151,
      "step": 2049
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.5364398801258396e-05,
      "loss": 0.448,
      "step": 2050
    },
    {
      "epoch": 0.2,
      "eval_loss": 0.5638481974601746,
      "eval_runtime": 62.9686,
      "eval_samples_per_second": 3.668,
      "eval_steps_per_second": 0.921,
      "step": 2050
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.535979600193344e-05,
      "loss": 0.5087,
      "step": 2051
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.53551911523776e-05,
      "loss": 0.61,
      "step": 2052
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.535058425305455e-05,
      "loss": 0.6044,
      "step": 2053
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.5345975304428236e-05,
      "loss": 0.3755,
      "step": 2054
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.5341364306962755e-05,
      "loss": 0.4782,
      "step": 2055
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.533675126112245e-05,
      "loss": 0.479,
      "step": 2056
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.533213616737185e-05,
      "loss": 0.2572,
      "step": 2057
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.532751902617569e-05,
      "loss": 0.7042,
      "step": 2058
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.532289983799893e-05,
      "loss": 0.49,
      "step": 2059
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.53182786033067e-05,
      "loss": 0.385,
      "step": 2060
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.531365532256438e-05,
      "loss": 0.2182,
      "step": 2061
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.530902999623752e-05,
      "loss": 0.3275,
      "step": 2062
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.53044026247919e-05,
      "loss": 0.3757,
      "step": 2063
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.5299773208693484e-05,
      "loss": 0.3631,
      "step": 2064
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.529514174840847e-05,
      "loss": 0.3426,
      "step": 2065
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.529050824440323e-05,
      "loss": 0.4033,
      "step": 2066
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.5285872697144365e-05,
      "loss": 0.3189,
      "step": 2067
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.5281235107098675e-05,
      "loss": 0.11,
      "step": 2068
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.527659547473317e-05,
      "loss": 0.4811,
      "step": 2069
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.527195380051505e-05,
      "loss": 0.47,
      "step": 2070
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.526731008491174e-05,
      "loss": 0.3808,
      "step": 2071
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.5262664328390856e-05,
      "loss": 0.6845,
      "step": 2072
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.5258016531420234e-05,
      "loss": 0.401,
      "step": 2073
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.525336669446789e-05,
      "loss": 0.2862,
      "step": 2074
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.524871481800209e-05,
      "loss": 0.242,
      "step": 2075
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.524406090249125e-05,
      "loss": 0.2946,
      "step": 2076
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.523940494840404e-05,
      "loss": 0.2892,
      "step": 2077
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.5234746956209295e-05,
      "loss": 0.3923,
      "step": 2078
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.523008692637609e-05,
      "loss": 0.4074,
      "step": 2079
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.522542485937369e-05,
      "loss": 0.7591,
      "step": 2080
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.5220760755671557e-05,
      "loss": 0.4931,
      "step": 2081
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.5216094615739365e-05,
      "loss": 0.6125,
      "step": 2082
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.5211426440047e-05,
      "loss": 0.6309,
      "step": 2083
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.520675622906455e-05,
      "loss": 0.3711,
      "step": 2084
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.520208398326229e-05,
      "loss": 0.4845,
      "step": 2085
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.519740970311074e-05,
      "loss": 0.5577,
      "step": 2086
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.5192733389080575e-05,
      "loss": 0.4477,
      "step": 2087
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.518805504164272e-05,
      "loss": 0.4904,
      "step": 2088
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.518337466126826e-05,
      "loss": 0.3918,
      "step": 2089
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.5178692248428536e-05,
      "loss": 0.4061,
      "step": 2090
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.5174007803595055e-05,
      "loss": 0.3142,
      "step": 2091
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.5169321327239536e-05,
      "loss": 0.4946,
      "step": 2092
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.5164632819833905e-05,
      "loss": 0.3149,
      "step": 2093
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.515994228185031e-05,
      "loss": 0.2655,
      "step": 2094
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.515524971376107e-05,
      "loss": 0.4666,
      "step": 2095
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.515055511603875e-05,
      "loss": 0.4345,
      "step": 2096
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.514585848915607e-05,
      "loss": 0.4353,
      "step": 2097
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.5141159833585996e-05,
      "loss": 0.3376,
      "step": 2098
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.513645914980167e-05,
      "loss": 0.4301,
      "step": 2099
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.513175643827647e-05,
      "loss": 0.5499,
      "step": 2100
    },
    {
      "epoch": 0.21,
      "eval_loss": 0.5553432703018188,
      "eval_runtime": 73.7796,
      "eval_samples_per_second": 3.131,
      "eval_steps_per_second": 0.786,
      "step": 2100
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.512705169948394e-05,
      "loss": 0.5289,
      "step": 2101
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.512234493389785e-05,
      "loss": 0.6553,
      "step": 2102
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.5117636141992194e-05,
      "loss": 0.3516,
      "step": 2103
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.51129253242411e-05,
      "loss": 0.3516,
      "step": 2104
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.5108212481119006e-05,
      "loss": 0.4592,
      "step": 2105
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.5103497613100456e-05,
      "loss": 0.4377,
      "step": 2106
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.509878072066024e-05,
      "loss": 0.4326,
      "step": 2107
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.5094061804273354e-05,
      "loss": 0.3829,
      "step": 2108
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.5089340864414997e-05,
      "loss": 0.4336,
      "step": 2109
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.508461790156056e-05,
      "loss": 0.4644,
      "step": 2110
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.507989291618566e-05,
      "loss": 0.0815,
      "step": 2111
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.5075165908766093e-05,
      "loss": 0.3225,
      "step": 2112
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.5070436879777865e-05,
      "loss": 0.3265,
      "step": 2113
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.506570582969719e-05,
      "loss": 0.4038,
      "step": 2114
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.506097275900049e-05,
      "loss": 0.3883,
      "step": 2115
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.505623766816438e-05,
      "loss": 0.5675,
      "step": 2116
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.505150055766569e-05,
      "loss": 0.176,
      "step": 2117
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.504676142798143e-05,
      "loss": 0.3539,
      "step": 2118
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.504202027958886e-05,
      "loss": 0.2752,
      "step": 2119
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.503727711296538e-05,
      "loss": 0.408,
      "step": 2120
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.503253192858865e-05,
      "loss": 0.252,
      "step": 2121
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.502778472693651e-05,
      "loss": 0.3279,
      "step": 2122
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.5023035508486985e-05,
      "loss": 0.7434,
      "step": 2123
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.5018284273718336e-05,
      "loss": 0.6253,
      "step": 2124
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.5013531023109014e-05,
      "loss": 0.452,
      "step": 2125
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.500877575713765e-05,
      "loss": 0.7483,
      "step": 2126
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.500401847628314e-05,
      "loss": 0.4844,
      "step": 2127
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.49992591810245e-05,
      "loss": 0.6842,
      "step": 2128
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.499449787184101e-05,
      "loss": 0.6263,
      "step": 2129
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.4989734549212125e-05,
      "loss": 0.764,
      "step": 2130
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.498496921361752e-05,
      "loss": 0.218,
      "step": 2131
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.4980201865537076e-05,
      "loss": 0.4137,
      "step": 2132
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.4975432505450835e-05,
      "loss": 0.4975,
      "step": 2133
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.49706611338391e-05,
      "loss": 0.545,
      "step": 2134
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.496588775118232e-05,
      "loss": 0.5496,
      "step": 2135
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.49611123579612e-05,
      "loss": 0.6153,
      "step": 2136
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.495633495465661e-05,
      "loss": 0.4244,
      "step": 2137
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.495155554174964e-05,
      "loss": 0.4734,
      "step": 2138
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.494677411972157e-05,
      "loss": 0.3992,
      "step": 2139
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.4941990689053886e-05,
      "loss": 0.1969,
      "step": 2140
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.493720525022829e-05,
      "loss": 0.0855,
      "step": 2141
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.493241780372667e-05,
      "loss": 0.2711,
      "step": 2142
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.4927628350031124e-05,
      "loss": 0.4023,
      "step": 2143
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.492283688962395e-05,
      "loss": 0.177,
      "step": 2144
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.4918043422987644e-05,
      "loss": 0.2992,
      "step": 2145
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.491324795060491e-05,
      "loss": 0.6908,
      "step": 2146
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.490845047295865e-05,
      "loss": 0.5358,
      "step": 2147
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.4903650990531975e-05,
      "loss": 0.7123,
      "step": 2148
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.4898849503808196e-05,
      "loss": 0.4749,
      "step": 2149
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.489404601327081e-05,
      "loss": 0.3175,
      "step": 2150
    },
    {
      "epoch": 0.21,
      "eval_loss": 0.5416228771209717,
      "eval_runtime": 73.5833,
      "eval_samples_per_second": 3.139,
      "eval_steps_per_second": 0.788,
      "step": 2150
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.488924051940353e-05,
      "loss": 0.5179,
      "step": 2151
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.4884433022690275e-05,
      "loss": 0.3898,
      "step": 2152
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.487962352361517e-05,
      "loss": 0.3097,
      "step": 2153
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.487481202266251e-05,
      "loss": 0.6081,
      "step": 2154
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.4869998520316825e-05,
      "loss": 0.4133,
      "step": 2155
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.4865183017062834e-05,
      "loss": 0.4307,
      "step": 2156
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.4860365513385456e-05,
      "loss": 0.6226,
      "step": 2157
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.485554600976981e-05,
      "loss": 0.398,
      "step": 2158
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.485072450670123e-05,
      "loss": 0.52,
      "step": 2159
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.4845901004665234e-05,
      "loss": 0.2051,
      "step": 2160
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.484107550414755e-05,
      "loss": 0.3868,
      "step": 2161
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.4836248005634105e-05,
      "loss": 0.1284,
      "step": 2162
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.4831418509611025e-05,
      "loss": 0.3842,
      "step": 2163
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.482658701656465e-05,
      "loss": 0.5219,
      "step": 2164
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.4821753526981504e-05,
      "loss": 0.3969,
      "step": 2165
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.4816918041348324e-05,
      "loss": 0.2559,
      "step": 2166
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.4812080560152025e-05,
      "loss": 0.3324,
      "step": 2167
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.480724108387977e-05,
      "loss": 0.212,
      "step": 2168
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.480239961301887e-05,
      "loss": 0.0748,
      "step": 2169
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.479755614805688e-05,
      "loss": 0.1529,
      "step": 2170
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.479271068948152e-05,
      "loss": 0.3915,
      "step": 2171
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.478786323778074e-05,
      "loss": 0.395,
      "step": 2172
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.4783013793442674e-05,
      "loss": 0.2502,
      "step": 2173
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.4778162356955656e-05,
      "loss": 0.2241,
      "step": 2174
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.4773308928808234e-05,
      "loss": 0.3597,
      "step": 2175
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.476845350948914e-05,
      "loss": 0.3054,
      "step": 2176
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.476359609948732e-05,
      "loss": 0.349,
      "step": 2177
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.4758736699291916e-05,
      "loss": 0.2734,
      "step": 2178
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.4753875309392266e-05,
      "loss": 0.363,
      "step": 2179
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.474901193027791e-05,
      "loss": 0.3585,
      "step": 2180
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.4744146562438595e-05,
      "loss": 0.4608,
      "step": 2181
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.473927920636426e-05,
      "loss": 0.5019,
      "step": 2182
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.473440986254505e-05,
      "loss": 0.4994,
      "step": 2183
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.472953853147131e-05,
      "loss": 0.3783,
      "step": 2184
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.472466521363357e-05,
      "loss": 0.6427,
      "step": 2185
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.4719789909522594e-05,
      "loss": 0.6878,
      "step": 2186
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.47149126196293e-05,
      "loss": 0.6798,
      "step": 2187
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.471003334444486e-05,
      "loss": 0.4397,
      "step": 2188
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.470515208446059e-05,
      "loss": 0.2718,
      "step": 2189
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.4700268840168045e-05,
      "loss": 0.4823,
      "step": 2190
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.469538361205898e-05,
      "loss": 0.3661,
      "step": 2191
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.469049640062532e-05,
      "loss": 0.2515,
      "step": 2192
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.46856072063592e-05,
      "loss": 0.2302,
      "step": 2193
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.468071602975298e-05,
      "loss": 0.2007,
      "step": 2194
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.467582287129919e-05,
      "loss": 0.2371,
      "step": 2195
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.467092773149058e-05,
      "loss": 0.3196,
      "step": 2196
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.466603061082009e-05,
      "loss": 0.2169,
      "step": 2197
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.4661131509780847e-05,
      "loss": 0.3679,
      "step": 2198
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.4656230428866195e-05,
      "loss": 0.3781,
      "step": 2199
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.465132736856969e-05,
      "loss": 0.2795,
      "step": 2200
    },
    {
      "epoch": 0.22,
      "eval_loss": 0.5380527973175049,
      "eval_runtime": 73.4757,
      "eval_samples_per_second": 3.144,
      "eval_steps_per_second": 0.789,
      "step": 2200
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.464642232938505e-05,
      "loss": 0.3776,
      "step": 2201
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.464151531180622e-05,
      "loss": 0.5401,
      "step": 2202
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.4636606316327336e-05,
      "loss": 0.5633,
      "step": 2203
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.463169534344273e-05,
      "loss": 0.6526,
      "step": 2204
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.4626782393646936e-05,
      "loss": 0.7561,
      "step": 2205
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.462186746743471e-05,
      "loss": 0.3351,
      "step": 2206
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.461695056530095e-05,
      "loss": 0.4274,
      "step": 2207
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.461203168774081e-05,
      "loss": 0.3549,
      "step": 2208
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.460711083524962e-05,
      "loss": 0.5248,
      "step": 2209
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.46021880083229e-05,
      "loss": 0.4395,
      "step": 2210
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.459726320745638e-05,
      "loss": 0.4714,
      "step": 2211
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.4592336433146e-05,
      "loss": 0.3377,
      "step": 2212
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.4587407685887875e-05,
      "loss": 0.3118,
      "step": 2213
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.4582476966178326e-05,
      "loss": 0.3927,
      "step": 2214
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.457754427451389e-05,
      "loss": 0.1723,
      "step": 2215
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.4572609611391274e-05,
      "loss": 0.3135,
      "step": 2216
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.4567672977307414e-05,
      "loss": 0.5569,
      "step": 2217
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.456273437275941e-05,
      "loss": 0.5806,
      "step": 2218
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.45577937982446e-05,
      "loss": 0.3906,
      "step": 2219
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.4552851254260484e-05,
      "loss": 0.2991,
      "step": 2220
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.454790674130479e-05,
      "loss": 0.4656,
      "step": 2221
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.454296025987541e-05,
      "loss": 0.6245,
      "step": 2222
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.453801181047047e-05,
      "loss": 0.4639,
      "step": 2223
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.453306139358828e-05,
      "loss": 0.3192,
      "step": 2224
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.4528109009727336e-05,
      "loss": 0.3951,
      "step": 2225
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.452315465938636e-05,
      "loss": 0.2299,
      "step": 2226
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.451819834306423e-05,
      "loss": 0.5161,
      "step": 2227
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.451324006126006e-05,
      "loss": 0.3293,
      "step": 2228
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.450827981447316e-05,
      "loss": 0.2488,
      "step": 2229
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.450331760320302e-05,
      "loss": 0.3337,
      "step": 2230
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.449835342794932e-05,
      "loss": 0.339,
      "step": 2231
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.4493387289211974e-05,
      "loss": 0.3917,
      "step": 2232
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.448841918749105e-05,
      "loss": 0.3328,
      "step": 2233
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.448344912328686e-05,
      "loss": 0.2862,
      "step": 2234
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.447847709709986e-05,
      "loss": 0.2199,
      "step": 2235
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.447350310943076e-05,
      "loss": 0.2889,
      "step": 2236
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.446852716078043e-05,
      "loss": 0.4505,
      "step": 2237
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.446354925164995e-05,
      "loss": 0.2041,
      "step": 2238
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.445856938254058e-05,
      "loss": 0.4425,
      "step": 2239
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.445358755395382e-05,
      "loss": 0.4696,
      "step": 2240
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.444860376639132e-05,
      "loss": 0.4082,
      "step": 2241
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.444361802035495e-05,
      "loss": 0.484,
      "step": 2242
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.4438630316346776e-05,
      "loss": 0.3348,
      "step": 2243
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.4433640654869066e-05,
      "loss": 0.2027,
      "step": 2244
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.442864903642428e-05,
      "loss": 0.2291,
      "step": 2245
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.442365546151506e-05,
      "loss": 0.5222,
      "step": 2246
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.4418659930644264e-05,
      "loss": 0.1981,
      "step": 2247
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.441366244431494e-05,
      "loss": 0.0338,
      "step": 2248
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.440866300303035e-05,
      "loss": 0.4773,
      "step": 2249
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.440366160729392e-05,
      "loss": 0.0737,
      "step": 2250
    },
    {
      "epoch": 0.23,
      "eval_loss": 0.5539711713790894,
      "eval_runtime": 73.5678,
      "eval_samples_per_second": 3.14,
      "eval_steps_per_second": 0.788,
      "step": 2250
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.439865825760931e-05,
      "loss": 0.2584,
      "step": 2251
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.439365295448033e-05,
      "loss": 0.1789,
      "step": 2252
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.438864569841103e-05,
      "loss": 0.232,
      "step": 2253
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.438363648990564e-05,
      "loss": 0.325,
      "step": 2254
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.437862532946859e-05,
      "loss": 0.5669,
      "step": 2255
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.4373612217604496e-05,
      "loss": 0.5882,
      "step": 2256
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.436859715481818e-05,
      "loss": 0.4165,
      "step": 2257
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.436358014161466e-05,
      "loss": 0.2615,
      "step": 2258
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.4358561178499155e-05,
      "loss": 0.4728,
      "step": 2259
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.4353540265977064e-05,
      "loss": 0.3996,
      "step": 2260
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.4348517404554005e-05,
      "loss": 0.3012,
      "step": 2261
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.434349259473576e-05,
      "loss": 0.2985,
      "step": 2262
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.4338465837028357e-05,
      "loss": 0.3781,
      "step": 2263
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.433343713193796e-05,
      "loss": 0.185,
      "step": 2264
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.432840647997097e-05,
      "loss": 0.3237,
      "step": 2265
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.432337388163399e-05,
      "loss": 0.4644,
      "step": 2266
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.431833933743378e-05,
      "loss": 0.4842,
      "step": 2267
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.4313302847877324e-05,
      "loss": 0.2097,
      "step": 2268
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.4308264413471814e-05,
      "loss": 0.2374,
      "step": 2269
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.430322403472459e-05,
      "loss": 0.2344,
      "step": 2270
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.429818171214324e-05,
      "loss": 0.3267,
      "step": 2271
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.429313744623552e-05,
      "loss": 0.322,
      "step": 2272
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.428809123750939e-05,
      "loss": 0.3332,
      "step": 2273
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.4283043086473e-05,
      "loss": 0.4475,
      "step": 2274
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.4277992993634696e-05,
      "loss": 0.1088,
      "step": 2275
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.427294095950302e-05,
      "loss": 0.3757,
      "step": 2276
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.4267886984586726e-05,
      "loss": 0.1842,
      "step": 2277
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.426283106939474e-05,
      "loss": 0.6284,
      "step": 2278
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.4257773214436183e-05,
      "loss": 0.4675,
      "step": 2279
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.425271342022039e-05,
      "loss": 0.4722,
      "step": 2280
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.424765168725689e-05,
      "loss": 0.1589,
      "step": 2281
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.424258801605539e-05,
      "loss": 0.48,
      "step": 2282
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.42375224071258e-05,
      "loss": 0.493,
      "step": 2283
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.4232454860978235e-05,
      "loss": 0.6382,
      "step": 2284
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.422738537812299e-05,
      "loss": 0.2002,
      "step": 2285
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.422231395907056e-05,
      "loss": 0.6185,
      "step": 2286
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.4217240604331645e-05,
      "loss": 0.3546,
      "step": 2287
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.421216531441713e-05,
      "loss": 0.2972,
      "step": 2288
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.420708808983809e-05,
      "loss": 0.5078,
      "step": 2289
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.4202008931105795e-05,
      "loss": 0.3491,
      "step": 2290
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.419692783873174e-05,
      "loss": 0.7841,
      "step": 2291
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.419184481322757e-05,
      "loss": 0.657,
      "step": 2292
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.4186759855105154e-05,
      "loss": 0.5092,
      "step": 2293
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.418167296487655e-05,
      "loss": 0.5385,
      "step": 2294
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.4176584143054e-05,
      "loss": 0.4018,
      "step": 2295
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.4171493390149945e-05,
      "loss": 0.2386,
      "step": 2296
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.416640070667704e-05,
      "loss": 0.1026,
      "step": 2297
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.41613060931481e-05,
      "loss": 0.7766,
      "step": 2298
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.4156209550076166e-05,
      "loss": 0.3482,
      "step": 2299
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.415111107797445e-05,
      "loss": 0.2811,
      "step": 2300
    },
    {
      "epoch": 0.23,
      "eval_loss": 0.5347598791122437,
      "eval_runtime": 73.4684,
      "eval_samples_per_second": 3.144,
      "eval_steps_per_second": 0.789,
      "step": 2300
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.414601067735638e-05,
      "loss": 0.71,
      "step": 2301
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.414090834873555e-05,
      "loss": 0.7379,
      "step": 2302
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.413580409262578e-05,
      "loss": 0.9433,
      "step": 2303
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.413069790954106e-05,
      "loss": 0.5587,
      "step": 2304
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.412558979999558e-05,
      "loss": 0.6268,
      "step": 2305
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.412047976450373e-05,
      "loss": 0.0686,
      "step": 2306
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.41153678035801e-05,
      "loss": 0.5273,
      "step": 2307
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.4110253917739444e-05,
      "loss": 0.5895,
      "step": 2308
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.410513810749675e-05,
      "loss": 0.389,
      "step": 2309
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.4100020373367166e-05,
      "loss": 0.3844,
      "step": 2310
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.4094900715866064e-05,
      "loss": 0.3374,
      "step": 2311
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.408977913550897e-05,
      "loss": 0.4046,
      "step": 2312
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.408465563281164e-05,
      "loss": 0.3923,
      "step": 2313
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.407953020829001e-05,
      "loss": 0.3805,
      "step": 2314
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.407440286246022e-05,
      "loss": 0.1865,
      "step": 2315
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.4069273595838565e-05,
      "loss": 0.2827,
      "step": 2316
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.40641424089416e-05,
      "loss": 0.3594,
      "step": 2317
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.4059009302286005e-05,
      "loss": 0.4071,
      "step": 2318
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.40538742763887e-05,
      "loss": 0.3097,
      "step": 2319
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.404873733176678e-05,
      "loss": 0.2906,
      "step": 2320
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.404359846893752e-05,
      "loss": 0.4189,
      "step": 2321
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.403845768841842e-05,
      "loss": 0.4541,
      "step": 2322
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.4033314990727156e-05,
      "loss": 0.192,
      "step": 2323
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.402817037638159e-05,
      "loss": 0.2653,
      "step": 2324
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.402302384589979e-05,
      "loss": 0.3647,
      "step": 2325
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.40178753998e-05,
      "loss": 0.2793,
      "step": 2326
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.401272503860069e-05,
      "loss": 0.5728,
      "step": 2327
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.400757276282048e-05,
      "loss": 0.3092,
      "step": 2328
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.400241857297822e-05,
      "loss": 0.3924,
      "step": 2329
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.399726246959293e-05,
      "loss": 0.2603,
      "step": 2330
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.399210445318382e-05,
      "loss": 0.2444,
      "step": 2331
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.3986944524270315e-05,
      "loss": 0.174,
      "step": 2332
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.3981782683372016e-05,
      "loss": 0.2065,
      "step": 2333
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.3976618931008726e-05,
      "loss": 0.2206,
      "step": 2334
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.397145326770042e-05,
      "loss": 0.2618,
      "step": 2335
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.39662856939673e-05,
      "loss": 0.2489,
      "step": 2336
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.3961116210329725e-05,
      "loss": 0.6168,
      "step": 2337
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.395594481730826e-05,
      "loss": 0.0716,
      "step": 2338
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.395077151542368e-05,
      "loss": 0.3497,
      "step": 2339
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.3945596305196925e-05,
      "loss": 0.3539,
      "step": 2340
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.394041918714914e-05,
      "loss": 0.27,
      "step": 2341
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.393524016180166e-05,
      "loss": 0.2497,
      "step": 2342
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.393005922967601e-05,
      "loss": 0.4266,
      "step": 2343
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.3924876391293915e-05,
      "loss": 0.3724,
      "step": 2344
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.3919691647177286e-05,
      "loss": 0.3812,
      "step": 2345
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.3914504997848226e-05,
      "loss": 0.3629,
      "step": 2346
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.390931644382903e-05,
      "loss": 0.2919,
      "step": 2347
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.3904125985642185e-05,
      "loss": 0.5425,
      "step": 2348
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.3898933623810375e-05,
      "loss": 0.3349,
      "step": 2349
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.389373935885646e-05,
      "loss": 0.3846,
      "step": 2350
    },
    {
      "epoch": 0.23,
      "eval_loss": 0.5531694293022156,
      "eval_runtime": 73.4994,
      "eval_samples_per_second": 3.143,
      "eval_steps_per_second": 0.789,
      "step": 2350
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.388854319130351e-05,
      "loss": 0.3612,
      "step": 2351
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.388334512167478e-05,
      "loss": 0.3021,
      "step": 2352
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.387814515049371e-05,
      "loss": 0.2463,
      "step": 2353
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.387294327828394e-05,
      "loss": 0.371,
      "step": 2354
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.386773950556931e-05,
      "loss": 0.3442,
      "step": 2355
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.386253383287381e-05,
      "loss": 0.3236,
      "step": 2356
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.3857326260721676e-05,
      "loss": 0.2372,
      "step": 2357
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.385211678963731e-05,
      "loss": 0.2452,
      "step": 2358
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.384690542014529e-05,
      "loss": 0.2947,
      "step": 2359
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.384169215277041e-05,
      "loss": 0.2782,
      "step": 2360
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.383647698803765e-05,
      "loss": 0.3223,
      "step": 2361
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.383125992647217e-05,
      "loss": 0.3066,
      "step": 2362
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.382604096859933e-05,
      "loss": 0.6187,
      "step": 2363
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.382082011494469e-05,
      "loss": 0.7879,
      "step": 2364
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.381559736603397e-05,
      "loss": 0.728,
      "step": 2365
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.381037272239311e-05,
      "loss": 0.6152,
      "step": 2366
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.3805146184548236e-05,
      "loss": 0.4485,
      "step": 2367
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.379991775302565e-05,
      "loss": 0.3463,
      "step": 2368
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.379468742835187e-05,
      "loss": 0.354,
      "step": 2369
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.378945521105357e-05,
      "loss": 0.1036,
      "step": 2370
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.378422110165765e-05,
      "loss": 0.1377,
      "step": 2371
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.377898510069117e-05,
      "loss": 0.185,
      "step": 2372
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.377374720868141e-05,
      "loss": 0.2205,
      "step": 2373
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.376850742615583e-05,
      "loss": 0.3783,
      "step": 2374
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.3763265753642055e-05,
      "loss": 0.2266,
      "step": 2375
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.3758022191667934e-05,
      "loss": 0.178,
      "step": 2376
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.375277674076149e-05,
      "loss": 0.3461,
      "step": 2377
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.374752940145094e-05,
      "loss": 0.1969,
      "step": 2378
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.37422801742647e-05,
      "loss": 0.2344,
      "step": 2379
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.373702905973135e-05,
      "loss": 0.2888,
      "step": 2380
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.3731776058379694e-05,
      "loss": 0.2758,
      "step": 2381
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.37265211707387e-05,
      "loss": 0.0808,
      "step": 2382
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.372126439733754e-05,
      "loss": 0.0941,
      "step": 2383
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.371600573870556e-05,
      "loss": 0.3232,
      "step": 2384
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.3710745195372315e-05,
      "loss": 0.3656,
      "step": 2385
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.3705482767867535e-05,
      "loss": 0.2683,
      "step": 2386
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.370021845672116e-05,
      "loss": 0.5223,
      "step": 2387
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.36949522624633e-05,
      "loss": 0.4884,
      "step": 2388
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.368968418562426e-05,
      "loss": 0.5206,
      "step": 2389
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.368441422673453e-05,
      "loss": 0.5901,
      "step": 2390
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.36791423863248e-05,
      "loss": 0.4196,
      "step": 2391
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.3673868664925933e-05,
      "loss": 0.1966,
      "step": 2392
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.3668593063069014e-05,
      "loss": 0.4362,
      "step": 2393
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.366331558128528e-05,
      "loss": 0.3993,
      "step": 2394
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.365803622010618e-05,
      "loss": 0.3908,
      "step": 2395
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.365275498006334e-05,
      "loss": 0.3429,
      "step": 2396
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.364747186168858e-05,
      "loss": 0.4325,
      "step": 2397
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.364218686551392e-05,
      "loss": 0.2583,
      "step": 2398
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.363689999207156e-05,
      "loss": 0.418,
      "step": 2399
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.3631611241893874e-05,
      "loss": 0.5986,
      "step": 2400
    },
    {
      "epoch": 0.24,
      "eval_loss": 0.5462733507156372,
      "eval_runtime": 73.7436,
      "eval_samples_per_second": 3.132,
      "eval_steps_per_second": 0.787,
      "step": 2400
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.362632061551344e-05,
      "loss": 0.4887,
      "step": 2401
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.3621028113463036e-05,
      "loss": 1.0969,
      "step": 2402
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.361573373627561e-05,
      "loss": 0.7902,
      "step": 2403
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.36104374844843e-05,
      "loss": 0.724,
      "step": 2404
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.360513935862245e-05,
      "loss": 1.399,
      "step": 2405
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.359983935922358e-05,
      "loss": 0.8835,
      "step": 2406
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.3594537486821384e-05,
      "loss": 0.6196,
      "step": 2407
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.358923374194978e-05,
      "loss": 0.2871,
      "step": 2408
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.358392812514285e-05,
      "loss": 0.3573,
      "step": 2409
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.357862063693486e-05,
      "loss": 0.3604,
      "step": 2410
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.3573311277860276e-05,
      "loss": 0.3272,
      "step": 2411
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.356800004845376e-05,
      "loss": 0.5223,
      "step": 2412
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.3562686949250156e-05,
      "loss": 0.0705,
      "step": 2413
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.355737198078447e-05,
      "loss": 0.3074,
      "step": 2414
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.355205514359194e-05,
      "loss": 0.3887,
      "step": 2415
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.354673643820796e-05,
      "loss": 0.4451,
      "step": 2416
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.354141586516814e-05,
      "loss": 0.2251,
      "step": 2417
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.353609342500823e-05,
      "loss": 0.2574,
      "step": 2418
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.353076911826424e-05,
      "loss": 0.2732,
      "step": 2419
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.3525442945472294e-05,
      "loss": 0.3549,
      "step": 2420
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.352011490716875e-05,
      "loss": 0.0976,
      "step": 2421
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.351478500389015e-05,
      "loss": 0.1032,
      "step": 2422
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.35094532361732e-05,
      "loss": 0.3135,
      "step": 2423
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.350411960455482e-05,
      "loss": 0.256,
      "step": 2424
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.34987841095721e-05,
      "loss": 0.1188,
      "step": 2425
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.3493446751762325e-05,
      "loss": 0.3453,
      "step": 2426
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.348810753166297e-05,
      "loss": 0.3971,
      "step": 2427
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.3482766449811693e-05,
      "loss": 0.3182,
      "step": 2428
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.347742350674634e-05,
      "loss": 0.3468,
      "step": 2429
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.347207870300494e-05,
      "loss": 0.4732,
      "step": 2430
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.346673203912572e-05,
      "loss": 0.3063,
      "step": 2431
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.3461383515647106e-05,
      "loss": 0.4078,
      "step": 2432
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.345603313310765e-05,
      "loss": 0.4296,
      "step": 2433
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.345068089204618e-05,
      "loss": 0.3186,
      "step": 2434
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.344532679300165e-05,
      "loss": 0.3145,
      "step": 2435
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.3439970836513214e-05,
      "loss": 0.2266,
      "step": 2436
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.343461302312022e-05,
      "loss": 0.3217,
      "step": 2437
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.3429253353362195e-05,
      "loss": 0.1856,
      "step": 2438
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.342389182777886e-05,
      "loss": 0.3068,
      "step": 2439
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.341852844691012e-05,
      "loss": 0.4334,
      "step": 2440
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.341316321129608e-05,
      "loss": 0.4101,
      "step": 2441
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.3407796121477004e-05,
      "loss": 0.5003,
      "step": 2442
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.3402427177993366e-05,
      "loss": 0.415,
      "step": 2443
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.3397056381385805e-05,
      "loss": 0.3698,
      "step": 2444
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.3391683732195175e-05,
      "loss": 0.3504,
      "step": 2445
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.33863092309625e-05,
      "loss": 0.4027,
      "step": 2446
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.338093287822898e-05,
      "loss": 0.3203,
      "step": 2447
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.337555467453603e-05,
      "loss": 0.3868,
      "step": 2448
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.3370174620425216e-05,
      "loss": 0.4742,
      "step": 2449
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.336479271643833e-05,
      "loss": 0.5087,
      "step": 2450
    },
    {
      "epoch": 0.24,
      "eval_loss": 0.5427612662315369,
      "eval_runtime": 66.5492,
      "eval_samples_per_second": 3.471,
      "eval_steps_per_second": 0.872,
      "step": 2450
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.335940896311732e-05,
      "loss": 0.2613,
      "step": 2451
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.3354023361004326e-05,
      "loss": 0.5315,
      "step": 2452
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.334863591064169e-05,
      "loss": 0.4572,
      "step": 2453
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.334324661257191e-05,
      "loss": 0.2192,
      "step": 2454
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.3337855467337704e-05,
      "loss": 0.2842,
      "step": 2455
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.3332462475481947e-05,
      "loss": 0.0308,
      "step": 2456
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.332706763754773e-05,
      "loss": 0.2904,
      "step": 2457
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.3321670954078295e-05,
      "loss": 0.6569,
      "step": 2458
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.33162724256171e-05,
      "loss": 0.7098,
      "step": 2459
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.331087205270777e-05,
      "loss": 0.5757,
      "step": 2460
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.330546983589413e-05,
      "loss": 0.7516,
      "step": 2461
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.330006577572018e-05,
      "loss": 0.7789,
      "step": 2462
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.32946598727301e-05,
      "loss": 0.3909,
      "step": 2463
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.3289252127468275e-05,
      "loss": 0.3431,
      "step": 2464
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.3283842540479264e-05,
      "loss": 0.4305,
      "step": 2465
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.327843111230781e-05,
      "loss": 0.4297,
      "step": 2466
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.327301784349884e-05,
      "loss": 0.4618,
      "step": 2467
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.3267602734597466e-05,
      "loss": 0.4867,
      "step": 2468
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.3262185786149005e-05,
      "loss": 0.3585,
      "step": 2469
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.3256766998698936e-05,
      "loss": 0.3636,
      "step": 2470
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.3251346372792925e-05,
      "loss": 0.3107,
      "step": 2471
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.3245923908976834e-05,
      "loss": 0.388,
      "step": 2472
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.324049960779671e-05,
      "loss": 0.3621,
      "step": 2473
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.323507346979877e-05,
      "loss": 0.4594,
      "step": 2474
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.322964549552943e-05,
      "loss": 0.3553,
      "step": 2475
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.3224215685535294e-05,
      "loss": 0.4481,
      "step": 2476
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.321878404036312e-05,
      "loss": 0.287,
      "step": 2477
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.321335056055991e-05,
      "loss": 0.3518,
      "step": 2478
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.320791524667279e-05,
      "loss": 0.381,
      "step": 2479
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.3202478099249105e-05,
      "loss": 0.4669,
      "step": 2480
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.319703911883637e-05,
      "loss": 0.4714,
      "step": 2481
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.319159830598229e-05,
      "loss": 0.5114,
      "step": 2482
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.318615566123477e-05,
      "loss": 0.411,
      "step": 2483
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.318071118514186e-05,
      "loss": 0.5231,
      "step": 2484
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.3175264878251845e-05,
      "loss": 0.4376,
      "step": 2485
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.316981674111314e-05,
      "loss": 0.5119,
      "step": 2486
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.31643667742744e-05,
      "loss": 0.3201,
      "step": 2487
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.315891497828441e-05,
      "loss": 0.3198,
      "step": 2488
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.315346135369219e-05,
      "loss": 0.4515,
      "step": 2489
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.3148005901046905e-05,
      "loss": 0.4635,
      "step": 2490
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.314254862089792e-05,
      "loss": 0.5234,
      "step": 2491
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.3137089513794784e-05,
      "loss": 0.4407,
      "step": 2492
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.313162858028723e-05,
      "loss": 0.3327,
      "step": 2493
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.3126165820925174e-05,
      "loss": 0.2931,
      "step": 2494
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.312070123625872e-05,
      "loss": 0.2879,
      "step": 2495
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.311523482683815e-05,
      "loss": 0.3858,
      "step": 2496
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.310976659321392e-05,
      "loss": 0.4289,
      "step": 2497
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.3104296535936695e-05,
      "loss": 0.5638,
      "step": 2498
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.3098824655557294e-05,
      "loss": 0.5518,
      "step": 2499
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.309335095262676e-05,
      "loss": 0.353,
      "step": 2500
    },
    {
      "epoch": 0.25,
      "eval_loss": 0.5724196434020996,
      "eval_runtime": 66.6101,
      "eval_samples_per_second": 3.468,
      "eval_steps_per_second": 0.871,
      "step": 2500
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.3087875427696266e-05,
      "loss": 0.4154,
      "step": 2501
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.3082398081317224e-05,
      "loss": 0.414,
      "step": 2502
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.3076918914041185e-05,
      "loss": 0.2482,
      "step": 2503
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.307143792641991e-05,
      "loss": 0.6624,
      "step": 2504
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.306595511900532e-05,
      "loss": 0.4209,
      "step": 2505
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.3060470492349546e-05,
      "loss": 0.3287,
      "step": 2506
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.30549840470049e-05,
      "loss": 0.2039,
      "step": 2507
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.304949578352384e-05,
      "loss": 0.293,
      "step": 2508
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.304400570245906e-05,
      "loss": 0.3512,
      "step": 2509
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.303851380436339e-05,
      "loss": 0.3221,
      "step": 2510
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.303302008978988e-05,
      "loss": 0.3004,
      "step": 2511
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.3027524559291735e-05,
      "loss": 0.3532,
      "step": 2512
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.302202721342237e-05,
      "loss": 0.2849,
      "step": 2513
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.301652805273535e-05,
      "loss": 0.0882,
      "step": 2514
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.3011027077784444e-05,
      "loss": 0.4489,
      "step": 2515
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.300552428912361e-05,
      "loss": 0.3967,
      "step": 2516
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.300001968730697e-05,
      "loss": 0.3688,
      "step": 2517
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.299451327288884e-05,
      "loss": 0.6567,
      "step": 2518
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.298900504642372e-05,
      "loss": 0.327,
      "step": 2519
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.2983495008466276e-05,
      "loss": 0.2384,
      "step": 2520
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.2977983159571386e-05,
      "loss": 0.2096,
      "step": 2521
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.2972469500294085e-05,
      "loss": 0.2517,
      "step": 2522
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.296695403118959e-05,
      "loss": 0.276,
      "step": 2523
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.2961436752813315e-05,
      "loss": 0.347,
      "step": 2524
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.2955917665720855e-05,
      "loss": 0.3524,
      "step": 2525
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.295039677046797e-05,
      "loss": 0.6955,
      "step": 2526
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.294487406761063e-05,
      "loss": 0.4224,
      "step": 2527
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.293934955770496e-05,
      "loss": 0.5549,
      "step": 2528
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.293382324130728e-05,
      "loss": 0.7534,
      "step": 2529
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.292829511897409e-05,
      "loss": 0.425,
      "step": 2530
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.292276519126207e-05,
      "loss": 0.4225,
      "step": 2531
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.291723345872809e-05,
      "loss": 0.4494,
      "step": 2532
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.291169992192919e-05,
      "loss": 0.4806,
      "step": 2533
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.290616458142259e-05,
      "loss": 0.3731,
      "step": 2534
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.290062743776572e-05,
      "loss": 0.3678,
      "step": 2535
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.2895088491516146e-05,
      "loss": 0.4279,
      "step": 2536
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.288954774323165e-05,
      "loss": 0.2517,
      "step": 2537
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.28840051934702e-05,
      "loss": 0.438,
      "step": 2538
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.2878460842789905e-05,
      "loss": 0.3001,
      "step": 2539
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.2872914691749086e-05,
      "loss": 0.2169,
      "step": 2540
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.2867366740906254e-05,
      "loss": 0.4039,
      "step": 2541
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.2861816990820084e-05,
      "loss": 0.4689,
      "step": 2542
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.285626544204943e-05,
      "loss": 0.4051,
      "step": 2543
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.2850712095153336e-05,
      "loss": 0.3117,
      "step": 2544
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.284515695069101e-05,
      "loss": 0.4059,
      "step": 2545
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.283960000922188e-05,
      "loss": 0.4624,
      "step": 2546
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.2834041271305516e-05,
      "loss": 0.4481,
      "step": 2547
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.2828480737501684e-05,
      "loss": 0.5495,
      "step": 2548
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.282291840837033e-05,
      "loss": 0.31,
      "step": 2549
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.281735428447158e-05,
      "loss": 0.2786,
      "step": 2550
    },
    {
      "epoch": 0.26,
      "eval_loss": 0.5764427185058594,
      "eval_runtime": 67.2865,
      "eval_samples_per_second": 3.433,
      "eval_steps_per_second": 0.862,
      "step": 2550
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.2811788366365734e-05,
      "loss": 0.4242,
      "step": 2551
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.280622065461329e-05,
      "loss": 0.3883,
      "step": 2552
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.280065114977492e-05,
      "loss": 0.3738,
      "step": 2553
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.279507985241146e-05,
      "loss": 0.3317,
      "step": 2554
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.278950676308394e-05,
      "loss": 0.39,
      "step": 2555
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.2783931882353584e-05,
      "loss": 0.4107,
      "step": 2556
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.277835521078177e-05,
      "loss": 0.0756,
      "step": 2557
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.277277674893008e-05,
      "loss": 0.2947,
      "step": 2558
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.276719649736025e-05,
      "loss": 0.3034,
      "step": 2559
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.276161445663423e-05,
      "loss": 0.3678,
      "step": 2560
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.27560306273141e-05,
      "loss": 0.3462,
      "step": 2561
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.2750445009962184e-05,
      "loss": 0.5109,
      "step": 2562
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.2744857605140944e-05,
      "loss": 0.1235,
      "step": 2563
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.273926841341302e-05,
      "loss": 0.3085,
      "step": 2564
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.273367743534126e-05,
      "loss": 0.2467,
      "step": 2565
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.272808467148867e-05,
      "loss": 0.3535,
      "step": 2566
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.2722490122418435e-05,
      "loss": 0.2233,
      "step": 2567
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.2716893788693924e-05,
      "loss": 0.2971,
      "step": 2568
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.2711295670878695e-05,
      "loss": 0.6298,
      "step": 2569
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.270569576953648e-05,
      "loss": 0.5207,
      "step": 2570
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.270009408523119e-05,
      "loss": 0.3498,
      "step": 2571
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.26944906185269e-05,
      "loss": 0.6307,
      "step": 2572
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.26888853699879e-05,
      "loss": 0.4329,
      "step": 2573
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.2683278340178615e-05,
      "loss": 0.6556,
      "step": 2574
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.267766952966369e-05,
      "loss": 0.5164,
      "step": 2575
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.267205893900793e-05,
      "loss": 0.7001,
      "step": 2576
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.2666446568776317e-05,
      "loss": 0.1673,
      "step": 2577
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.2660832419534013e-05,
      "loss": 0.3891,
      "step": 2578
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.265521649184637e-05,
      "loss": 0.4307,
      "step": 2579
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.264959878627891e-05,
      "loss": 0.478,
      "step": 2580
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.264397930339734e-05,
      "loss": 0.4412,
      "step": 2581
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.2638358043767534e-05,
      "loss": 0.5451,
      "step": 2582
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.263273500795555e-05,
      "loss": 0.3676,
      "step": 2583
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.262711019652764e-05,
      "loss": 0.4441,
      "step": 2584
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.262148361005021e-05,
      "loss": 0.3473,
      "step": 2585
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.261585524908987e-05,
      "loss": 0.1697,
      "step": 2586
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.261022511421338e-05,
      "loss": 0.0772,
      "step": 2587
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.260459320598771e-05,
      "loss": 0.2356,
      "step": 2588
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.259895952497998e-05,
      "loss": 0.3693,
      "step": 2589
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.259332407175751e-05,
      "loss": 0.1647,
      "step": 2590
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.258768684688779e-05,
      "loss": 0.267,
      "step": 2591
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.258204785093848e-05,
      "loss": 0.6005,
      "step": 2592
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.257640708447744e-05,
      "loss": 0.4875,
      "step": 2593
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.2570764548072686e-05,
      "loss": 0.6498,
      "step": 2594
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.2565120242292424e-05,
      "loss": 0.4173,
      "step": 2595
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.255947416770503e-05,
      "loss": 0.2549,
      "step": 2596
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.2553826324879064e-05,
      "loss": 0.4572,
      "step": 2597
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.254817671438327e-05,
      "loss": 0.3348,
      "step": 2598
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.2542525336786564e-05,
      "loss": 0.2573,
      "step": 2599
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.2536872192658036e-05,
      "loss": 0.5598,
      "step": 2600
    },
    {
      "epoch": 0.26,
      "eval_loss": 0.5515145063400269,
      "eval_runtime": 66.3535,
      "eval_samples_per_second": 3.481,
      "eval_steps_per_second": 0.874,
      "step": 2600
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.2531217282566956e-05,
      "loss": 0.358,
      "step": 2601
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.252556060708277e-05,
      "loss": 0.3907,
      "step": 2602
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.251990216677512e-05,
      "loss": 0.5721,
      "step": 2603
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.2514241962213794e-05,
      "loss": 0.3304,
      "step": 2604
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.250857999396879e-05,
      "loss": 0.4425,
      "step": 2605
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.250291626261026e-05,
      "loss": 0.1738,
      "step": 2606
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.249725076870853e-05,
      "loss": 0.3467,
      "step": 2607
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.249158351283414e-05,
      "loss": 0.0953,
      "step": 2608
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.2485914495557755e-05,
      "loss": 0.379,
      "step": 2609
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.248024371745027e-05,
      "loss": 0.4635,
      "step": 2610
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.247457117908271e-05,
      "loss": 0.3142,
      "step": 2611
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.246889688102632e-05,
      "loss": 0.1952,
      "step": 2612
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.246322082385249e-05,
      "loss": 0.2481,
      "step": 2613
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.2457543008132806e-05,
      "loss": 0.1392,
      "step": 2614
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.245186343443901e-05,
      "loss": 0.0641,
      "step": 2615
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.2446182103343045e-05,
      "loss": 0.1184,
      "step": 2616
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.244049901541702e-05,
      "loss": 0.3518,
      "step": 2617
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.243481417123323e-05,
      "loss": 0.3352,
      "step": 2618
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.242912757136412e-05,
      "loss": 0.223,
      "step": 2619
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.242343921638234e-05,
      "loss": 0.1984,
      "step": 2620
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.241774910686071e-05,
      "loss": 0.323,
      "step": 2621
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.2412057243372226e-05,
      "loss": 0.2554,
      "step": 2622
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.2406363626490044e-05,
      "loss": 0.3076,
      "step": 2623
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.2400668256787526e-05,
      "loss": 0.2334,
      "step": 2624
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.239497113483819e-05,
      "loss": 0.3052,
      "step": 2625
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.238927226121574e-05,
      "loss": 0.3231,
      "step": 2626
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.2383571636494044e-05,
      "loss": 0.4299,
      "step": 2627
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.2377869261247175e-05,
      "loss": 0.4636,
      "step": 2628
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.237216513604933e-05,
      "loss": 0.4343,
      "step": 2629
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.2366459261474933e-05,
      "loss": 0.3387,
      "step": 2630
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.236075163809857e-05,
      "loss": 0.5615,
      "step": 2631
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.235504226649499e-05,
      "loss": 0.6165,
      "step": 2632
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.234933114723912e-05,
      "loss": 0.5966,
      "step": 2633
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.234361828090609e-05,
      "loss": 0.4036,
      "step": 2634
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.2337903668071164e-05,
      "loss": 0.2293,
      "step": 2635
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.233218730930982e-05,
      "loss": 0.4408,
      "step": 2636
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.232646920519769e-05,
      "loss": 0.3085,
      "step": 2637
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.2320749356310586e-05,
      "loss": 0.2217,
      "step": 2638
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.231502776322449e-05,
      "loss": 0.2225,
      "step": 2639
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.230930442651557e-05,
      "loss": 0.1659,
      "step": 2640
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.230357934676017e-05,
      "loss": 0.2007,
      "step": 2641
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.229785252453481e-05,
      "loss": 0.2753,
      "step": 2642
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.2292123960416165e-05,
      "loss": 0.1834,
      "step": 2643
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.228639365498112e-05,
      "loss": 0.3347,
      "step": 2644
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.2280661608806696e-05,
      "loss": 0.3319,
      "step": 2645
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.227492782247012e-05,
      "loss": 0.221,
      "step": 2646
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.22691922965488e-05,
      "loss": 0.3321,
      "step": 2647
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.226345503162027e-05,
      "loss": 0.495,
      "step": 2648
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.225771602826231e-05,
      "loss": 0.5109,
      "step": 2649
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.2251975287052804e-05,
      "loss": 0.5822,
      "step": 2650
    },
    {
      "epoch": 0.27,
      "eval_loss": 0.541704535484314,
      "eval_runtime": 67.2473,
      "eval_samples_per_second": 3.435,
      "eval_steps_per_second": 0.862,
      "step": 2650
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.224623280856986e-05,
      "loss": 0.686,
      "step": 2651
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.224048859339175e-05,
      "loss": 0.2983,
      "step": 2652
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.22347426420969e-05,
      "loss": 0.3841,
      "step": 2653
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.222899495526395e-05,
      "loss": 0.3264,
      "step": 2654
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.222324553347167e-05,
      "loss": 0.472,
      "step": 2655
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.2217494377299046e-05,
      "loss": 0.3861,
      "step": 2656
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.221174148732519e-05,
      "loss": 0.4238,
      "step": 2657
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.220598686412946e-05,
      "loss": 0.304,
      "step": 2658
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.220023050829132e-05,
      "loss": 0.2694,
      "step": 2659
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.219447242039043e-05,
      "loss": 0.3624,
      "step": 2660
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.2188712601006635e-05,
      "loss": 0.156,
      "step": 2661
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.218295105071995e-05,
      "loss": 0.2922,
      "step": 2662
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.2177187770110576e-05,
      "loss": 0.4968,
      "step": 2663
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.217142275975886e-05,
      "loss": 0.5354,
      "step": 2664
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.2165656020245336e-05,
      "loss": 0.3513,
      "step": 2665
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.2159887552150726e-05,
      "loss": 0.2551,
      "step": 2666
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.2154117356055913e-05,
      "loss": 0.4007,
      "step": 2667
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.214834543254195e-05,
      "loss": 0.5343,
      "step": 2668
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.214257178219006e-05,
      "loss": 0.4089,
      "step": 2669
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.213679640558167e-05,
      "loss": 0.288,
      "step": 2670
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.213101930329835e-05,
      "loss": 0.3526,
      "step": 2671
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.212524047592185e-05,
      "loss": 0.192,
      "step": 2672
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.211945992403411e-05,
      "loss": 0.4297,
      "step": 2673
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.211367764821722e-05,
      "loss": 0.2668,
      "step": 2674
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.210789364905346e-05,
      "loss": 0.1992,
      "step": 2675
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.2102107927125276e-05,
      "loss": 0.2809,
      "step": 2676
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.2096320483015294e-05,
      "loss": 0.2818,
      "step": 2677
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.2090531317306305e-05,
      "loss": 0.354,
      "step": 2678
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.208474043058128e-05,
      "loss": 0.2841,
      "step": 2679
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.2078947823423364e-05,
      "loss": 0.2486,
      "step": 2680
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.207315349641587e-05,
      "loss": 0.1869,
      "step": 2681
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.206735745014228e-05,
      "loss": 0.2516,
      "step": 2682
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.206155968518627e-05,
      "loss": 0.3753,
      "step": 2683
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.2055760202131655e-05,
      "loss": 0.1637,
      "step": 2684
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.2049959001562464e-05,
      "loss": 0.3907,
      "step": 2685
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.204415608406287e-05,
      "loss": 0.416,
      "step": 2686
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.2038351450217215e-05,
      "loss": 0.3441,
      "step": 2687
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.203254510061004e-05,
      "loss": 0.457,
      "step": 2688
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.202673703582604e-05,
      "loss": 0.3267,
      "step": 2689
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.202092725645009e-05,
      "loss": 0.1996,
      "step": 2690
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.2015115763067226e-05,
      "loss": 0.212,
      "step": 2691
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.200930255626267e-05,
      "loss": 0.4617,
      "step": 2692
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.200348763662181e-05,
      "loss": 0.1703,
      "step": 2693
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.199767100473022e-05,
      "loss": 0.0421,
      "step": 2694
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.199185266117361e-05,
      "loss": 0.4321,
      "step": 2695
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.198603260653792e-05,
      "loss": 0.0575,
      "step": 2696
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.198021084140919e-05,
      "loss": 0.2347,
      "step": 2697
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.1974387366373714e-05,
      "loss": 0.1565,
      "step": 2698
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.196856218201788e-05,
      "loss": 0.1954,
      "step": 2699
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.1962735288928305e-05,
      "loss": 0.2854,
      "step": 2700
    },
    {
      "epoch": 0.27,
      "eval_loss": 0.5566439032554626,
      "eval_runtime": 52.48,
      "eval_samples_per_second": 4.402,
      "eval_steps_per_second": 1.105,
      "step": 2700
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.1956906687691746e-05,
      "loss": 0.5114,
      "step": 2701
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.195107637889516e-05,
      "loss": 0.5442,
      "step": 2702
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.194524436312563e-05,
      "loss": 0.3568,
      "step": 2703
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.1939410640970466e-05,
      "loss": 0.2341,
      "step": 2704
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.193357521301712e-05,
      "loss": 0.4093,
      "step": 2705
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.19277380798532e-05,
      "loss": 0.3651,
      "step": 2706
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.192189924206652e-05,
      "loss": 0.2728,
      "step": 2707
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.191605870024505e-05,
      "loss": 0.2757,
      "step": 2708
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.191021645497694e-05,
      "loss": 0.3344,
      "step": 2709
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.1904372506850484e-05,
      "loss": 0.1604,
      "step": 2710
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.189852685645419e-05,
      "loss": 0.2887,
      "step": 2711
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.1892679504376694e-05,
      "loss": 0.4105,
      "step": 2712
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.188683045120685e-05,
      "loss": 0.4203,
      "step": 2713
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.188097969753363e-05,
      "loss": 0.1631,
      "step": 2714
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.187512724394621e-05,
      "loss": 0.1853,
      "step": 2715
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.186927309103395e-05,
      "loss": 0.1954,
      "step": 2716
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.186341723938635e-05,
      "loss": 0.2864,
      "step": 2717
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.185755968959308e-05,
      "loss": 0.2922,
      "step": 2718
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.185170044224404e-05,
      "loss": 0.3027,
      "step": 2719
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.1845839497929204e-05,
      "loss": 0.3982,
      "step": 2720
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.183997685723879e-05,
      "loss": 0.1001,
      "step": 2721
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.183411252076318e-05,
      "loss": 0.3188,
      "step": 2722
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.182824648909289e-05,
      "loss": 0.1594,
      "step": 2723
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.182237876281864e-05,
      "loss": 0.581,
      "step": 2724
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.181650934253132e-05,
      "loss": 0.4012,
      "step": 2725
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.181063822882195e-05,
      "loss": 0.4158,
      "step": 2726
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.180476542228179e-05,
      "loss": 0.137,
      "step": 2727
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.17988909235022e-05,
      "loss": 0.3899,
      "step": 2728
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.179301473307476e-05,
      "loss": 0.4038,
      "step": 2729
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.1787136851591194e-05,
      "loss": 0.5715,
      "step": 2730
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.17812572796434e-05,
      "loss": 0.1828,
      "step": 2731
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.1775376017823465e-05,
      "loss": 0.507,
      "step": 2732
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.176949306672362e-05,
      "loss": 0.3054,
      "step": 2733
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.176360842693629e-05,
      "loss": 0.2348,
      "step": 2734
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.1757722099054034e-05,
      "loss": 0.4576,
      "step": 2735
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.175183408366963e-05,
      "loss": 0.2979,
      "step": 2736
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.1745944381376e-05,
      "loss": 0.7293,
      "step": 2737
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.174005299276622e-05,
      "loss": 0.6328,
      "step": 2738
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.1734159918433554e-05,
      "loss": 0.4681,
      "step": 2739
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.172826515897146e-05,
      "loss": 0.4623,
      "step": 2740
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.1722368714973516e-05,
      "loss": 0.3804,
      "step": 2741
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.17164705870335e-05,
      "loss": 0.1914,
      "step": 2742
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.1710570775745345e-05,
      "loss": 0.0842,
      "step": 2743
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.170466928170318e-05,
      "loss": 0.7227,
      "step": 2744
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.169876610550126e-05,
      "loss": 0.3082,
      "step": 2745
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.1692861247734066e-05,
      "loss": 0.2597,
      "step": 2746
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.168695470899619e-05,
      "loss": 0.636,
      "step": 2747
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.168104648988245e-05,
      "loss": 0.68,
      "step": 2748
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.167513659098777e-05,
      "loss": 0.8495,
      "step": 2749
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.166922501290729e-05,
      "loss": 0.4917,
      "step": 2750
    },
    {
      "epoch": 0.28,
      "eval_loss": 0.5403344035148621,
      "eval_runtime": 66.6317,
      "eval_samples_per_second": 3.467,
      "eval_steps_per_second": 0.87,
      "step": 2750
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.166331175623631e-05,
      "loss": 0.5388,
      "step": 2751
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.16573968215703e-05,
      "loss": 0.0479,
      "step": 2752
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1651480209504876e-05,
      "loss": 0.4839,
      "step": 2753
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1645561920635855e-05,
      "loss": 0.5433,
      "step": 2754
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1639641955559205e-05,
      "loss": 0.335,
      "step": 2755
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.163372031487106e-05,
      "loss": 0.3325,
      "step": 2756
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.162779699916774e-05,
      "loss": 0.2622,
      "step": 2757
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1621872009045714e-05,
      "loss": 0.3153,
      "step": 2758
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.161594534510164e-05,
      "loss": 0.3724,
      "step": 2759
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.161001700793231e-05,
      "loss": 0.3304,
      "step": 2760
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1604086998134726e-05,
      "loss": 0.1809,
      "step": 2761
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1598155316306044e-05,
      "loss": 0.2686,
      "step": 2762
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1592221963043564e-05,
      "loss": 0.3227,
      "step": 2763
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.15862869389448e-05,
      "loss": 0.3865,
      "step": 2764
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.158035024460738e-05,
      "loss": 0.3088,
      "step": 2765
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1574411880629164e-05,
      "loss": 0.2589,
      "step": 2766
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1568471847608104e-05,
      "loss": 0.3446,
      "step": 2767
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.156253014614239e-05,
      "loss": 0.4062,
      "step": 2768
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1556586776830345e-05,
      "loss": 0.1853,
      "step": 2769
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.155064174027047e-05,
      "loss": 0.2495,
      "step": 2770
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.154469503706141e-05,
      "loss": 0.2804,
      "step": 2771
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1538746667802024e-05,
      "loss": 0.3116,
      "step": 2772
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1532796633091296e-05,
      "loss": 0.503,
      "step": 2773
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1526844933528405e-05,
      "loss": 0.2575,
      "step": 2774
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.152089156971268e-05,
      "loss": 0.3837,
      "step": 2775
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.151493654224362e-05,
      "loss": 0.2585,
      "step": 2776
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.150897985172091e-05,
      "loss": 0.2462,
      "step": 2777
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.150302149874438e-05,
      "loss": 0.1728,
      "step": 2778
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.149706148391402e-05,
      "loss": 0.2002,
      "step": 2779
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1491099807830044e-05,
      "loss": 0.1837,
      "step": 2780
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1485136471092754e-05,
      "loss": 0.1969,
      "step": 2781
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.147917147430267e-05,
      "loss": 0.2366,
      "step": 2782
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.147320481806048e-05,
      "loss": 0.575,
      "step": 2783
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.146723650296701e-05,
      "loss": 0.0761,
      "step": 2784
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.146126652962328e-05,
      "loss": 0.3074,
      "step": 2785
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.145529489863046e-05,
      "loss": 0.3169,
      "step": 2786
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.144932161058989e-05,
      "loss": 0.2251,
      "step": 2787
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.144334666610308e-05,
      "loss": 0.2223,
      "step": 2788
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.143737006577172e-05,
      "loss": 0.3995,
      "step": 2789
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.143139181019764e-05,
      "loss": 0.342,
      "step": 2790
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1425411899982855e-05,
      "loss": 0.338,
      "step": 2791
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.141943033572954e-05,
      "loss": 0.3704,
      "step": 2792
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.141344711804004e-05,
      "loss": 0.218,
      "step": 2793
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.140746224751686e-05,
      "loss": 0.5481,
      "step": 2794
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.140147572476268e-05,
      "loss": 0.2891,
      "step": 2795
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.139548755038035e-05,
      "loss": 0.3304,
      "step": 2796
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1389497724972876e-05,
      "loss": 0.3172,
      "step": 2797
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.138350624914342e-05,
      "loss": 0.2548,
      "step": 2798
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1377513123495334e-05,
      "loss": 0.2019,
      "step": 2799
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.137151834863213e-05,
      "loss": 0.3765,
      "step": 2800
    },
    {
      "epoch": 0.28,
      "eval_loss": 0.5654677748680115,
      "eval_runtime": 66.4967,
      "eval_samples_per_second": 3.474,
      "eval_steps_per_second": 0.872,
      "step": 2800
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.136552192515747e-05,
      "loss": 0.34,
      "step": 2801
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.135952385367521e-05,
      "loss": 0.3021,
      "step": 2802
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.135352413478934e-05,
      "loss": 0.1596,
      "step": 2803
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.134752276910403e-05,
      "loss": 0.2067,
      "step": 2804
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.134151975722363e-05,
      "loss": 0.2903,
      "step": 2805
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.133551509975264e-05,
      "loss": 0.2576,
      "step": 2806
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.132950879729572e-05,
      "loss": 0.2526,
      "step": 2807
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1323500850457717e-05,
      "loss": 0.2827,
      "step": 2808
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.131749125984362e-05,
      "loss": 0.5041,
      "step": 2809
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.131148002605861e-05,
      "loss": 0.7071,
      "step": 2810
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1305467149708e-05,
      "loss": 0.6516,
      "step": 2811
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1299452631397294e-05,
      "loss": 0.5723,
      "step": 2812
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.129343647173215e-05,
      "loss": 0.3908,
      "step": 2813
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.128741867131841e-05,
      "loss": 0.3121,
      "step": 2814
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.128139923076205e-05,
      "loss": 0.3029,
      "step": 2815
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.127537815066923e-05,
      "loss": 0.1295,
      "step": 2816
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1269355431646274e-05,
      "loss": 0.1331,
      "step": 2817
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.126333107429968e-05,
      "loss": 0.1927,
      "step": 2818
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1257305079236086e-05,
      "loss": 0.2138,
      "step": 2819
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1251277447062315e-05,
      "loss": 0.3683,
      "step": 2820
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.124524817838535e-05,
      "loss": 0.2561,
      "step": 2821
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1239217273812334e-05,
      "loss": 0.1767,
      "step": 2822
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.123318473395059e-05,
      "loss": 0.3295,
      "step": 2823
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.122715055940759e-05,
      "loss": 0.1741,
      "step": 2824
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1221114750790966e-05,
      "loss": 0.1979,
      "step": 2825
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.121507730870853e-05,
      "loss": 0.2091,
      "step": 2826
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.120903823376826e-05,
      "loss": 0.2412,
      "step": 2827
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1202997526578276e-05,
      "loss": 0.081,
      "step": 2828
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.119695518774689e-05,
      "loss": 0.0761,
      "step": 2829
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.119091121788256e-05,
      "loss": 0.2376,
      "step": 2830
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1184865617593904e-05,
      "loss": 0.3349,
      "step": 2831
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1178818387489725e-05,
      "loss": 0.2543,
      "step": 2832
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1172769528178983e-05,
      "loss": 0.4236,
      "step": 2833
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.116671904027079e-05,
      "loss": 0.405,
      "step": 2834
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1160666924374435e-05,
      "loss": 0.4479,
      "step": 2835
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1154613181099354e-05,
      "loss": 0.5233,
      "step": 2836
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.114855781105518e-05,
      "loss": 0.4417,
      "step": 2837
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1142500814851666e-05,
      "loss": 0.1497,
      "step": 2838
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.113644219309877e-05,
      "loss": 0.3948,
      "step": 2839
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.113038194640658e-05,
      "loss": 0.361,
      "step": 2840
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1124320075385366e-05,
      "loss": 0.3398,
      "step": 2841
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.111825658064557e-05,
      "loss": 0.3518,
      "step": 2842
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.111219146279778e-05,
      "loss": 0.399,
      "step": 2843
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1106124722452746e-05,
      "loss": 0.2807,
      "step": 2844
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1100056360221384e-05,
      "loss": 0.36,
      "step": 2845
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.10939863767148e-05,
      "loss": 0.5384,
      "step": 2846
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.108791477254422e-05,
      "loss": 0.4653,
      "step": 2847
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.108184154832106e-05,
      "loss": 1.083,
      "step": 2848
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.107576670465691e-05,
      "loss": 0.763,
      "step": 2849
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1069690242163484e-05,
      "loss": 0.6412,
      "step": 2850
    },
    {
      "epoch": 0.28,
      "eval_loss": 0.5500534176826477,
      "eval_runtime": 67.5539,
      "eval_samples_per_second": 3.419,
      "eval_steps_per_second": 0.859,
      "step": 2850
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.106361216145269e-05,
      "loss": 1.4097,
      "step": 2851
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.1057532463136594e-05,
      "loss": 0.9467,
      "step": 2852
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.105145114782741e-05,
      "loss": 0.5881,
      "step": 2853
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.104536821613755e-05,
      "loss": 0.256,
      "step": 2854
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.103928366867954e-05,
      "loss": 0.3177,
      "step": 2855
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.10331975060661e-05,
      "loss": 0.3255,
      "step": 2856
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.102710972891012e-05,
      "loss": 0.2607,
      "step": 2857
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.1021020337824624e-05,
      "loss": 0.4784,
      "step": 2858
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.1014929333422816e-05,
      "loss": 0.0462,
      "step": 2859
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.100883671631806e-05,
      "loss": 0.2549,
      "step": 2860
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.100274248712389e-05,
      "loss": 0.3408,
      "step": 2861
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.0996646646453986e-05,
      "loss": 0.3516,
      "step": 2862
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.0990549194922204e-05,
      "loss": 0.1975,
      "step": 2863
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.098445013314255e-05,
      "loss": 0.2078,
      "step": 2864
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.0978349461729214e-05,
      "loss": 0.226,
      "step": 2865
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.097224718129652e-05,
      "loss": 0.3013,
      "step": 2866
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.0966143292458974e-05,
      "loss": 0.088,
      "step": 2867
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.096003779583124e-05,
      "loss": 0.0796,
      "step": 2868
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.095393069202813e-05,
      "loss": 0.2455,
      "step": 2869
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.094782198166464e-05,
      "loss": 0.2184,
      "step": 2870
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.0941711665355905e-05,
      "loss": 0.0993,
      "step": 2871
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.093559974371725e-05,
      "loss": 0.3183,
      "step": 2872
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.092948621736413e-05,
      "loss": 0.3457,
      "step": 2873
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.092337108691219e-05,
      "loss": 0.2853,
      "step": 2874
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.0917254352977206e-05,
      "loss": 0.3427,
      "step": 2875
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.091113601617516e-05,
      "loss": 0.4453,
      "step": 2876
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.090501607712214e-05,
      "loss": 0.2451,
      "step": 2877
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.089889453643444e-05,
      "loss": 0.3618,
      "step": 2878
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.0892771394728504e-05,
      "loss": 0.3897,
      "step": 2879
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.088664665262091e-05,
      "loss": 0.2705,
      "step": 2880
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.088052031072844e-05,
      "loss": 0.2716,
      "step": 2881
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.0874392369668e-05,
      "loss": 0.1905,
      "step": 2882
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.086826283005669e-05,
      "loss": 0.2451,
      "step": 2883
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.086213169251175e-05,
      "loss": 0.1901,
      "step": 2884
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.085599895765058e-05,
      "loss": 0.2659,
      "step": 2885
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.084986462609075e-05,
      "loss": 0.3563,
      "step": 2886
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.0843728698449985e-05,
      "loss": 0.4135,
      "step": 2887
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.083759117534617e-05,
      "loss": 0.4938,
      "step": 2888
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.0831452057397364e-05,
      "loss": 0.3741,
      "step": 2889
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.082531134522176e-05,
      "loss": 0.3665,
      "step": 2890
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.0819169039437745e-05,
      "loss": 0.3238,
      "step": 2891
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.081302514066384e-05,
      "loss": 0.3574,
      "step": 2892
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.080687964951873e-05,
      "loss": 0.2747,
      "step": 2893
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.080073256662127e-05,
      "loss": 0.3486,
      "step": 2894
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.079458389259048e-05,
      "loss": 0.4245,
      "step": 2895
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.078843362804552e-05,
      "loss": 0.4603,
      "step": 2896
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.0782281773605733e-05,
      "loss": 0.2648,
      "step": 2897
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.0776128329890596e-05,
      "loss": 0.439,
      "step": 2898
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.076997329751977e-05,
      "loss": 0.4656,
      "step": 2899
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.0763816677113064e-05,
      "loss": 0.2073,
      "step": 2900
    },
    {
      "epoch": 0.29,
      "eval_loss": 0.5528430938720703,
      "eval_runtime": 73.5978,
      "eval_samples_per_second": 3.139,
      "eval_steps_per_second": 0.788,
      "step": 2900
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.075765846929045e-05,
      "loss": 0.263,
      "step": 2901
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.075149867467206e-05,
      "loss": 0.0283,
      "step": 2902
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.074533729387818e-05,
      "loss": 0.2711,
      "step": 2903
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.073917432752927e-05,
      "loss": 0.5445,
      "step": 2904
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.073300977624594e-05,
      "loss": 0.6452,
      "step": 2905
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.072684364064895e-05,
      "loss": 0.5077,
      "step": 2906
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.0720675921359244e-05,
      "loss": 0.6856,
      "step": 2907
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.071450661899789e-05,
      "loss": 0.6948,
      "step": 2908
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.0708335734186156e-05,
      "loss": 0.3933,
      "step": 2909
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.070216326754544e-05,
      "loss": 0.3151,
      "step": 2910
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.0695989219697315e-05,
      "loss": 0.3811,
      "step": 2911
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.06898135912635e-05,
      "loss": 0.427,
      "step": 2912
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.0683636382865895e-05,
      "loss": 0.3914,
      "step": 2913
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.0677457595126535e-05,
      "loss": 0.4651,
      "step": 2914
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.067127722866761e-05,
      "loss": 0.3498,
      "step": 2915
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.066509528411152e-05,
      "loss": 0.3233,
      "step": 2916
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.065891176208074e-05,
      "loss": 0.271,
      "step": 2917
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.0652726663197994e-05,
      "loss": 0.2918,
      "step": 2918
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.064653998808608e-05,
      "loss": 0.3965,
      "step": 2919
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.064035173736804e-05,
      "loss": 0.4276,
      "step": 2920
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.0634161911666994e-05,
      "loss": 0.3272,
      "step": 2921
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.0627970511606276e-05,
      "loss": 0.3703,
      "step": 2922
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.0621777537809355e-05,
      "loss": 0.2519,
      "step": 2923
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.0615582990899856e-05,
      "loss": 0.3233,
      "step": 2924
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.060938687150159e-05,
      "loss": 0.3473,
      "step": 2925
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.060318918023849e-05,
      "loss": 0.4354,
      "step": 2926
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.059698991773466e-05,
      "loss": 0.4039,
      "step": 2927
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.059078908461437e-05,
      "loss": 0.4766,
      "step": 2928
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.0584586681502055e-05,
      "loss": 0.3029,
      "step": 2929
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.057838270902228e-05,
      "loss": 0.5132,
      "step": 2930
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.0572177167799796e-05,
      "loss": 0.3679,
      "step": 2931
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.05659700584595e-05,
      "loss": 0.4258,
      "step": 2932
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.0559761381626436e-05,
      "loss": 0.3126,
      "step": 2933
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.055355113792584e-05,
      "loss": 0.2856,
      "step": 2934
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.054733932798306e-05,
      "loss": 0.3901,
      "step": 2935
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.054112595242364e-05,
      "loss": 0.4034,
      "step": 2936
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.0534911011873254e-05,
      "loss": 0.4314,
      "step": 2937
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.052869450695776e-05,
      "loss": 0.3809,
      "step": 2938
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.052247643830316e-05,
      "loss": 0.2981,
      "step": 2939
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.0516256806535594e-05,
      "loss": 0.2533,
      "step": 2940
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.0510035612281404e-05,
      "loss": 0.2534,
      "step": 2941
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.050381285616704e-05,
      "loss": 0.3452,
      "step": 2942
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.0497588538819156e-05,
      "loss": 0.386,
      "step": 2943
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.049136266086453e-05,
      "loss": 0.4359,
      "step": 2944
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.0485135222930105e-05,
      "loss": 0.5244,
      "step": 2945
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.047890622564299e-05,
      "loss": 0.2992,
      "step": 2946
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.0472675669630436e-05,
      "loss": 0.3623,
      "step": 2947
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.0466443555519864e-05,
      "loss": 0.3849,
      "step": 2948
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.046020988393885e-05,
      "loss": 0.2034,
      "step": 2949
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.045397465551513e-05,
      "loss": 0.5723,
      "step": 2950
    },
    {
      "epoch": 0.29,
      "eval_loss": 0.5863080620765686,
      "eval_runtime": 73.6823,
      "eval_samples_per_second": 3.135,
      "eval_steps_per_second": 0.787,
      "step": 2950
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.044773787087658e-05,
      "loss": 0.4006,
      "step": 2951
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.0441499530651254e-05,
      "loss": 0.307,
      "step": 2952
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.043525963546735e-05,
      "loss": 0.1629,
      "step": 2953
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.042901818595321e-05,
      "loss": 0.2729,
      "step": 2954
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.042277518273737e-05,
      "loss": 0.3224,
      "step": 2955
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.041653062644849e-05,
      "loss": 0.3028,
      "step": 2956
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.04102845177154e-05,
      "loss": 0.2685,
      "step": 2957
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.040403685716708e-05,
      "loss": 0.322,
      "step": 2958
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.039778764543266e-05,
      "loss": 0.2307,
      "step": 2959
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.039153688314145e-05,
      "loss": 0.0825,
      "step": 2960
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.038528457092291e-05,
      "loss": 0.3568,
      "step": 2961
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.037903070940663e-05,
      "loss": 0.4233,
      "step": 2962
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.037277529922237e-05,
      "loss": 0.3231,
      "step": 2963
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.036651834100006e-05,
      "loss": 0.5491,
      "step": 2964
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.036025983536977e-05,
      "loss": 0.331,
      "step": 2965
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.0353999782961746e-05,
      "loss": 0.2321,
      "step": 2966
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.034773818440636e-05,
      "loss": 0.1742,
      "step": 2967
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.0341475040334155e-05,
      "loss": 0.268,
      "step": 2968
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.0335210351375837e-05,
      "loss": 0.2243,
      "step": 2969
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.0328944118162255e-05,
      "loss": 0.3115,
      "step": 2970
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.0322676341324415e-05,
      "loss": 0.2844,
      "step": 2971
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.031640702149349e-05,
      "loss": 0.601,
      "step": 2972
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.03101361593008e-05,
      "loss": 0.3454,
      "step": 2973
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.0303863755377814e-05,
      "loss": 0.4409,
      "step": 2974
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.0297589810356165e-05,
      "loss": 0.6717,
      "step": 2975
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.0291314324867645e-05,
      "loss": 0.4099,
      "step": 2976
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.0285037299544195e-05,
      "loss": 0.3494,
      "step": 2977
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.02787587350179e-05,
      "loss": 0.4132,
      "step": 2978
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.027247863192102e-05,
      "loss": 0.4408,
      "step": 2979
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.0266196990885955e-05,
      "loss": 0.34,
      "step": 2980
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.025991381254528e-05,
      "loss": 0.3246,
      "step": 2981
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.02536290975317e-05,
      "loss": 0.3687,
      "step": 2982
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.024734284647808e-05,
      "loss": 0.2226,
      "step": 2983
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.0241055060017455e-05,
      "loss": 0.3694,
      "step": 2984
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.0234765738783005e-05,
      "loss": 0.2474,
      "step": 2985
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.0228474883408064e-05,
      "loss": 0.1992,
      "step": 2986
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.022218249452611e-05,
      "loss": 0.3354,
      "step": 2987
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.02158885727708e-05,
      "loss": 0.3837,
      "step": 2988
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.0209593118775937e-05,
      "loss": 0.4,
      "step": 2989
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.020329613317545e-05,
      "loss": 0.2948,
      "step": 2990
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.019699761660346e-05,
      "loss": 0.3707,
      "step": 2991
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.019069756969423e-05,
      "loss": 0.3985,
      "step": 2992
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.018439599308217e-05,
      "loss": 0.2798,
      "step": 2993
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.0178092887401845e-05,
      "loss": 0.5784,
      "step": 2994
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.017178825328799e-05,
      "loss": 0.2192,
      "step": 2995
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.016548209137546e-05,
      "loss": 0.2817,
      "step": 2996
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.015917440229932e-05,
      "loss": 0.2669,
      "step": 2997
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.015286518669471e-05,
      "loss": 0.387,
      "step": 2998
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.0146554445197e-05,
      "loss": 0.3652,
      "step": 2999
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.014024217844167e-05,
      "loss": 0.2436,
      "step": 3000
    },
    {
      "epoch": 0.3,
      "eval_loss": 0.6117938160896301,
      "eval_runtime": 73.67,
      "eval_samples_per_second": 3.136,
      "eval_steps_per_second": 0.787,
      "step": 3000
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.0133928387064365e-05,
      "loss": 0.3389,
      "step": 3001
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.0127613071700886e-05,
      "loss": 0.366,
      "step": 3002
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.0121296232987194e-05,
      "loss": 0.1133,
      "step": 3003
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.011497787155938e-05,
      "loss": 0.2623,
      "step": 3004
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.01086579880537e-05,
      "loss": 0.2542,
      "step": 3005
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.0102336583106584e-05,
      "loss": 0.3805,
      "step": 3006
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.009601365735458e-05,
      "loss": 0.3137,
      "step": 3007
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.008968921143441e-05,
      "loss": 0.5058,
      "step": 3008
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.0083363245982964e-05,
      "loss": 0.1174,
      "step": 3009
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.007703576163724e-05,
      "loss": 0.2775,
      "step": 3010
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.007070675903443e-05,
      "loss": 0.1583,
      "step": 3011
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.006437623881186e-05,
      "loss": 0.3664,
      "step": 3012
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.005804420160702e-05,
      "loss": 0.2415,
      "step": 3013
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.005171064805754e-05,
      "loss": 0.2671,
      "step": 3014
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.0045375578801214e-05,
      "loss": 0.4575,
      "step": 3015
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.003903899447597e-05,
      "loss": 0.6036,
      "step": 3016
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.003270089571991e-05,
      "loss": 0.2724,
      "step": 3017
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.0026361283171287e-05,
      "loss": 0.6147,
      "step": 3018
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.0020020157468495e-05,
      "loss": 0.4187,
      "step": 3019
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.001367751925008e-05,
      "loss": 0.516,
      "step": 3020
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.0007333369154755e-05,
      "loss": 0.5266,
      "step": 3021
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.000098770782136e-05,
      "loss": 0.5743,
      "step": 3022
    },
    {
      "epoch": 0.3,
      "learning_rate": 3.9994640535888914e-05,
      "loss": 0.1988,
      "step": 3023
    },
    {
      "epoch": 0.3,
      "learning_rate": 3.998829185399658e-05,
      "loss": 0.2829,
      "step": 3024
    },
    {
      "epoch": 0.3,
      "learning_rate": 3.9981941662783674e-05,
      "loss": 0.4019,
      "step": 3025
    },
    {
      "epoch": 0.3,
      "learning_rate": 3.997558996288965e-05,
      "loss": 0.4174,
      "step": 3026
    },
    {
      "epoch": 0.3,
      "learning_rate": 3.996923675495412e-05,
      "loss": 0.491,
      "step": 3027
    },
    {
      "epoch": 0.3,
      "learning_rate": 3.996288203961686e-05,
      "loss": 0.4614,
      "step": 3028
    },
    {
      "epoch": 0.3,
      "learning_rate": 3.995652581751779e-05,
      "loss": 0.405,
      "step": 3029
    },
    {
      "epoch": 0.3,
      "learning_rate": 3.995016808929698e-05,
      "loss": 0.4577,
      "step": 3030
    },
    {
      "epoch": 0.3,
      "learning_rate": 3.994380885559466e-05,
      "loss": 0.2545,
      "step": 3031
    },
    {
      "epoch": 0.3,
      "learning_rate": 3.993744811705118e-05,
      "loss": 0.2572,
      "step": 3032
    },
    {
      "epoch": 0.3,
      "learning_rate": 3.99310858743071e-05,
      "loss": 0.0721,
      "step": 3033
    },
    {
      "epoch": 0.3,
      "learning_rate": 3.9924722128003064e-05,
      "loss": 0.1818,
      "step": 3034
    },
    {
      "epoch": 0.3,
      "learning_rate": 3.9918356878779925e-05,
      "loss": 0.3281,
      "step": 3035
    },
    {
      "epoch": 0.3,
      "learning_rate": 3.9911990127278667e-05,
      "loss": 0.1438,
      "step": 3036
    },
    {
      "epoch": 0.3,
      "learning_rate": 3.99056218741404e-05,
      "loss": 0.2356,
      "step": 3037
    },
    {
      "epoch": 0.3,
      "learning_rate": 3.9899252120006416e-05,
      "loss": 0.5457,
      "step": 3038
    },
    {
      "epoch": 0.3,
      "learning_rate": 3.989288086551816e-05,
      "loss": 0.3788,
      "step": 3039
    },
    {
      "epoch": 0.3,
      "learning_rate": 3.98865081113172e-05,
      "loss": 0.7558,
      "step": 3040
    },
    {
      "epoch": 0.3,
      "learning_rate": 3.9880133858045285e-05,
      "loss": 0.3752,
      "step": 3041
    },
    {
      "epoch": 0.3,
      "learning_rate": 3.987375810634429e-05,
      "loss": 0.2551,
      "step": 3042
    },
    {
      "epoch": 0.3,
      "learning_rate": 3.9867380856856275e-05,
      "loss": 0.3618,
      "step": 3043
    },
    {
      "epoch": 0.3,
      "learning_rate": 3.986100211022341e-05,
      "loss": 0.373,
      "step": 3044
    },
    {
      "epoch": 0.3,
      "learning_rate": 3.985462186708804e-05,
      "loss": 0.2057,
      "step": 3045
    },
    {
      "epoch": 0.3,
      "learning_rate": 3.984824012809265e-05,
      "loss": 0.4339,
      "step": 3046
    },
    {
      "epoch": 0.3,
      "learning_rate": 3.984185689387989e-05,
      "loss": 0.4068,
      "step": 3047
    },
    {
      "epoch": 0.3,
      "learning_rate": 3.983547216509254e-05,
      "loss": 0.3305,
      "step": 3048
    },
    {
      "epoch": 0.3,
      "learning_rate": 3.982908594237355e-05,
      "loss": 0.4872,
      "step": 3049
    },
    {
      "epoch": 0.3,
      "learning_rate": 3.982269822636602e-05,
      "loss": 0.3438,
      "step": 3050
    },
    {
      "epoch": 0.3,
      "eval_loss": 0.554997980594635,
      "eval_runtime": 73.8308,
      "eval_samples_per_second": 3.129,
      "eval_steps_per_second": 0.786,
      "step": 3050
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.981630901771317e-05,
      "loss": 0.3933,
      "step": 3051
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.980991831705842e-05,
      "loss": 0.1771,
      "step": 3052
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.9803526125045296e-05,
      "loss": 0.3112,
      "step": 3053
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.9797132442317494e-05,
      "loss": 0.0845,
      "step": 3054
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.979073726951886e-05,
      "loss": 0.2773,
      "step": 3055
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.978434060729339e-05,
      "loss": 0.4559,
      "step": 3056
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.977794245628522e-05,
      "loss": 0.2941,
      "step": 3057
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.9771542817138666e-05,
      "loss": 0.1519,
      "step": 3058
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.976514169049814e-05,
      "loss": 0.23,
      "step": 3059
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.975873907700825e-05,
      "loss": 0.1586,
      "step": 3060
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.9752334977313745e-05,
      "loss": 0.0614,
      "step": 3061
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.97459293920595e-05,
      "loss": 0.0743,
      "step": 3062
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.973952232189057e-05,
      "loss": 0.253,
      "step": 3063
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.9733113767452165e-05,
      "loss": 0.3654,
      "step": 3064
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.9726703729389593e-05,
      "loss": 0.2044,
      "step": 3065
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.972029220834835e-05,
      "loss": 0.1997,
      "step": 3066
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.97138792049741e-05,
      "loss": 0.2895,
      "step": 3067
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.970746471991261e-05,
      "loss": 0.2813,
      "step": 3068
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.970104875380982e-05,
      "loss": 0.2275,
      "step": 3069
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.969463130731183e-05,
      "loss": 0.2265,
      "step": 3070
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.968821238106487e-05,
      "loss": 0.3236,
      "step": 3071
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.968179197571532e-05,
      "loss": 0.2536,
      "step": 3072
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.967537009190972e-05,
      "loss": 0.44,
      "step": 3073
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.966894673029475e-05,
      "loss": 0.394,
      "step": 3074
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.966252189151726e-05,
      "loss": 0.4443,
      "step": 3075
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.96560955762242e-05,
      "loss": 0.2616,
      "step": 3076
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.9649667785062727e-05,
      "loss": 0.4808,
      "step": 3077
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.9643238518680114e-05,
      "loss": 0.5682,
      "step": 3078
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.963680777772377e-05,
      "loss": 0.6028,
      "step": 3079
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.9630375562841295e-05,
      "loss": 0.3446,
      "step": 3080
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.962394187468039e-05,
      "loss": 0.2452,
      "step": 3081
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.9617506713888944e-05,
      "loss": 0.3813,
      "step": 3082
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.961107008111497e-05,
      "loss": 0.3091,
      "step": 3083
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.960463197700663e-05,
      "loss": 0.2041,
      "step": 3084
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.959819240221226e-05,
      "loss": 0.2255,
      "step": 3085
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.959175135738032e-05,
      "loss": 0.1195,
      "step": 3086
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.958530884315941e-05,
      "loss": 0.1904,
      "step": 3087
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.95788648601983e-05,
      "loss": 0.229,
      "step": 3088
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.9572419409145895e-05,
      "loss": 0.174,
      "step": 3089
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.956597249065126e-05,
      "loss": 0.2935,
      "step": 3090
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.9559524105363586e-05,
      "loss": 0.3217,
      "step": 3091
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.955307425393224e-05,
      "loss": 0.2239,
      "step": 3092
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.954662293700671e-05,
      "loss": 0.2449,
      "step": 3093
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.954017015523665e-05,
      "loss": 0.4495,
      "step": 3094
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.953371590927185e-05,
      "loss": 0.407,
      "step": 3095
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.952726019976226e-05,
      "loss": 0.5979,
      "step": 3096
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.952080302735797e-05,
      "loss": 0.6512,
      "step": 3097
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.9514344392709203e-05,
      "loss": 0.3076,
      "step": 3098
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.950788429646636e-05,
      "loss": 0.3498,
      "step": 3099
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.9501422739279956e-05,
      "loss": 0.3516,
      "step": 3100
    },
    {
      "epoch": 0.31,
      "eval_loss": 0.5509369373321533,
      "eval_runtime": 73.8972,
      "eval_samples_per_second": 3.126,
      "eval_steps_per_second": 0.785,
      "step": 3100
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.9494959721800686e-05,
      "loss": 0.3767,
      "step": 3101
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.948849524467937e-05,
      "loss": 0.3998,
      "step": 3102
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.948202930856697e-05,
      "loss": 0.3918,
      "step": 3103
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.947556191411462e-05,
      "loss": 0.3058,
      "step": 3104
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.9469093061973584e-05,
      "loss": 0.263,
      "step": 3105
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.946262275279528e-05,
      "loss": 0.3139,
      "step": 3106
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.9456150987231245e-05,
      "loss": 0.1961,
      "step": 3107
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.944967776593321e-05,
      "loss": 0.2389,
      "step": 3108
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.9443203089553016e-05,
      "loss": 0.4325,
      "step": 3109
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.943672695874267e-05,
      "loss": 0.5325,
      "step": 3110
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.943024937415431e-05,
      "loss": 0.3177,
      "step": 3111
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.942377033644024e-05,
      "loss": 0.2706,
      "step": 3112
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.941728984625288e-05,
      "loss": 0.311,
      "step": 3113
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.941080790424484e-05,
      "loss": 0.5024,
      "step": 3114
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.9404324511068825e-05,
      "loss": 0.4518,
      "step": 3115
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.939783966737773e-05,
      "loss": 0.228,
      "step": 3116
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.939135337382458e-05,
      "loss": 0.3429,
      "step": 3117
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.938486563106253e-05,
      "loss": 0.1286,
      "step": 3118
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.937837643974491e-05,
      "loss": 0.4404,
      "step": 3119
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.937188580052518e-05,
      "loss": 0.2324,
      "step": 3120
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.936539371405694e-05,
      "loss": 0.1547,
      "step": 3121
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.9358900180993946e-05,
      "loss": 0.2295,
      "step": 3122
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.93524052019901e-05,
      "loss": 0.2535,
      "step": 3123
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.934590877769944e-05,
      "loss": 0.3317,
      "step": 3124
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.933941090877615e-05,
      "loss": 0.3105,
      "step": 3125
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.933291159587459e-05,
      "loss": 0.2312,
      "step": 3126
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.932641083964921e-05,
      "loss": 0.2205,
      "step": 3127
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.931990864075465e-05,
      "loss": 0.2322,
      "step": 3128
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.931340499984569e-05,
      "loss": 0.3636,
      "step": 3129
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.9306899917577245e-05,
      "loss": 0.1389,
      "step": 3130
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.930039339460436e-05,
      "loss": 0.3163,
      "step": 3131
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.929388543158226e-05,
      "loss": 0.4187,
      "step": 3132
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.928737602916627e-05,
      "loss": 0.3118,
      "step": 3133
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.9280865188011915e-05,
      "loss": 0.4734,
      "step": 3134
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.927435290877483e-05,
      "loss": 0.2997,
      "step": 3135
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.92678391921108e-05,
      "loss": 0.221,
      "step": 3136
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.9261324038675736e-05,
      "loss": 0.223,
      "step": 3137
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.925480744912575e-05,
      "loss": 0.4301,
      "step": 3138
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.924828942411704e-05,
      "loss": 0.2106,
      "step": 3139
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.9241769964305976e-05,
      "loss": 0.0386,
      "step": 3140
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.9235249070349055e-05,
      "loss": 0.3442,
      "step": 3141
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.9228726742902956e-05,
      "loss": 0.0763,
      "step": 3142
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.9222202982624454e-05,
      "loss": 0.1865,
      "step": 3143
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.92156777901705e-05,
      "loss": 0.125,
      "step": 3144
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.920915116619819e-05,
      "loss": 0.192,
      "step": 3145
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.920262311136475e-05,
      "loss": 0.2122,
      "step": 3146
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.919609362632753e-05,
      "loss": 0.4668,
      "step": 3147
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.918956271174409e-05,
      "loss": 0.4863,
      "step": 3148
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.9183030368272066e-05,
      "loss": 0.4108,
      "step": 3149
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.9176496596569265e-05,
      "loss": 0.2439,
      "step": 3150
    },
    {
      "epoch": 0.32,
      "eval_loss": 0.5608445405960083,
      "eval_runtime": 74.1145,
      "eval_samples_per_second": 3.117,
      "eval_steps_per_second": 0.783,
      "step": 3150
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.916996139729366e-05,
      "loss": 0.3092,
      "step": 3151
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.916342477110332e-05,
      "loss": 0.3688,
      "step": 3152
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.915688671865649e-05,
      "loss": 0.2666,
      "step": 3153
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.915034724061156e-05,
      "loss": 0.252,
      "step": 3154
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.9143806337627054e-05,
      "loss": 0.3379,
      "step": 3155
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.913726401036164e-05,
      "loss": 0.1531,
      "step": 3156
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.913072025947412e-05,
      "loss": 0.2243,
      "step": 3157
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.912417508562345e-05,
      "loss": 0.3369,
      "step": 3158
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.9117628489468745e-05,
      "loss": 0.4684,
      "step": 3159
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.911108047166924e-05,
      "loss": 0.1462,
      "step": 3160
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.910453103288431e-05,
      "loss": 0.1536,
      "step": 3161
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.909798017377349e-05,
      "loss": 0.1264,
      "step": 3162
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.909142789499645e-05,
      "loss": 0.2947,
      "step": 3163
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.908487419721302e-05,
      "loss": 0.2602,
      "step": 3164
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.9078319081083124e-05,
      "loss": 0.2486,
      "step": 3165
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.90717625472669e-05,
      "loss": 0.4205,
      "step": 3166
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.9065204596424566e-05,
      "loss": 0.0498,
      "step": 3167
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.905864522921651e-05,
      "loss": 0.2768,
      "step": 3168
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.905208444630327e-05,
      "loss": 0.1306,
      "step": 3169
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.9045522248345504e-05,
      "loss": 0.4911,
      "step": 3170
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.903895863600404e-05,
      "loss": 0.3764,
      "step": 3171
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.903239360993982e-05,
      "loss": 0.4371,
      "step": 3172
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.902582717081395e-05,
      "loss": 0.0795,
      "step": 3173
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.901925931928766e-05,
      "loss": 0.3238,
      "step": 3174
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.901269005602235e-05,
      "loss": 0.4003,
      "step": 3175
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.9006119381679535e-05,
      "loss": 0.5594,
      "step": 3176
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.899954729692088e-05,
      "loss": 0.1328,
      "step": 3177
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.899297380240819e-05,
      "loss": 0.4389,
      "step": 3178
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.898639889880342e-05,
      "loss": 0.3731,
      "step": 3179
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.897982258676867e-05,
      "loss": 0.1733,
      "step": 3180
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.897324486696617e-05,
      "loss": 0.4091,
      "step": 3181
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.896666574005829e-05,
      "loss": 0.3094,
      "step": 3182
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.8960085206707554e-05,
      "loss": 0.5911,
      "step": 3183
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.895350326757662e-05,
      "loss": 0.6715,
      "step": 3184
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.8946919923328285e-05,
      "loss": 0.4249,
      "step": 3185
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.89403351746255e-05,
      "loss": 0.4178,
      "step": 3186
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.893374902213134e-05,
      "loss": 0.359,
      "step": 3187
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.892716146650903e-05,
      "loss": 0.2438,
      "step": 3188
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.892057250842195e-05,
      "loss": 0.0668,
      "step": 3189
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.89139821485336e-05,
      "loss": 0.6563,
      "step": 3190
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.8907390387507625e-05,
      "loss": 0.2692,
      "step": 3191
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.8900797226007815e-05,
      "loss": 0.2,
      "step": 3192
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.889420266469811e-05,
      "loss": 0.5837,
      "step": 3193
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.888760670424257e-05,
      "loss": 0.652,
      "step": 3194
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.888100934530542e-05,
      "loss": 0.82,
      "step": 3195
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.8874410588551013e-05,
      "loss": 0.4842,
      "step": 3196
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.886781043464384e-05,
      "loss": 0.5469,
      "step": 3197
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.886120888424852e-05,
      "loss": 0.1037,
      "step": 3198
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.8854605938029865e-05,
      "loss": 0.3589,
      "step": 3199
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.884800159665276e-05,
      "loss": 0.5178,
      "step": 3200
    },
    {
      "epoch": 0.32,
      "eval_loss": 0.5489927530288696,
      "eval_runtime": 73.7994,
      "eval_samples_per_second": 3.13,
      "eval_steps_per_second": 0.786,
      "step": 3200
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.884139586078227e-05,
      "loss": 0.3543,
      "step": 3201
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.883478873108361e-05,
      "loss": 0.3315,
      "step": 3202
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.8828180208222085e-05,
      "loss": 0.2749,
      "step": 3203
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.88215702928632e-05,
      "loss": 0.2934,
      "step": 3204
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.881495898567257e-05,
      "loss": 0.3463,
      "step": 3205
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.880834628731594e-05,
      "loss": 0.3062,
      "step": 3206
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.8801732198459215e-05,
      "loss": 0.2033,
      "step": 3207
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.8795116719768444e-05,
      "loss": 0.2292,
      "step": 3208
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.878849985190979e-05,
      "loss": 0.2945,
      "step": 3209
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.878188159554959e-05,
      "loss": 0.3528,
      "step": 3210
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.877526195135427e-05,
      "loss": 0.272,
      "step": 3211
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.876864091999046e-05,
      "loss": 0.2138,
      "step": 3212
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.8762018502124894e-05,
      "loss": 0.279,
      "step": 3213
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.875539469842443e-05,
      "loss": 0.3503,
      "step": 3214
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.87487695095561e-05,
      "loss": 0.2034,
      "step": 3215
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.874214293618706e-05,
      "loss": 0.1964,
      "step": 3216
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.87355149789846e-05,
      "loss": 0.2317,
      "step": 3217
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.8728885638616154e-05,
      "loss": 0.266,
      "step": 3218
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.87222549157493e-05,
      "loss": 0.4657,
      "step": 3219
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.871562281105175e-05,
      "loss": 0.2444,
      "step": 3220
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.8708989325191366e-05,
      "loss": 0.3484,
      "step": 3221
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.870235445883612e-05,
      "loss": 0.2103,
      "step": 3222
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.8695718212654166e-05,
      "loss": 0.1968,
      "step": 3223
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.868908058731376e-05,
      "loss": 0.1481,
      "step": 3224
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.8682441583483314e-05,
      "loss": 0.1765,
      "step": 3225
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.867580120183137e-05,
      "loss": 0.1805,
      "step": 3226
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.8669159443026624e-05,
      "loss": 0.16,
      "step": 3227
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.866251630773789e-05,
      "loss": 0.2252,
      "step": 3228
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.8655871796634146e-05,
      "loss": 0.5364,
      "step": 3229
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.864922591038448e-05,
      "loss": 0.0909,
      "step": 3230
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.8642578649658145e-05,
      "loss": 0.1966,
      "step": 3231
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.863593001512451e-05,
      "loss": 0.3073,
      "step": 3232
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.862928000745309e-05,
      "loss": 0.2074,
      "step": 3233
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.862262862731355e-05,
      "loss": 0.2037,
      "step": 3234
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.861597587537568e-05,
      "loss": 0.358,
      "step": 3235
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.8609321752309416e-05,
      "loss": 0.3226,
      "step": 3236
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.860266625878482e-05,
      "loss": 0.3346,
      "step": 3237
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.85960093954721e-05,
      "loss": 0.3082,
      "step": 3238
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.858935116304161e-05,
      "loss": 0.2668,
      "step": 3239
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.858269156216383e-05,
      "loss": 0.4174,
      "step": 3240
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.857603059350938e-05,
      "loss": 0.2545,
      "step": 3241
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.8569368257749025e-05,
      "loss": 0.334,
      "step": 3242
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.856270455555365e-05,
      "loss": 0.2713,
      "step": 3243
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.85560394875943e-05,
      "loss": 0.2577,
      "step": 3244
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.8549373054542146e-05,
      "loss": 0.2089,
      "step": 3245
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.85427052570685e-05,
      "loss": 0.3429,
      "step": 3246
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.85360360958448e-05,
      "loss": 0.2585,
      "step": 3247
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.852936557154264e-05,
      "loss": 0.2718,
      "step": 3248
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.852269368483373e-05,
      "loss": 0.1631,
      "step": 3249
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.851602043638994e-05,
      "loss": 0.2057,
      "step": 3250
    },
    {
      "epoch": 0.33,
      "eval_loss": 0.581516683101654,
      "eval_runtime": 66.7611,
      "eval_samples_per_second": 3.46,
      "eval_steps_per_second": 0.869,
      "step": 3250
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.8509345826883264e-05,
      "loss": 0.2239,
      "step": 3251
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.850266985698583e-05,
      "loss": 0.2151,
      "step": 3252
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.849599252736991e-05,
      "loss": 0.2508,
      "step": 3253
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.848931383870792e-05,
      "loss": 0.2672,
      "step": 3254
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.8482633791672385e-05,
      "loss": 0.4637,
      "step": 3255
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.8475952386936e-05,
      "loss": 0.6031,
      "step": 3256
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.8469269625171576e-05,
      "loss": 0.5913,
      "step": 3257
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.8462585507052075e-05,
      "loss": 0.4881,
      "step": 3258
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.845590003325058e-05,
      "loss": 0.334,
      "step": 3259
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.844921320444031e-05,
      "loss": 0.2805,
      "step": 3260
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.844252502129465e-05,
      "loss": 0.3062,
      "step": 3261
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.8435835484487096e-05,
      "loss": 0.0895,
      "step": 3262
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.8429144594691256e-05,
      "loss": 0.1245,
      "step": 3263
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.842245235258093e-05,
      "loss": 0.1643,
      "step": 3264
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.841575875883002e-05,
      "loss": 0.1993,
      "step": 3265
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.8409063814112575e-05,
      "loss": 0.3344,
      "step": 3266
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.8402367519102766e-05,
      "loss": 0.2093,
      "step": 3267
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.8395669874474915e-05,
      "loss": 0.1519,
      "step": 3268
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.8388970880903476e-05,
      "loss": 0.295,
      "step": 3269
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.8382270539063035e-05,
      "loss": 0.1704,
      "step": 3270
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.8375568849628315e-05,
      "loss": 0.1383,
      "step": 3271
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.836886581327418e-05,
      "loss": 0.1867,
      "step": 3272
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.836216143067563e-05,
      "loss": 0.1717,
      "step": 3273
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.835545570250778e-05,
      "loss": 0.0514,
      "step": 3274
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.834874862944591e-05,
      "loss": 0.0594,
      "step": 3275
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.834204021216541e-05,
      "loss": 0.2582,
      "step": 3276
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.833533045134183e-05,
      "loss": 0.3024,
      "step": 3277
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.8328619347650846e-05,
      "loss": 0.2275,
      "step": 3278
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.832190690176825e-05,
      "loss": 0.3584,
      "step": 3279
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.8315193114369996e-05,
      "loss": 0.3585,
      "step": 3280
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.830847798613216e-05,
      "loss": 0.4206,
      "step": 3281
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.830176151773096e-05,
      "loss": 0.4402,
      "step": 3282
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.829504370984273e-05,
      "loss": 0.3236,
      "step": 3283
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.8288324563143976e-05,
      "loss": 0.1223,
      "step": 3284
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.8281604078311286e-05,
      "loss": 0.3713,
      "step": 3285
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.827488225602144e-05,
      "loss": 0.3009,
      "step": 3286
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.8268159096951305e-05,
      "loss": 0.3319,
      "step": 3287
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.826143460177792e-05,
      "loss": 0.316,
      "step": 3288
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.825470877117843e-05,
      "loss": 0.3426,
      "step": 3289
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.824798160583012e-05,
      "loss": 0.2175,
      "step": 3290
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.824125310641043e-05,
      "loss": 0.3619,
      "step": 3291
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.823452327359693e-05,
      "loss": 0.4925,
      "step": 3292
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.822779210806729e-05,
      "loss": 0.419,
      "step": 3293
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.8221059610499336e-05,
      "loss": 1.0493,
      "step": 3294
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.821432578157105e-05,
      "loss": 0.6723,
      "step": 3295
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.820759062196052e-05,
      "loss": 0.6985,
      "step": 3296
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.8200854132345974e-05,
      "loss": 1.3172,
      "step": 3297
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.819411631340577e-05,
      "loss": 0.8425,
      "step": 3298
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.8187377165818426e-05,
      "loss": 0.5047,
      "step": 3299
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.818063669026256e-05,
      "loss": 0.2004,
      "step": 3300
    },
    {
      "epoch": 0.33,
      "eval_loss": 0.5521950125694275,
      "eval_runtime": 67.0574,
      "eval_samples_per_second": 3.445,
      "eval_steps_per_second": 0.865,
      "step": 3300
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.8173894887416945e-05,
      "loss": 0.2878,
      "step": 3301
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.816715175796047e-05,
      "loss": 0.328,
      "step": 3302
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.816040730257216e-05,
      "loss": 0.2258,
      "step": 3303
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.815366152193122e-05,
      "loss": 0.4458,
      "step": 3304
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.8146914416716904e-05,
      "loss": 0.0654,
      "step": 3305
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.814016598760868e-05,
      "loss": 0.2133,
      "step": 3306
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.813341623528609e-05,
      "loss": 0.2668,
      "step": 3307
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.8126665160428846e-05,
      "loss": 0.3378,
      "step": 3308
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.811991276371678e-05,
      "loss": 0.152,
      "step": 3309
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.8113159045829864e-05,
      "loss": 0.1671,
      "step": 3310
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.810640400744819e-05,
      "loss": 0.1776,
      "step": 3311
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.8099647649251986e-05,
      "loss": 0.2072,
      "step": 3312
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.809288997192162e-05,
      "loss": 0.0558,
      "step": 3313
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.808613097613759e-05,
      "loss": 0.0818,
      "step": 3314
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.8079370662580537e-05,
      "loss": 0.2102,
      "step": 3315
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.8072609031931214e-05,
      "loss": 0.1795,
      "step": 3316
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.806584608487052e-05,
      "loss": 0.1121,
      "step": 3317
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.8059081822079476e-05,
      "loss": 0.3081,
      "step": 3318
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.805231624423926e-05,
      "loss": 0.3472,
      "step": 3319
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.804554935203115e-05,
      "loss": 0.2409,
      "step": 3320
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.803878114613658e-05,
      "loss": 0.2893,
      "step": 3321
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.80320116272371e-05,
      "loss": 0.4093,
      "step": 3322
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.802524079601442e-05,
      "loss": 0.2476,
      "step": 3323
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.801846865315033e-05,
      "loss": 0.3204,
      "step": 3324
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.801169519932681e-05,
      "loss": 0.345,
      "step": 3325
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.800492043522593e-05,
      "loss": 0.2282,
      "step": 3326
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.7998144361529944e-05,
      "loss": 0.2417,
      "step": 3327
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.799136697892115e-05,
      "loss": 0.163,
      "step": 3328
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.798458828808207e-05,
      "loss": 0.2502,
      "step": 3329
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.7977808289695306e-05,
      "loss": 0.153,
      "step": 3330
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.797102698444359e-05,
      "loss": 0.2481,
      "step": 3331
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.7964244373009815e-05,
      "loss": 0.3465,
      "step": 3332
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.7957460456077e-05,
      "loss": 0.3624,
      "step": 3333
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.795067523432826e-05,
      "loss": 0.433,
      "step": 3334
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.794388870844688e-05,
      "loss": 0.3598,
      "step": 3335
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.793710087911626e-05,
      "loss": 0.3114,
      "step": 3336
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.7930311747019934e-05,
      "loss": 0.2869,
      "step": 3337
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.792352131284158e-05,
      "loss": 0.3149,
      "step": 3338
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.791672957726497e-05,
      "loss": 0.2848,
      "step": 3339
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.790993654097405e-05,
      "loss": 0.3238,
      "step": 3340
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.790314220465287e-05,
      "loss": 0.3938,
      "step": 3341
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.789634656898563e-05,
      "loss": 0.4178,
      "step": 3342
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.788954963465664e-05,
      "loss": 0.2086,
      "step": 3343
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.7882751402350355e-05,
      "loss": 0.4716,
      "step": 3344
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.787595187275136e-05,
      "loss": 0.3834,
      "step": 3345
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.786915104654436e-05,
      "loss": 0.1438,
      "step": 3346
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.78623489244142e-05,
      "loss": 0.2253,
      "step": 3347
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.7855545507045855e-05,
      "loss": 0.0314,
      "step": 3348
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.7848740795124436e-05,
      "loss": 0.2325,
      "step": 3349
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7841934789335164e-05,
      "loss": 0.5567,
      "step": 3350
    },
    {
      "epoch": 0.34,
      "eval_loss": 0.5681309103965759,
      "eval_runtime": 69.2335,
      "eval_samples_per_second": 3.337,
      "eval_steps_per_second": 0.838,
      "step": 3350
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7835127490363406e-05,
      "loss": 0.5256,
      "step": 3351
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.782831889889467e-05,
      "loss": 0.4656,
      "step": 3352
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.782150901561457e-05,
      "loss": 0.653,
      "step": 3353
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.781469784120886e-05,
      "loss": 0.6022,
      "step": 3354
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.780788537636343e-05,
      "loss": 0.2949,
      "step": 3355
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.780107162176429e-05,
      "loss": 0.2797,
      "step": 3356
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.779425657809759e-05,
      "loss": 0.3669,
      "step": 3357
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7787440246049606e-05,
      "loss": 0.3505,
      "step": 3358
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7780622626306734e-05,
      "loss": 0.3758,
      "step": 3359
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7773803719555514e-05,
      "loss": 0.3537,
      "step": 3360
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.776698352648261e-05,
      "loss": 0.2949,
      "step": 3361
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7760162047774814e-05,
      "loss": 0.2691,
      "step": 3362
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.775333928411905e-05,
      "loss": 0.2549,
      "step": 3363
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.774651523620237e-05,
      "loss": 0.3175,
      "step": 3364
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.773968990471195e-05,
      "loss": 0.3089,
      "step": 3365
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.773286329033511e-05,
      "loss": 0.3965,
      "step": 3366
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7726035393759285e-05,
      "loss": 0.2502,
      "step": 3367
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7719206215672043e-05,
      "loss": 0.3629,
      "step": 3368
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.771237575676108e-05,
      "loss": 0.2411,
      "step": 3369
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.770554401771423e-05,
      "loss": 0.293,
      "step": 3370
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7698710999219444e-05,
      "loss": 0.2809,
      "step": 3371
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7691876701964804e-05,
      "loss": 0.3991,
      "step": 3372
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.768504112663853e-05,
      "loss": 0.3735,
      "step": 3373
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.767820427392896e-05,
      "loss": 0.4168,
      "step": 3374
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.767136614452458e-05,
      "loss": 0.3459,
      "step": 3375
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.766452673911396e-05,
      "loss": 0.3872,
      "step": 3376
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7657686058385844e-05,
      "loss": 0.3586,
      "step": 3377
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.765084410302909e-05,
      "loss": 0.4367,
      "step": 3378
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7644000873732694e-05,
      "loss": 0.2565,
      "step": 3379
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.763715637118575e-05,
      "loss": 0.2306,
      "step": 3380
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.763031059607749e-05,
      "loss": 0.3494,
      "step": 3381
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7623463549097316e-05,
      "loss": 0.3553,
      "step": 3382
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7616615230934706e-05,
      "loss": 0.4175,
      "step": 3383
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.760976564227928e-05,
      "loss": 0.3641,
      "step": 3384
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.76029147838208e-05,
      "loss": 0.2616,
      "step": 3385
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.759606265624915e-05,
      "loss": 0.2526,
      "step": 3386
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.758920926025433e-05,
      "loss": 0.248,
      "step": 3387
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.758235459652649e-05,
      "loss": 0.3229,
      "step": 3388
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.757549866575588e-05,
      "loss": 0.3799,
      "step": 3389
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.75686414686329e-05,
      "loss": 0.4481,
      "step": 3390
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7561783005848075e-05,
      "loss": 0.4234,
      "step": 3391
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7554923278092035e-05,
      "loss": 0.285,
      "step": 3392
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7548062286055566e-05,
      "loss": 0.3144,
      "step": 3393
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.754120003042957e-05,
      "loss": 0.3461,
      "step": 3394
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7534336511905076e-05,
      "loss": 0.2026,
      "step": 3395
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7527471731173236e-05,
      "loss": 0.5599,
      "step": 3396
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.752060568892533e-05,
      "loss": 0.327,
      "step": 3397
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7513738385852785e-05,
      "loss": 0.2425,
      "step": 3398
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.750686982264712e-05,
      "loss": 0.1785,
      "step": 3399
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7500000000000003e-05,
      "loss": 0.2376,
      "step": 3400
    },
    {
      "epoch": 0.34,
      "eval_loss": 0.5815250873565674,
      "eval_runtime": 70.7269,
      "eval_samples_per_second": 3.266,
      "eval_steps_per_second": 0.82,
      "step": 3400
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.749312891860323e-05,
      "loss": 0.3275,
      "step": 3401
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.748625657914872e-05,
      "loss": 0.2898,
      "step": 3402
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7479382982328513e-05,
      "loss": 0.2623,
      "step": 3403
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.747250812883478e-05,
      "loss": 0.301,
      "step": 3404
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.746563201935982e-05,
      "loss": 0.2351,
      "step": 3405
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.745875465459606e-05,
      "loss": 0.0873,
      "step": 3406
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.745187603523604e-05,
      "loss": 0.3823,
      "step": 3407
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.744499616197246e-05,
      "loss": 0.3423,
      "step": 3408
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.743811503549809e-05,
      "loss": 0.3078,
      "step": 3409
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7431232656505885e-05,
      "loss": 0.5489,
      "step": 3410
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.742434902568889e-05,
      "loss": 0.2697,
      "step": 3411
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7417464143740285e-05,
      "loss": 0.1604,
      "step": 3412
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.741057801135338e-05,
      "loss": 0.1769,
      "step": 3413
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.740369062922161e-05,
      "loss": 0.2174,
      "step": 3414
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7396801998038536e-05,
      "loss": 0.2441,
      "step": 3415
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.738991211849784e-05,
      "loss": 0.3179,
      "step": 3416
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.738302099129333e-05,
      "loss": 0.2679,
      "step": 3417
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7376128617118945e-05,
      "loss": 0.5724,
      "step": 3418
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7369234996668745e-05,
      "loss": 0.3116,
      "step": 3419
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7362340130636925e-05,
      "loss": 0.4152,
      "step": 3420
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.735544401971779e-05,
      "loss": 0.5673,
      "step": 3421
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7348546664605777e-05,
      "loss": 0.3056,
      "step": 3422
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7341648065995454e-05,
      "loss": 0.337,
      "step": 3423
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.733474822458151e-05,
      "loss": 0.3755,
      "step": 3424
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7327847141058755e-05,
      "loss": 0.3913,
      "step": 3425
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.732094481612214e-05,
      "loss": 0.3501,
      "step": 3426
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.73140412504667e-05,
      "loss": 0.2506,
      "step": 3427
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.730713644478766e-05,
      "loss": 0.2982,
      "step": 3428
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7300230399780314e-05,
      "loss": 0.2286,
      "step": 3429
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.72933231161401e-05,
      "loss": 0.37,
      "step": 3430
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.728641459456258e-05,
      "loss": 0.2533,
      "step": 3431
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7279504835743454e-05,
      "loss": 0.1802,
      "step": 3432
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.727259384037852e-05,
      "loss": 0.3355,
      "step": 3433
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7265681609163727e-05,
      "loss": 0.3946,
      "step": 3434
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7258768142795134e-05,
      "loss": 0.3593,
      "step": 3435
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7251853441968923e-05,
      "loss": 0.2774,
      "step": 3436
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.72449375073814e-05,
      "loss": 0.3256,
      "step": 3437
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.723802033972901e-05,
      "loss": 0.3476,
      "step": 3438
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7231101939708305e-05,
      "loss": 0.3148,
      "step": 3439
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7224182308015975e-05,
      "loss": 0.5152,
      "step": 3440
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7217261445348816e-05,
      "loss": 0.2001,
      "step": 3441
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.721033935240376e-05,
      "loss": 0.2838,
      "step": 3442
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.720341602987787e-05,
      "loss": 0.2933,
      "step": 3443
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.719649147846832e-05,
      "loss": 0.3321,
      "step": 3444
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.718956569887241e-05,
      "loss": 0.3191,
      "step": 3445
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.718263869178757e-05,
      "loss": 0.196,
      "step": 3446
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.717571045791134e-05,
      "loss": 0.3413,
      "step": 3447
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.716878099794141e-05,
      "loss": 0.3951,
      "step": 3448
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.7161850312575565e-05,
      "loss": 0.0532,
      "step": 3449
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.715491840251172e-05,
      "loss": 0.2079,
      "step": 3450
    },
    {
      "epoch": 0.34,
      "eval_loss": 0.6047078371047974,
      "eval_runtime": 66.3793,
      "eval_samples_per_second": 3.48,
      "eval_steps_per_second": 0.874,
      "step": 3450
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.7147985268447926e-05,
      "loss": 0.2241,
      "step": 3451
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.714105091108235e-05,
      "loss": 0.3238,
      "step": 3452
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.713411533111328e-05,
      "loss": 0.2695,
      "step": 3453
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.712717852923913e-05,
      "loss": 0.4608,
      "step": 3454
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.712024050615843e-05,
      "loss": 0.0916,
      "step": 3455
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.7113301262569845e-05,
      "loss": 0.2533,
      "step": 3456
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.710636079917215e-05,
      "loss": 0.1336,
      "step": 3457
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.709941911666425e-05,
      "loss": 0.3302,
      "step": 3458
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.709247621574519e-05,
      "loss": 0.2008,
      "step": 3459
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.708553209711409e-05,
      "loss": 0.2322,
      "step": 3460
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.707858676147025e-05,
      "loss": 0.4021,
      "step": 3461
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.707164020951305e-05,
      "loss": 0.5328,
      "step": 3462
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.706469244194202e-05,
      "loss": 0.231,
      "step": 3463
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.7057743459456787e-05,
      "loss": 0.5199,
      "step": 3464
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.70507932627571e-05,
      "loss": 0.3507,
      "step": 3465
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.704384185254288e-05,
      "loss": 0.4604,
      "step": 3466
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.7036889229514115e-05,
      "loss": 0.4493,
      "step": 3467
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.702993539437093e-05,
      "loss": 0.3831,
      "step": 3468
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.7022980347813575e-05,
      "loss": 0.1374,
      "step": 3469
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.701602409054243e-05,
      "loss": 0.2943,
      "step": 3470
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.7009066623257994e-05,
      "loss": 0.3409,
      "step": 3471
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.7002107946660876e-05,
      "loss": 0.3836,
      "step": 3472
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.699514806145181e-05,
      "loss": 0.3263,
      "step": 3473
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.6988186968331665e-05,
      "loss": 0.4237,
      "step": 3474
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.6981224668001424e-05,
      "loss": 0.3016,
      "step": 3475
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.697426116116218e-05,
      "loss": 0.3715,
      "step": 3476
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.696729644851518e-05,
      "loss": 0.2593,
      "step": 3477
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.6960330530761735e-05,
      "loss": 0.1274,
      "step": 3478
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.695336340860335e-05,
      "loss": 0.057,
      "step": 3479
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.694639508274158e-05,
      "loss": 0.1921,
      "step": 3480
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.693942555387816e-05,
      "loss": 0.2756,
      "step": 3481
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.693245482271491e-05,
      "loss": 0.1249,
      "step": 3482
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.69254828899538e-05,
      "loss": 0.1956,
      "step": 3483
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.6918509756296874e-05,
      "loss": 0.4556,
      "step": 3484
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.691153542244635e-05,
      "loss": 0.3764,
      "step": 3485
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.690455988910453e-05,
      "loss": 0.5244,
      "step": 3486
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.689758315697386e-05,
      "loss": 0.324,
      "step": 3487
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.689060522675689e-05,
      "loss": 0.2234,
      "step": 3488
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.688362609915629e-05,
      "loss": 0.3518,
      "step": 3489
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.6876645774874876e-05,
      "loss": 0.2578,
      "step": 3490
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.6869664254615555e-05,
      "loss": 0.1919,
      "step": 3491
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.686268153908137e-05,
      "loss": 0.4511,
      "step": 3492
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.6855697628975474e-05,
      "loss": 0.2951,
      "step": 3493
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.684871252500116e-05,
      "loss": 0.3112,
      "step": 3494
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.684172622786181e-05,
      "loss": 0.4281,
      "step": 3495
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.683473873826095e-05,
      "loss": 0.2684,
      "step": 3496
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.682775005690223e-05,
      "loss": 0.3391,
      "step": 3497
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.682076018448941e-05,
      "loss": 0.1375,
      "step": 3498
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.681376912172636e-05,
      "loss": 0.2853,
      "step": 3499
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.680677686931707e-05,
      "loss": 0.0542,
      "step": 3500
    },
    {
      "epoch": 0.35,
      "eval_loss": 0.5656617879867554,
      "eval_runtime": 67.6985,
      "eval_samples_per_second": 3.412,
      "eval_steps_per_second": 0.857,
      "step": 3500
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.679978342796569e-05,
      "loss": 0.2831,
      "step": 3501
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.679278879837642e-05,
      "loss": 0.4008,
      "step": 3502
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.6785792981253653e-05,
      "loss": 0.2232,
      "step": 3503
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.677879597730186e-05,
      "loss": 0.1255,
      "step": 3504
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.677179778722563e-05,
      "loss": 0.1622,
      "step": 3505
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.676479841172968e-05,
      "loss": 0.1149,
      "step": 3506
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.6757797851518855e-05,
      "loss": 0.0429,
      "step": 3507
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.6750796107298105e-05,
      "loss": 0.0704,
      "step": 3508
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.674379317977252e-05,
      "loss": 0.2203,
      "step": 3509
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.673678906964727e-05,
      "loss": 0.3006,
      "step": 3510
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.672978377762769e-05,
      "loss": 0.1913,
      "step": 3511
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.67227773044192e-05,
      "loss": 0.161,
      "step": 3512
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.671576965072736e-05,
      "loss": 0.2493,
      "step": 3513
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.6708760817257836e-05,
      "loss": 0.2002,
      "step": 3514
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.670175080471642e-05,
      "loss": 0.2126,
      "step": 3515
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.669473961380902e-05,
      "loss": 0.1808,
      "step": 3516
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.668772724524165e-05,
      "loss": 0.2484,
      "step": 3517
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.668071369972047e-05,
      "loss": 0.2605,
      "step": 3518
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.667369897795174e-05,
      "loss": 0.3563,
      "step": 3519
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.6666683080641846e-05,
      "loss": 0.3641,
      "step": 3520
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.665966600849728e-05,
      "loss": 0.3452,
      "step": 3521
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.6652647762224665e-05,
      "loss": 0.2702,
      "step": 3522
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.664562834253075e-05,
      "loss": 0.4716,
      "step": 3523
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.663860775012238e-05,
      "loss": 0.4889,
      "step": 3524
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.663158598570652e-05,
      "loss": 0.5014,
      "step": 3525
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.6624563049990265e-05,
      "loss": 0.3112,
      "step": 3526
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.661753894368083e-05,
      "loss": 0.1898,
      "step": 3527
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.661051366748555e-05,
      "loss": 0.328,
      "step": 3528
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.660348722211186e-05,
      "loss": 0.284,
      "step": 3529
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.659645960826732e-05,
      "loss": 0.1791,
      "step": 3530
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.6589430826659624e-05,
      "loss": 0.1825,
      "step": 3531
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.6582400877996546e-05,
      "loss": 0.1338,
      "step": 3532
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.6575369762986026e-05,
      "loss": 0.1586,
      "step": 3533
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.6568337482336076e-05,
      "loss": 0.2356,
      "step": 3534
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.6561304036754877e-05,
      "loss": 0.1472,
      "step": 3535
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.655426942695067e-05,
      "loss": 0.2577,
      "step": 3536
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.654723365363184e-05,
      "loss": 0.2669,
      "step": 3537
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.65401967175069e-05,
      "loss": 0.1822,
      "step": 3538
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.653315861928447e-05,
      "loss": 0.2746,
      "step": 3539
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.6526119359673284e-05,
      "loss": 0.3995,
      "step": 3540
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.651907893938219e-05,
      "loss": 0.4269,
      "step": 3541
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.6512037359120164e-05,
      "loss": 0.4892,
      "step": 3542
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.6504994619596294e-05,
      "loss": 0.5504,
      "step": 3543
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.649795072151977e-05,
      "loss": 0.2446,
      "step": 3544
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.6490905665599934e-05,
      "loss": 0.2943,
      "step": 3545
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.648385945254621e-05,
      "loss": 0.2674,
      "step": 3546
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.647681208306815e-05,
      "loss": 0.3763,
      "step": 3547
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.646976355787543e-05,
      "loss": 0.3215,
      "step": 3548
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.6462713877677835e-05,
      "loss": 0.3657,
      "step": 3549
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.645566304318526e-05,
      "loss": 0.2648,
      "step": 3550
    },
    {
      "epoch": 0.35,
      "eval_loss": 0.5733161568641663,
      "eval_runtime": 73.8994,
      "eval_samples_per_second": 3.126,
      "eval_steps_per_second": 0.785,
      "step": 3550
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.644861105510773e-05,
      "loss": 0.2332,
      "step": 3551
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.644155791415539e-05,
      "loss": 0.2958,
      "step": 3552
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.643450362103847e-05,
      "loss": 0.1321,
      "step": 3553
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.642744817646736e-05,
      "loss": 0.2145,
      "step": 3554
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.642039158115252e-05,
      "loss": 0.3878,
      "step": 3555
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.6413333835804566e-05,
      "loss": 0.4481,
      "step": 3556
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.640627494113421e-05,
      "loss": 0.2732,
      "step": 3557
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.639921489785227e-05,
      "loss": 0.1928,
      "step": 3558
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.6392153706669706e-05,
      "loss": 0.2647,
      "step": 3559
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.638509136829758e-05,
      "loss": 0.3906,
      "step": 3560
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.637802788344706e-05,
      "loss": 0.3118,
      "step": 3561
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.637096325282945e-05,
      "loss": 0.2149,
      "step": 3562
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.636389747715614e-05,
      "loss": 0.2613,
      "step": 3563
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.635683055713867e-05,
      "loss": 0.1239,
      "step": 3564
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.634976249348867e-05,
      "loss": 0.3365,
      "step": 3565
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.6342693286917904e-05,
      "loss": 0.1853,
      "step": 3566
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.633562293813824e-05,
      "loss": 0.1306,
      "step": 3567
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.632855144786164e-05,
      "loss": 0.2058,
      "step": 3568
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.632147881680023e-05,
      "loss": 0.2182,
      "step": 3569
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.631440504566621e-05,
      "loss": 0.2682,
      "step": 3570
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.6307330135171916e-05,
      "loss": 0.2199,
      "step": 3571
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.630025408602978e-05,
      "loss": 0.2117,
      "step": 3572
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.629317689895237e-05,
      "loss": 0.1618,
      "step": 3573
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.628609857465236e-05,
      "loss": 0.212,
      "step": 3574
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.6279019113842524e-05,
      "loss": 0.3171,
      "step": 3575
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.627193851723577e-05,
      "loss": 0.1057,
      "step": 3576
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.6264856785545123e-05,
      "loss": 0.2913,
      "step": 3577
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.6257773919483704e-05,
      "loss": 0.327,
      "step": 3578
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.625068991976476e-05,
      "loss": 0.268,
      "step": 3579
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.624360478710165e-05,
      "loss": 0.3745,
      "step": 3580
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.623651852220784e-05,
      "loss": 0.238,
      "step": 3581
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.622943112579693e-05,
      "loss": 0.1715,
      "step": 3582
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.62223425985826e-05,
      "loss": 0.1966,
      "step": 3583
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.6215252941278685e-05,
      "loss": 0.3821,
      "step": 3584
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.620816215459911e-05,
      "loss": 0.1384,
      "step": 3585
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.620107023925791e-05,
      "loss": 0.0338,
      "step": 3586
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.619397719596924e-05,
      "loss": 0.3406,
      "step": 3587
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.618688302544738e-05,
      "loss": 0.0591,
      "step": 3588
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.617978772840671e-05,
      "loss": 0.1647,
      "step": 3589
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.61726913055617e-05,
      "loss": 0.1145,
      "step": 3590
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.6165593757627e-05,
      "loss": 0.1474,
      "step": 3591
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.61584950853173e-05,
      "loss": 0.2251,
      "step": 3592
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.6151395289347465e-05,
      "loss": 0.4203,
      "step": 3593
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.614429437043243e-05,
      "loss": 0.4072,
      "step": 3594
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.613719232928724e-05,
      "loss": 0.3032,
      "step": 3595
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.61300891666271e-05,
      "loss": 0.1834,
      "step": 3596
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.612298488316728e-05,
      "loss": 0.3071,
      "step": 3597
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.611587947962319e-05,
      "loss": 0.2697,
      "step": 3598
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.6108772956710337e-05,
      "loss": 0.2178,
      "step": 3599
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.610166531514436e-05,
      "loss": 0.2098,
      "step": 3600
    },
    {
      "epoch": 0.36,
      "eval_loss": 0.5789327025413513,
      "eval_runtime": 73.7051,
      "eval_samples_per_second": 3.134,
      "eval_steps_per_second": 0.787,
      "step": 3600
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.609455655564098e-05,
      "loss": 0.2693,
      "step": 3601
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.608744667891606e-05,
      "loss": 0.1187,
      "step": 3602
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.608033568568556e-05,
      "loss": 0.238,
      "step": 3603
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.607322357666557e-05,
      "loss": 0.2821,
      "step": 3604
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.6066110352572264e-05,
      "loss": 0.322,
      "step": 3605
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.605899601412194e-05,
      "loss": 0.1178,
      "step": 3606
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.6051880562031024e-05,
      "loss": 0.1206,
      "step": 3607
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.604476399701605e-05,
      "loss": 0.1463,
      "step": 3608
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.603764631979363e-05,
      "loss": 0.2376,
      "step": 3609
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.603052753108053e-05,
      "loss": 0.2135,
      "step": 3610
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.602340763159362e-05,
      "loss": 0.2481,
      "step": 3611
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.6016286622049854e-05,
      "loss": 0.3252,
      "step": 3612
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.6009164503166325e-05,
      "loss": 0.0657,
      "step": 3613
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.600204127566023e-05,
      "loss": 0.2146,
      "step": 3614
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.599491694024889e-05,
      "loss": 0.0921,
      "step": 3615
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.59877914976497e-05,
      "loss": 0.4482,
      "step": 3616
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.5980664948580225e-05,
      "loss": 0.3326,
      "step": 3617
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.597353729375807e-05,
      "loss": 0.3359,
      "step": 3618
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.596640853390103e-05,
      "loss": 0.1098,
      "step": 3619
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.5959278669726935e-05,
      "loss": 0.3009,
      "step": 3620
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.595214770195379e-05,
      "loss": 0.3134,
      "step": 3621
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.594501563129966e-05,
      "loss": 0.4539,
      "step": 3622
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.5937882458482764e-05,
      "loss": 0.1313,
      "step": 3623
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.5930748184221395e-05,
      "loss": 0.3859,
      "step": 3624
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.592361280923399e-05,
      "loss": 0.2368,
      "step": 3625
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.5916476334239074e-05,
      "loss": 0.1921,
      "step": 3626
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.5909338759955286e-05,
      "loss": 0.3398,
      "step": 3627
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.5902200087101384e-05,
      "loss": 0.2533,
      "step": 3628
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.5895060316396234e-05,
      "loss": 0.5481,
      "step": 3629
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.588791944855881e-05,
      "loss": 0.528,
      "step": 3630
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.588077748430819e-05,
      "loss": 0.3579,
      "step": 3631
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.5873634424363576e-05,
      "loss": 0.3644,
      "step": 3632
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.5866490269444276e-05,
      "loss": 0.2715,
      "step": 3633
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.58593450202697e-05,
      "loss": 0.1753,
      "step": 3634
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.585219867755938e-05,
      "loss": 0.0594,
      "step": 3635
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.584505124203295e-05,
      "loss": 0.5949,
      "step": 3636
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.5837902714410156e-05,
      "loss": 0.2106,
      "step": 3637
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.5830753095410856e-05,
      "loss": 0.197,
      "step": 3638
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.582360238575501e-05,
      "loss": 0.5246,
      "step": 3639
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.581645058616271e-05,
      "loss": 0.5475,
      "step": 3640
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.580929769735412e-05,
      "loss": 0.7008,
      "step": 3641
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.580214372004956e-05,
      "loss": 0.395,
      "step": 3642
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.579498865496942e-05,
      "loss": 0.4662,
      "step": 3643
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.5787832502834215e-05,
      "loss": 0.0449,
      "step": 3644
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.578067526436457e-05,
      "loss": 0.4055,
      "step": 3645
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.577351694028123e-05,
      "loss": 0.4341,
      "step": 3646
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.5766357531305014e-05,
      "loss": 0.2749,
      "step": 3647
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.57591970381569e-05,
      "loss": 0.272,
      "step": 3648
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.575203546155793e-05,
      "loss": 0.2085,
      "step": 3649
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.5744872802229296e-05,
      "loss": 0.2679,
      "step": 3650
    },
    {
      "epoch": 0.36,
      "eval_loss": 0.5698056817054749,
      "eval_runtime": 73.0887,
      "eval_samples_per_second": 3.161,
      "eval_steps_per_second": 0.794,
      "step": 3650
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5737709060892256e-05,
      "loss": 0.3112,
      "step": 3651
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.573054423826821e-05,
      "loss": 0.2683,
      "step": 3652
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.572337833507865e-05,
      "loss": 0.1512,
      "step": 3653
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5716211352045194e-05,
      "loss": 0.1948,
      "step": 3654
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5709043289889536e-05,
      "loss": 0.2687,
      "step": 3655
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5701874149333515e-05,
      "loss": 0.2968,
      "step": 3656
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.569470393109907e-05,
      "loss": 0.2433,
      "step": 3657
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.568753263590822e-05,
      "loss": 0.1983,
      "step": 3658
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5680360264483126e-05,
      "loss": 0.2617,
      "step": 3659
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.567318681754605e-05,
      "loss": 0.3214,
      "step": 3660
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.566601229581936e-05,
      "loss": 0.1571,
      "step": 3661
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.565883670002551e-05,
      "loss": 0.205,
      "step": 3662
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5651660030887104e-05,
      "loss": 0.2355,
      "step": 3663
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.564448228912682e-05,
      "loss": 0.2612,
      "step": 3664
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5637303475467464e-05,
      "loss": 0.4129,
      "step": 3665
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.563012359063194e-05,
      "loss": 0.188,
      "step": 3666
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.562294263534326e-05,
      "loss": 0.3142,
      "step": 3667
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5615760610324545e-05,
      "loss": 0.1817,
      "step": 3668
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.560857751629903e-05,
      "loss": 0.1748,
      "step": 3669
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5601393353990046e-05,
      "loss": 0.1284,
      "step": 3670
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5594208124121044e-05,
      "loss": 0.1691,
      "step": 3671
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.558702182741558e-05,
      "loss": 0.15,
      "step": 3672
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5579834464597295e-05,
      "loss": 0.1635,
      "step": 3673
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.557264603638998e-05,
      "loss": 0.1855,
      "step": 3674
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.556545654351749e-05,
      "loss": 0.4646,
      "step": 3675
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.555826598670382e-05,
      "loss": 0.0772,
      "step": 3676
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5551074366673056e-05,
      "loss": 0.2291,
      "step": 3677
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5543881684149384e-05,
      "loss": 0.2449,
      "step": 3678
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.553668793985712e-05,
      "loss": 0.1819,
      "step": 3679
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.552949313452067e-05,
      "loss": 0.1718,
      "step": 3680
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.552229726886454e-05,
      "loss": 0.3438,
      "step": 3681
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.551510034361337e-05,
      "loss": 0.3089,
      "step": 3682
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.550790235949189e-05,
      "loss": 0.2944,
      "step": 3683
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.550070331722492e-05,
      "loss": 0.3258,
      "step": 3684
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5493503217537424e-05,
      "loss": 0.1609,
      "step": 3685
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.548630206115443e-05,
      "loss": 0.4458,
      "step": 3686
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5479099848801106e-05,
      "loss": 0.23,
      "step": 3687
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5471896581202727e-05,
      "loss": 0.2707,
      "step": 3688
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.546469225908463e-05,
      "loss": 0.2162,
      "step": 3689
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.545748688317232e-05,
      "loss": 0.2107,
      "step": 3690
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.545028045419137e-05,
      "loss": 0.1817,
      "step": 3691
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.544307297286746e-05,
      "loss": 0.3056,
      "step": 3692
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.543586443992638e-05,
      "loss": 0.3035,
      "step": 3693
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.542865485609405e-05,
      "loss": 0.2528,
      "step": 3694
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.542144422209645e-05,
      "loss": 0.1507,
      "step": 3695
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.541423253865971e-05,
      "loss": 0.158,
      "step": 3696
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.540701980651003e-05,
      "loss": 0.2128,
      "step": 3697
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.539980602637374e-05,
      "loss": 0.244,
      "step": 3698
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.539259119897728e-05,
      "loss": 0.1945,
      "step": 3699
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5385375325047166e-05,
      "loss": 0.2613,
      "step": 3700
    },
    {
      "epoch": 0.37,
      "eval_loss": 0.6101592779159546,
      "eval_runtime": 73.652,
      "eval_samples_per_second": 3.136,
      "eval_steps_per_second": 0.787,
      "step": 3700
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5378158405310034e-05,
      "loss": 0.4238,
      "step": 3701
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.537094044049264e-05,
      "loss": 0.5588,
      "step": 3702
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.536372143132183e-05,
      "loss": 0.4295,
      "step": 3703
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5356501378524545e-05,
      "loss": 0.4518,
      "step": 3704
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.534928028282786e-05,
      "loss": 0.2878,
      "step": 3705
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.534205814495894e-05,
      "loss": 0.2518,
      "step": 3706
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.533483496564504e-05,
      "loss": 0.2609,
      "step": 3707
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.532761074561355e-05,
      "loss": 0.0679,
      "step": 3708
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.532038548559193e-05,
      "loss": 0.1213,
      "step": 3709
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5313159186307784e-05,
      "loss": 0.1744,
      "step": 3710
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.530593184848878e-05,
      "loss": 0.1584,
      "step": 3711
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5298703472862725e-05,
      "loss": 0.2942,
      "step": 3712
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5291474060157515e-05,
      "loss": 0.1844,
      "step": 3713
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.528424361110115e-05,
      "loss": 0.1681,
      "step": 3714
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.527701212642173e-05,
      "loss": 0.2384,
      "step": 3715
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5269779606847466e-05,
      "loss": 0.1636,
      "step": 3716
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5262546053106685e-05,
      "loss": 0.1173,
      "step": 3717
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.52553114659278e-05,
      "loss": 0.1635,
      "step": 3718
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.524807584603932e-05,
      "loss": 0.1404,
      "step": 3719
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5240839194169885e-05,
      "loss": 0.0464,
      "step": 3720
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.523360151104823e-05,
      "loss": 0.0475,
      "step": 3721
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.522636279740318e-05,
      "loss": 0.2274,
      "step": 3722
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5219123053963675e-05,
      "loss": 0.2429,
      "step": 3723
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.521188228145876e-05,
      "loss": 0.236,
      "step": 3724
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.520464048061758e-05,
      "loss": 0.331,
      "step": 3725
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5197397652169373e-05,
      "loss": 0.3547,
      "step": 3726
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.519015379684351e-05,
      "loss": 0.3905,
      "step": 3727
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.518290891536944e-05,
      "loss": 0.3823,
      "step": 3728
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5175663008476714e-05,
      "loss": 0.302,
      "step": 3729
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.516841607689501e-05,
      "loss": 0.1051,
      "step": 3730
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.516116812135408e-05,
      "loss": 0.3763,
      "step": 3731
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5153919142583795e-05,
      "loss": 0.2678,
      "step": 3732
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5146669141314134e-05,
      "loss": 0.3245,
      "step": 3733
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5139418118275175e-05,
      "loss": 0.274,
      "step": 3734
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.513216607419708e-05,
      "loss": 0.3175,
      "step": 3735
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5124913009810134e-05,
      "loss": 0.1955,
      "step": 3736
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.511765892584474e-05,
      "loss": 0.3593,
      "step": 3737
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.511040382303136e-05,
      "loss": 0.473,
      "step": 3738
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.510314770210059e-05,
      "loss": 0.3724,
      "step": 3739
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.509589056378312e-05,
      "loss": 0.9506,
      "step": 3740
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5088632408809755e-05,
      "loss": 0.595,
      "step": 3741
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.508137323791138e-05,
      "loss": 0.6964,
      "step": 3742
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.507411305181899e-05,
      "loss": 1.4289,
      "step": 3743
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.50668518512637e-05,
      "loss": 0.747,
      "step": 3744
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.50595896369767e-05,
      "loss": 0.4488,
      "step": 3745
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.50523264096893e-05,
      "loss": 0.2088,
      "step": 3746
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.50450621701329e-05,
      "loss": 0.2563,
      "step": 3747
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5037796919039016e-05,
      "loss": 0.2632,
      "step": 3748
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5030530657139265e-05,
      "loss": 0.2447,
      "step": 3749
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.502326338516534e-05,
      "loss": 0.3377,
      "step": 3750
    },
    {
      "epoch": 0.38,
      "eval_loss": 0.5717844367027283,
      "eval_runtime": 74.1692,
      "eval_samples_per_second": 3.115,
      "eval_steps_per_second": 0.782,
      "step": 3750
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.5015995103849076e-05,
      "loss": 0.0718,
      "step": 3751
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.5008725813922386e-05,
      "loss": 0.2242,
      "step": 3752
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.5001455516117263e-05,
      "loss": 0.2522,
      "step": 3753
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.499418421116585e-05,
      "loss": 0.3073,
      "step": 3754
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.4986911899800354e-05,
      "loss": 0.121,
      "step": 3755
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.4979638582753115e-05,
      "loss": 0.1457,
      "step": 3756
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.497236426075654e-05,
      "loss": 0.1754,
      "step": 3757
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.496508893454315e-05,
      "loss": 0.1874,
      "step": 3758
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.495781260484558e-05,
      "loss": 0.0563,
      "step": 3759
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.495053527239656e-05,
      "loss": 0.0707,
      "step": 3760
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.49432569379289e-05,
      "loss": 0.2028,
      "step": 3761
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.4935977602175545e-05,
      "loss": 0.1387,
      "step": 3762
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.4928697265869515e-05,
      "loss": 0.093,
      "step": 3763
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.492141592974395e-05,
      "loss": 0.2581,
      "step": 3764
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.491413359453206e-05,
      "loss": 0.3003,
      "step": 3765
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.490685026096719e-05,
      "loss": 0.2523,
      "step": 3766
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.489956592978278e-05,
      "loss": 0.2419,
      "step": 3767
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.489228060171235e-05,
      "loss": 0.352,
      "step": 3768
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.4884994277489524e-05,
      "loss": 0.2045,
      "step": 3769
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.487770695784805e-05,
      "loss": 0.3004,
      "step": 3770
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.4870418643521755e-05,
      "loss": 0.3139,
      "step": 3771
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.486312933524457e-05,
      "loss": 0.1756,
      "step": 3772
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.4855839033750535e-05,
      "loss": 0.2287,
      "step": 3773
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.484854773977378e-05,
      "loss": 0.1648,
      "step": 3774
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.484125545404854e-05,
      "loss": 0.2378,
      "step": 3775
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.483396217730914e-05,
      "loss": 0.136,
      "step": 3776
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.482666791029001e-05,
      "loss": 0.2387,
      "step": 3777
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.48193726537257e-05,
      "loss": 0.3335,
      "step": 3778
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.4812076408350836e-05,
      "loss": 0.3532,
      "step": 3779
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.480477917490014e-05,
      "loss": 0.4071,
      "step": 3780
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.479748095410845e-05,
      "loss": 0.3282,
      "step": 3781
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.4790181746710696e-05,
      "loss": 0.2485,
      "step": 3782
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.478288155344191e-05,
      "loss": 0.2332,
      "step": 3783
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.477558037503721e-05,
      "loss": 0.268,
      "step": 3784
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.476827821223184e-05,
      "loss": 0.262,
      "step": 3785
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.476097506576113e-05,
      "loss": 0.2633,
      "step": 3786
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.475367093636049e-05,
      "loss": 0.3519,
      "step": 3787
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.4746365824765455e-05,
      "loss": 0.4208,
      "step": 3788
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.473905973171164e-05,
      "loss": 0.2186,
      "step": 3789
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.4731752657934794e-05,
      "loss": 0.4397,
      "step": 3790
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.472444460417071e-05,
      "loss": 0.3551,
      "step": 3791
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.4717135571155315e-05,
      "loss": 0.1052,
      "step": 3792
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.4709825559624645e-05,
      "loss": 0.2354,
      "step": 3793
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.4702514570314805e-05,
      "loss": 0.04,
      "step": 3794
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.469520260396201e-05,
      "loss": 0.2197,
      "step": 3795
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.4687889661302576e-05,
      "loss": 0.5599,
      "step": 3796
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.468057574307292e-05,
      "loss": 0.486,
      "step": 3797
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.467326085000955e-05,
      "loss": 0.4543,
      "step": 3798
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.4665944982849086e-05,
      "loss": 0.5953,
      "step": 3799
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.465862814232822e-05,
      "loss": 0.5643,
      "step": 3800
    },
    {
      "epoch": 0.38,
      "eval_loss": 0.5857375264167786,
      "eval_runtime": 73.8896,
      "eval_samples_per_second": 3.126,
      "eval_steps_per_second": 0.785,
      "step": 3800
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.465131032918376e-05,
      "loss": 0.2401,
      "step": 3801
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.464399154415262e-05,
      "loss": 0.2693,
      "step": 3802
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.46366717879718e-05,
      "loss": 0.3404,
      "step": 3803
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.4629351061378376e-05,
      "loss": 0.3237,
      "step": 3804
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.462202936510959e-05,
      "loss": 0.3456,
      "step": 3805
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.461470669990269e-05,
      "loss": 0.302,
      "step": 3806
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.460738306649509e-05,
      "loss": 0.2805,
      "step": 3807
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.460005846562428e-05,
      "loss": 0.2678,
      "step": 3808
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.459273289802786e-05,
      "loss": 0.2176,
      "step": 3809
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.458540636444349e-05,
      "loss": 0.3011,
      "step": 3810
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.4578078865608956e-05,
      "loss": 0.2735,
      "step": 3811
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.457075040226214e-05,
      "loss": 0.3499,
      "step": 3812
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.456342097514104e-05,
      "loss": 0.2339,
      "step": 3813
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.4556090584983686e-05,
      "loss": 0.2957,
      "step": 3814
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.454875923252828e-05,
      "loss": 0.2323,
      "step": 3815
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.454142691851308e-05,
      "loss": 0.2576,
      "step": 3816
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.453409364367646e-05,
      "loss": 0.263,
      "step": 3817
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.452675940875686e-05,
      "loss": 0.3463,
      "step": 3818
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.4519424214492845e-05,
      "loss": 0.3698,
      "step": 3819
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.4512088061623075e-05,
      "loss": 0.3602,
      "step": 3820
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.4504750950886314e-05,
      "loss": 0.2991,
      "step": 3821
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.449741288302138e-05,
      "loss": 0.2984,
      "step": 3822
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.4490073858767216e-05,
      "loss": 0.3169,
      "step": 3823
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.4482733878862885e-05,
      "loss": 0.3719,
      "step": 3824
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.447539294404751e-05,
      "loss": 0.212,
      "step": 3825
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.4468051055060335e-05,
      "loss": 0.2013,
      "step": 3826
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.446070821264067e-05,
      "loss": 0.3292,
      "step": 3827
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.445336441752794e-05,
      "loss": 0.3201,
      "step": 3828
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.444601967046168e-05,
      "loss": 0.33,
      "step": 3829
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.44386739721815e-05,
      "loss": 0.3261,
      "step": 3830
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.44313273234271e-05,
      "loss": 0.2284,
      "step": 3831
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.44239797249383e-05,
      "loss": 0.2058,
      "step": 3832
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.4416631177455005e-05,
      "loss": 0.2483,
      "step": 3833
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.440928168171721e-05,
      "loss": 0.3024,
      "step": 3834
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.4401931238464994e-05,
      "loss": 0.3686,
      "step": 3835
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.4394579848438575e-05,
      "loss": 0.3404,
      "step": 3836
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.4387227512378214e-05,
      "loss": 0.3957,
      "step": 3837
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.4379874231024294e-05,
      "loss": 0.274,
      "step": 3838
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.4372520005117303e-05,
      "loss": 0.2313,
      "step": 3839
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.436516483539781e-05,
      "loss": 0.2994,
      "step": 3840
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.4357808722606464e-05,
      "loss": 0.1933,
      "step": 3841
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.4350451667484035e-05,
      "loss": 0.4968,
      "step": 3842
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.434309367077138e-05,
      "loss": 0.3127,
      "step": 3843
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.4335734733209456e-05,
      "loss": 0.1506,
      "step": 3844
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.432837485553929e-05,
      "loss": 0.1681,
      "step": 3845
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.4321014038502036e-05,
      "loss": 0.2298,
      "step": 3846
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.431365228283893e-05,
      "loss": 0.2578,
      "step": 3847
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.430628958929129e-05,
      "loss": 0.2264,
      "step": 3848
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.429892595860053e-05,
      "loss": 0.2296,
      "step": 3849
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.4291561391508185e-05,
      "loss": 0.2591,
      "step": 3850
    },
    {
      "epoch": 0.39,
      "eval_loss": 0.5962055325508118,
      "eval_runtime": 73.7841,
      "eval_samples_per_second": 3.131,
      "eval_steps_per_second": 0.786,
      "step": 3850
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.428419588875588e-05,
      "loss": 0.202,
      "step": 3851
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.4276829451085285e-05,
      "loss": 0.0703,
      "step": 3852
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.426946207923822e-05,
      "loss": 0.3657,
      "step": 3853
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.426209377395658e-05,
      "loss": 0.2848,
      "step": 3854
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.425472453598236e-05,
      "loss": 0.2988,
      "step": 3855
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.4247354366057615e-05,
      "loss": 0.4523,
      "step": 3856
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.423998326492455e-05,
      "loss": 0.2341,
      "step": 3857
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.4232611233325415e-05,
      "loss": 0.145,
      "step": 3858
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.422523827200259e-05,
      "loss": 0.205,
      "step": 3859
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.421786438169852e-05,
      "loss": 0.1887,
      "step": 3860
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.4210489563155754e-05,
      "loss": 0.1986,
      "step": 3861
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.4203113817116957e-05,
      "loss": 0.2567,
      "step": 3862
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.4195737144324836e-05,
      "loss": 0.2151,
      "step": 3863
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.418835954552224e-05,
      "loss": 0.4981,
      "step": 3864
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.418098102145208e-05,
      "loss": 0.2736,
      "step": 3865
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.41736015728574e-05,
      "loss": 0.381,
      "step": 3866
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.416622120048128e-05,
      "loss": 0.471,
      "step": 3867
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.4158839905066944e-05,
      "loss": 0.2417,
      "step": 3868
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.415145768735767e-05,
      "loss": 0.3045,
      "step": 3869
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.4144074548096866e-05,
      "loss": 0.3808,
      "step": 3870
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.4136690488028e-05,
      "loss": 0.302,
      "step": 3871
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.4129305507894656e-05,
      "loss": 0.3284,
      "step": 3872
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.412191960844049e-05,
      "loss": 0.1945,
      "step": 3873
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.4114532790409284e-05,
      "loss": 0.2349,
      "step": 3874
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.4107145054544857e-05,
      "loss": 0.1627,
      "step": 3875
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.409975640159118e-05,
      "loss": 0.3123,
      "step": 3876
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.409236683229229e-05,
      "loss": 0.1813,
      "step": 3877
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.40849763473923e-05,
      "loss": 0.1422,
      "step": 3878
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.407758494763544e-05,
      "loss": 0.3326,
      "step": 3879
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.4070192633766025e-05,
      "loss": 0.3378,
      "step": 3880
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.406279940652847e-05,
      "loss": 0.3498,
      "step": 3881
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.405540526666725e-05,
      "loss": 0.2572,
      "step": 3882
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.404801021492697e-05,
      "loss": 0.2976,
      "step": 3883
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.4040614252052305e-05,
      "loss": 0.2996,
      "step": 3884
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.403321737878804e-05,
      "loss": 0.2879,
      "step": 3885
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.402581959587903e-05,
      "loss": 0.4038,
      "step": 3886
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.4018420904070236e-05,
      "loss": 0.1759,
      "step": 3887
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.40110213041067e-05,
      "loss": 0.2126,
      "step": 3888
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.400362079673357e-05,
      "loss": 0.2501,
      "step": 3889
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.399621938269606e-05,
      "loss": 0.308,
      "step": 3890
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.398881706273952e-05,
      "loss": 0.2783,
      "step": 3891
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.398141383760934e-05,
      "loss": 0.2301,
      "step": 3892
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.397400970805104e-05,
      "loss": 0.272,
      "step": 3893
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.3966604674810195e-05,
      "loss": 0.3389,
      "step": 3894
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.39591987386325e-05,
      "loss": 0.0377,
      "step": 3895
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.3951791900263755e-05,
      "loss": 0.1863,
      "step": 3896
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.39443841604498e-05,
      "loss": 0.2111,
      "step": 3897
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.3936975519936615e-05,
      "loss": 0.2779,
      "step": 3898
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.3929565979470234e-05,
      "loss": 0.2581,
      "step": 3899
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.392215553979679e-05,
      "loss": 0.372,
      "step": 3900
    },
    {
      "epoch": 0.39,
      "eval_loss": 0.6031441688537598,
      "eval_runtime": 66.3746,
      "eval_samples_per_second": 3.48,
      "eval_steps_per_second": 0.874,
      "step": 3900
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.391474420166255e-05,
      "loss": 0.0866,
      "step": 3901
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.3907331965813805e-05,
      "loss": 0.2224,
      "step": 3902
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.389991883299697e-05,
      "loss": 0.1538,
      "step": 3903
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.389250480395855e-05,
      "loss": 0.2445,
      "step": 3904
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.3885089879445146e-05,
      "loss": 0.1623,
      "step": 3905
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.387767406020343e-05,
      "loss": 0.1947,
      "step": 3906
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.3870257346980185e-05,
      "loss": 0.4171,
      "step": 3907
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.3862839740522265e-05,
      "loss": 0.4271,
      "step": 3908
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.385542124157662e-05,
      "loss": 0.2012,
      "step": 3909
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.3848001850890296e-05,
      "loss": 0.4116,
      "step": 3910
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.384058156921044e-05,
      "loss": 0.285,
      "step": 3911
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.383316039728426e-05,
      "loss": 0.4401,
      "step": 3912
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.382573833585906e-05,
      "loss": 0.3811,
      "step": 3913
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.381831538568225e-05,
      "loss": 0.4514,
      "step": 3914
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.3810891547501335e-05,
      "loss": 0.1579,
      "step": 3915
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.3803466822063876e-05,
      "loss": 0.2377,
      "step": 3916
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.3796041210117546e-05,
      "loss": 0.3045,
      "step": 3917
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.3788614712410113e-05,
      "loss": 0.3299,
      "step": 3918
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.378118732968941e-05,
      "loss": 0.3265,
      "step": 3919
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.3773759062703396e-05,
      "loss": 0.3683,
      "step": 3920
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.376632991220007e-05,
      "loss": 0.2602,
      "step": 3921
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.375889987892758e-05,
      "loss": 0.3452,
      "step": 3922
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.3751468963634096e-05,
      "loss": 0.204,
      "step": 3923
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.3744037167067934e-05,
      "loss": 0.1735,
      "step": 3924
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.3736604489977466e-05,
      "loss": 0.0515,
      "step": 3925
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.372917093311116e-05,
      "loss": 0.1529,
      "step": 3926
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.372173649721759e-05,
      "loss": 0.2277,
      "step": 3927
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.3714301183045385e-05,
      "loss": 0.1136,
      "step": 3928
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.370686499134329e-05,
      "loss": 0.1837,
      "step": 3929
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.369942792286013e-05,
      "loss": 0.3702,
      "step": 3930
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.3691989978344825e-05,
      "loss": 0.3033,
      "step": 3931
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.368455115854635e-05,
      "loss": 0.5613,
      "step": 3932
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.3677111464213825e-05,
      "loss": 0.2592,
      "step": 3933
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.366967089609641e-05,
      "loss": 0.1918,
      "step": 3934
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.366222945494337e-05,
      "loss": 0.3088,
      "step": 3935
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.365478714150406e-05,
      "loss": 0.2402,
      "step": 3936
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.3647343956527924e-05,
      "loss": 0.1346,
      "step": 3937
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.3639899900764496e-05,
      "loss": 0.3675,
      "step": 3938
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.363245497496337e-05,
      "loss": 0.2886,
      "step": 3939
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.3625009179874265e-05,
      "loss": 0.2876,
      "step": 3940
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.361756251624698e-05,
      "loss": 0.3968,
      "step": 3941
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.361011498483139e-05,
      "loss": 0.2271,
      "step": 3942
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.3602666586377446e-05,
      "loss": 0.3038,
      "step": 3943
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.3595217321635215e-05,
      "loss": 0.128,
      "step": 3944
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.358776719135483e-05,
      "loss": 0.2543,
      "step": 3945
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.3580316196286534e-05,
      "loss": 0.0494,
      "step": 3946
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.357286433718063e-05,
      "loss": 0.2385,
      "step": 3947
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.356541161478751e-05,
      "loss": 0.3617,
      "step": 3948
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.3557958029857686e-05,
      "loss": 0.2164,
      "step": 3949
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.355050358314172e-05,
      "loss": 0.1081,
      "step": 3950
    },
    {
      "epoch": 0.4,
      "eval_loss": 0.5710883736610413,
      "eval_runtime": 67.1319,
      "eval_samples_per_second": 3.441,
      "eval_steps_per_second": 0.864,
      "step": 3950
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.354304827539028e-05,
      "loss": 0.1429,
      "step": 3951
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.353559210735411e-05,
      "loss": 0.1017,
      "step": 3952
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.3528135079784037e-05,
      "loss": 0.0396,
      "step": 3953
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.3520677193431015e-05,
      "loss": 0.0572,
      "step": 3954
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.3513218449046025e-05,
      "loss": 0.1964,
      "step": 3955
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.350575884738016e-05,
      "loss": 0.2984,
      "step": 3956
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.349829838918463e-05,
      "loss": 0.1758,
      "step": 3957
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.3490837075210674e-05,
      "loss": 0.1585,
      "step": 3958
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.348337490620965e-05,
      "loss": 0.2104,
      "step": 3959
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.3475911882933015e-05,
      "loss": 0.1992,
      "step": 3960
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.346844800613229e-05,
      "loss": 0.1768,
      "step": 3961
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.346098327655907e-05,
      "loss": 0.1604,
      "step": 3962
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.3453517694965075e-05,
      "loss": 0.2151,
      "step": 3963
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.344605126210207e-05,
      "loss": 0.2114,
      "step": 3964
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.343858397872195e-05,
      "loss": 0.3668,
      "step": 3965
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.343111584557664e-05,
      "loss": 0.336,
      "step": 3966
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.34236468634182e-05,
      "loss": 0.3198,
      "step": 3967
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.341617703299875e-05,
      "loss": 0.2355,
      "step": 3968
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.34087063550705e-05,
      "loss": 0.4143,
      "step": 3969
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.3401234830385756e-05,
      "loss": 0.4375,
      "step": 3970
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.3393762459696884e-05,
      "loss": 0.4749,
      "step": 3971
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.338628924375638e-05,
      "loss": 0.2721,
      "step": 3972
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.337881518331677e-05,
      "loss": 0.1902,
      "step": 3973
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.3371340279130695e-05,
      "loss": 0.3244,
      "step": 3974
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.336386453195088e-05,
      "loss": 0.2503,
      "step": 3975
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.335638794253015e-05,
      "loss": 0.157,
      "step": 3976
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.3348910511621374e-05,
      "loss": 0.1823,
      "step": 3977
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.334143223997754e-05,
      "loss": 0.1123,
      "step": 3978
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.33339531283517e-05,
      "loss": 0.1377,
      "step": 3979
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.332647317749702e-05,
      "loss": 0.2068,
      "step": 3980
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.3318992388166714e-05,
      "loss": 0.1367,
      "step": 3981
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.33115107611141e-05,
      "loss": 0.2267,
      "step": 3982
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.330402829709258e-05,
      "loss": 0.2506,
      "step": 3983
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.329654499685565e-05,
      "loss": 0.1708,
      "step": 3984
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.328906086115685e-05,
      "loss": 0.2288,
      "step": 3985
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.328157589074986e-05,
      "loss": 0.3323,
      "step": 3986
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.327409008638839e-05,
      "loss": 0.373,
      "step": 3987
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.3266603448826285e-05,
      "loss": 0.4596,
      "step": 3988
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.325911597881743e-05,
      "loss": 0.5122,
      "step": 3989
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.325162767711583e-05,
      "loss": 0.2267,
      "step": 3990
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.324413854447555e-05,
      "loss": 0.2724,
      "step": 3991
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.323664858165074e-05,
      "loss": 0.2703,
      "step": 3992
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.322915778939565e-05,
      "loss": 0.2935,
      "step": 3993
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.322166616846458e-05,
      "loss": 0.3102,
      "step": 3994
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.321417371961196e-05,
      "loss": 0.3241,
      "step": 3995
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.320668044359228e-05,
      "loss": 0.2507,
      "step": 3996
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.319918634116009e-05,
      "loss": 0.2038,
      "step": 3997
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.319169141307007e-05,
      "loss": 0.2429,
      "step": 3998
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.3184195660076946e-05,
      "loss": 0.1426,
      "step": 3999
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.3176699082935545e-05,
      "loss": 0.2039,
      "step": 4000
    },
    {
      "epoch": 0.4,
      "eval_loss": 0.5914000868797302,
      "eval_runtime": 67.8966,
      "eval_samples_per_second": 3.402,
      "eval_steps_per_second": 0.854,
      "step": 4000
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.316920168240077e-05,
      "loss": 0.3214,
      "step": 4001
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.31617034592276e-05,
      "loss": 0.3864,
      "step": 4002
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.315420441417113e-05,
      "loss": 0.2437,
      "step": 4003
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.3146704547986485e-05,
      "loss": 0.1717,
      "step": 4004
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.313920386142892e-05,
      "loss": 0.2162,
      "step": 4005
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.313170235525375e-05,
      "loss": 0.378,
      "step": 4006
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.312420003021637e-05,
      "loss": 0.3001,
      "step": 4007
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.311669688707228e-05,
      "loss": 0.1776,
      "step": 4008
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.310919292657703e-05,
      "loss": 0.2295,
      "step": 4009
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.310168814948627e-05,
      "loss": 0.1077,
      "step": 4010
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.309418255655574e-05,
      "loss": 0.3262,
      "step": 4011
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.3086676148541245e-05,
      "loss": 0.1674,
      "step": 4012
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.3079168926198685e-05,
      "loss": 0.1155,
      "step": 4013
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.307166089028403e-05,
      "loss": 0.1727,
      "step": 4014
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.306415204155335e-05,
      "loss": 0.1758,
      "step": 4015
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.305664238076278e-05,
      "loss": 0.2671,
      "step": 4016
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.304913190866854e-05,
      "loss": 0.2314,
      "step": 4017
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.304162062602694e-05,
      "loss": 0.1818,
      "step": 4018
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.3034108533594366e-05,
      "loss": 0.1434,
      "step": 4019
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.302659563212727e-05,
      "loss": 0.1862,
      "step": 4020
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.3019081922382225e-05,
      "loss": 0.2927,
      "step": 4021
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.301156740511585e-05,
      "loss": 0.0675,
      "step": 4022
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.300405208108485e-05,
      "loss": 0.2653,
      "step": 4023
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.299653595104603e-05,
      "loss": 0.2966,
      "step": 4024
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.2989019015756254e-05,
      "loss": 0.2316,
      "step": 4025
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.298150127597248e-05,
      "loss": 0.3861,
      "step": 4026
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.2973982732451755e-05,
      "loss": 0.2275,
      "step": 4027
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.2966463385951175e-05,
      "loss": 0.1553,
      "step": 4028
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.295894323722796e-05,
      "loss": 0.1774,
      "step": 4029
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.295142228703938e-05,
      "loss": 0.3263,
      "step": 4030
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.294390053614279e-05,
      "loss": 0.1256,
      "step": 4031
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.293637798529562e-05,
      "loss": 0.0408,
      "step": 4032
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.292885463525542e-05,
      "loss": 0.2796,
      "step": 4033
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.2921330486779774e-05,
      "loss": 0.0509,
      "step": 4034
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.291380554062636e-05,
      "loss": 0.1256,
      "step": 4035
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.2906279797552945e-05,
      "loss": 0.0839,
      "step": 4036
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.289875325831738e-05,
      "loss": 0.1304,
      "step": 4037
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.289122592367757e-05,
      "loss": 0.1785,
      "step": 4038
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.288369779439152e-05,
      "loss": 0.3903,
      "step": 4039
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.2876168871217325e-05,
      "loss": 0.37,
      "step": 4040
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.2868639154913136e-05,
      "loss": 0.3137,
      "step": 4041
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.2861108646237205e-05,
      "loss": 0.1679,
      "step": 4042
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.2853577345947836e-05,
      "loss": 0.2601,
      "step": 4043
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.284604525480346e-05,
      "loss": 0.2508,
      "step": 4044
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.2838512373562536e-05,
      "loss": 0.2139,
      "step": 4045
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.283097870298363e-05,
      "loss": 0.1927,
      "step": 4046
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.2823444243825375e-05,
      "loss": 0.2552,
      "step": 4047
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.2815908996846506e-05,
      "loss": 0.1168,
      "step": 4048
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.2808372962805816e-05,
      "loss": 0.2079,
      "step": 4049
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.280083614246218e-05,
      "loss": 0.2915,
      "step": 4050
    },
    {
      "epoch": 0.41,
      "eval_loss": 0.588538646697998,
      "eval_runtime": 66.8112,
      "eval_samples_per_second": 3.458,
      "eval_steps_per_second": 0.868,
      "step": 4050
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.279329853657456e-05,
      "loss": 0.3068,
      "step": 4051
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.278576014590199e-05,
      "loss": 0.1037,
      "step": 4052
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.2778220971203585e-05,
      "loss": 0.1064,
      "step": 4053
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.277068101323854e-05,
      "loss": 0.1251,
      "step": 4054
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.2763140272766125e-05,
      "loss": 0.2429,
      "step": 4055
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.2755598750545706e-05,
      "loss": 0.1974,
      "step": 4056
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.27480564473367e-05,
      "loss": 0.2321,
      "step": 4057
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.274051336389862e-05,
      "loss": 0.2605,
      "step": 4058
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.273296950099106e-05,
      "loss": 0.0512,
      "step": 4059
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.272542485937369e-05,
      "loss": 0.1855,
      "step": 4060
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.2717879439806235e-05,
      "loss": 0.0806,
      "step": 4061
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.271033324304854e-05,
      "loss": 0.4152,
      "step": 4062
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.270278626986049e-05,
      "loss": 0.2906,
      "step": 4063
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.269523852100209e-05,
      "loss": 0.3115,
      "step": 4064
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.268768999723336e-05,
      "loss": 0.0745,
      "step": 4065
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.268014069931447e-05,
      "loss": 0.2631,
      "step": 4066
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.2672590628005625e-05,
      "loss": 0.3128,
      "step": 4067
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.2665039784067106e-05,
      "loss": 0.4463,
      "step": 4068
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.26574881682593e-05,
      "loss": 0.1115,
      "step": 4069
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.264993578134263e-05,
      "loss": 0.3279,
      "step": 4070
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.264238262407764e-05,
      "loss": 0.2688,
      "step": 4071
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.2634828697224936e-05,
      "loss": 0.1434,
      "step": 4072
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.262727400154519e-05,
      "loss": 0.2939,
      "step": 4073
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.261971853779916e-05,
      "loss": 0.2383,
      "step": 4074
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.261216230674768e-05,
      "loss": 0.4627,
      "step": 4075
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.260460530915167e-05,
      "loss": 0.5074,
      "step": 4076
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.25970475457721e-05,
      "loss": 0.3326,
      "step": 4077
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.258948901737006e-05,
      "loss": 0.3384,
      "step": 4078
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.2581929724706685e-05,
      "loss": 0.2592,
      "step": 4079
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.257436966854319e-05,
      "loss": 0.165,
      "step": 4080
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.256680884964087e-05,
      "loss": 0.0537,
      "step": 4081
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.2559247268761115e-05,
      "loss": 0.5327,
      "step": 4082
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.255168492666537e-05,
      "loss": 0.1936,
      "step": 4083
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.254412182411515e-05,
      "loss": 0.1481,
      "step": 4084
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.2536557961872074e-05,
      "loss": 0.4867,
      "step": 4085
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.2528993340697814e-05,
      "loss": 0.4884,
      "step": 4086
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.252142796135414e-05,
      "loss": 0.6578,
      "step": 4087
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.2513861824602865e-05,
      "loss": 0.3595,
      "step": 4088
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.250629493120592e-05,
      "loss": 0.467,
      "step": 4089
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.249872728192527e-05,
      "loss": 0.0471,
      "step": 4090
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.249115887752299e-05,
      "loss": 0.3422,
      "step": 4091
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.248358971876122e-05,
      "loss": 0.413,
      "step": 4092
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.247601980640217e-05,
      "loss": 0.2807,
      "step": 4093
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.246844914120813e-05,
      "loss": 0.2724,
      "step": 4094
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.2460877723941465e-05,
      "loss": 0.2467,
      "step": 4095
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.2453305555364616e-05,
      "loss": 0.2675,
      "step": 4096
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.24457326362401e-05,
      "loss": 0.2772,
      "step": 4097
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.243815896733052e-05,
      "loss": 0.2334,
      "step": 4098
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.243058454939852e-05,
      "loss": 0.1563,
      "step": 4099
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.2423009383206876e-05,
      "loss": 0.1721,
      "step": 4100
    },
    {
      "epoch": 0.41,
      "eval_loss": 0.5849867463111877,
      "eval_runtime": 66.7847,
      "eval_samples_per_second": 3.459,
      "eval_steps_per_second": 0.868,
      "step": 4100
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.241543346951838e-05,
      "loss": 0.2603,
      "step": 4101
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.2407856809095946e-05,
      "loss": 0.2815,
      "step": 4102
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.240027940270252e-05,
      "loss": 0.2272,
      "step": 4103
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.239270125110117e-05,
      "loss": 0.1694,
      "step": 4104
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.2385122355055005e-05,
      "loss": 0.219,
      "step": 4105
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.2377542715327226e-05,
      "loss": 0.3033,
      "step": 4106
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.236996233268109e-05,
      "loss": 0.1654,
      "step": 4107
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.2362381207879946e-05,
      "loss": 0.18,
      "step": 4108
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.235479934168722e-05,
      "loss": 0.1928,
      "step": 4109
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.23472167348664e-05,
      "loss": 0.2064,
      "step": 4110
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.233963338818106e-05,
      "loss": 0.3623,
      "step": 4111
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.233204930239484e-05,
      "loss": 0.176,
      "step": 4112
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.232446447827145e-05,
      "loss": 0.2491,
      "step": 4113
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.2316878916574686e-05,
      "loss": 0.1558,
      "step": 4114
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.230929261806842e-05,
      "loss": 0.1527,
      "step": 4115
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.230170558351658e-05,
      "loss": 0.1236,
      "step": 4116
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.22941178136832e-05,
      "loss": 0.145,
      "step": 4117
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.2286529309332356e-05,
      "loss": 0.1475,
      "step": 4118
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.2278940071228196e-05,
      "loss": 0.1456,
      "step": 4119
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.2271350100134975e-05,
      "loss": 0.1697,
      "step": 4120
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.226375939681701e-05,
      "loss": 0.4111,
      "step": 4121
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.225616796203866e-05,
      "loss": 0.0785,
      "step": 4122
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.224857579656439e-05,
      "loss": 0.1908,
      "step": 4123
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.224098290115875e-05,
      "loss": 0.2003,
      "step": 4124
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.223338927658632e-05,
      "loss": 0.1567,
      "step": 4125
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.222579492361179e-05,
      "loss": 0.1545,
      "step": 4126
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.2218199842999905e-05,
      "loss": 0.3051,
      "step": 4127
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.2210604035515506e-05,
      "loss": 0.3017,
      "step": 4128
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.220300750192347e-05,
      "loss": 0.2658,
      "step": 4129
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.2195410242988776e-05,
      "loss": 0.3258,
      "step": 4130
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.2187812259476465e-05,
      "loss": 0.1222,
      "step": 4131
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.2180213552151664e-05,
      "loss": 0.4228,
      "step": 4132
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.217261412177954e-05,
      "loss": 0.2217,
      "step": 4133
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.216501396912538e-05,
      "loss": 0.2524,
      "step": 4134
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.215741309495451e-05,
      "loss": 0.1757,
      "step": 4135
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.214981150003234e-05,
      "loss": 0.1933,
      "step": 4136
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.214220918512434e-05,
      "loss": 0.1885,
      "step": 4137
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.213460615099607e-05,
      "loss": 0.292,
      "step": 4138
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.2127002398413166e-05,
      "loss": 0.2794,
      "step": 4139
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.211939792814131e-05,
      "loss": 0.2143,
      "step": 4140
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.211179274094627e-05,
      "loss": 0.1399,
      "step": 4141
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.21041868375939e-05,
      "loss": 0.1411,
      "step": 4142
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.209658021885012e-05,
      "loss": 0.1822,
      "step": 4143
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.208897288548089e-05,
      "loss": 0.2129,
      "step": 4144
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.20813648382523e-05,
      "loss": 0.1705,
      "step": 4145
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.207375607793045e-05,
      "loss": 0.204,
      "step": 4146
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.206614660528157e-05,
      "loss": 0.3047,
      "step": 4147
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.205853642107192e-05,
      "loss": 0.4192,
      "step": 4148
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.2050925526067833e-05,
      "loss": 0.42,
      "step": 4149
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.2043313921035743e-05,
      "loss": 0.3667,
      "step": 4150
    },
    {
      "epoch": 0.41,
      "eval_loss": 0.6302098035812378,
      "eval_runtime": 54.9872,
      "eval_samples_per_second": 4.201,
      "eval_steps_per_second": 1.055,
      "step": 4150
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.203570160674214e-05,
      "loss": 0.2521,
      "step": 4151
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.202808858395357e-05,
      "loss": 0.2303,
      "step": 4152
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.202047485343667e-05,
      "loss": 0.1744,
      "step": 4153
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.201286041595816e-05,
      "loss": 0.1132,
      "step": 4154
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.2005245272284785e-05,
      "loss": 0.0742,
      "step": 4155
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.1997629423183406e-05,
      "loss": 0.1327,
      "step": 4156
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.199001286942094e-05,
      "loss": 0.1387,
      "step": 4157
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.198239561176436e-05,
      "loss": 0.1692,
      "step": 4158
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.1974777650980735e-05,
      "loss": 0.1476,
      "step": 4159
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.19671589878372e-05,
      "loss": 0.1428,
      "step": 4160
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.1959539623100934e-05,
      "loss": 0.202,
      "step": 4161
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.1951919557539224e-05,
      "loss": 0.1291,
      "step": 4162
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.19442987919194e-05,
      "loss": 0.0957,
      "step": 4163
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.1936677327008886e-05,
      "loss": 0.1258,
      "step": 4164
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.192905516357515e-05,
      "loss": 0.1317,
      "step": 4165
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.1921432302385744e-05,
      "loss": 0.0403,
      "step": 4166
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.1913808744208305e-05,
      "loss": 0.0465,
      "step": 4167
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.190618448981051e-05,
      "loss": 0.1985,
      "step": 4168
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.189855953996013e-05,
      "loss": 0.2294,
      "step": 4169
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.1890933895424976e-05,
      "loss": 0.2084,
      "step": 4170
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.1883307556972985e-05,
      "loss": 0.2804,
      "step": 4171
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.187568052537211e-05,
      "loss": 0.2951,
      "step": 4172
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.186805280139038e-05,
      "loss": 0.3459,
      "step": 4173
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.186042438579594e-05,
      "loss": 0.3423,
      "step": 4174
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.185279527935694e-05,
      "loss": 0.2668,
      "step": 4175
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.184516548284165e-05,
      "loss": 0.0969,
      "step": 4176
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.183753499701837e-05,
      "loss": 0.3186,
      "step": 4177
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.182990382265553e-05,
      "loss": 0.2192,
      "step": 4178
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.182227196052154e-05,
      "loss": 0.276,
      "step": 4179
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.181463941138495e-05,
      "loss": 0.2544,
      "step": 4180
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.180700617601436e-05,
      "loss": 0.2797,
      "step": 4181
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.1799372255178436e-05,
      "loss": 0.1698,
      "step": 4182
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.1791737649645916e-05,
      "loss": 0.3062,
      "step": 4183
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.1784102360185594e-05,
      "loss": 0.4172,
      "step": 4184
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.177646638756635e-05,
      "loss": 0.3103,
      "step": 4185
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.1768829732557135e-05,
      "loss": 0.8539,
      "step": 4186
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.1761192395926945e-05,
      "loss": 0.5506,
      "step": 4187
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.175355437844486e-05,
      "loss": 0.6359,
      "step": 4188
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.1745915680880047e-05,
      "loss": 1.3423,
      "step": 4189
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.17382763040017e-05,
      "loss": 0.6947,
      "step": 4190
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.1730636248579114e-05,
      "loss": 0.4124,
      "step": 4191
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.172299551538164e-05,
      "loss": 0.1764,
      "step": 4192
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.1715354105178716e-05,
      "loss": 0.2323,
      "step": 4193
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.17077120187398e-05,
      "loss": 0.2329,
      "step": 4194
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.170006925683448e-05,
      "loss": 0.2059,
      "step": 4195
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.169242582023236e-05,
      "loss": 0.3146,
      "step": 4196
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.168478170970315e-05,
      "loss": 0.0679,
      "step": 4197
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.16771369260166e-05,
      "loss": 0.1925,
      "step": 4198
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.166949146994254e-05,
      "loss": 0.2241,
      "step": 4199
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.166184534225087e-05,
      "loss": 0.2578,
      "step": 4200
    },
    {
      "epoch": 0.42,
      "eval_loss": 0.5991604924201965,
      "eval_runtime": 73.8191,
      "eval_samples_per_second": 3.129,
      "eval_steps_per_second": 0.786,
      "step": 4200
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.1654198543711574e-05,
      "loss": 0.0907,
      "step": 4201
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.164655107509466e-05,
      "loss": 0.1211,
      "step": 4202
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.163890293717022e-05,
      "loss": 0.1452,
      "step": 4203
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.163125413070844e-05,
      "loss": 0.1588,
      "step": 4204
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.162360465647957e-05,
      "loss": 0.0411,
      "step": 4205
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.161595451525387e-05,
      "loss": 0.0588,
      "step": 4206
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.1608303707801746e-05,
      "loss": 0.1556,
      "step": 4207
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.160065223489361e-05,
      "loss": 0.1077,
      "step": 4208
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.1593000097299976e-05,
      "loss": 0.0861,
      "step": 4209
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.158534729579142e-05,
      "loss": 0.2473,
      "step": 4210
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.1577693831138566e-05,
      "loss": 0.2604,
      "step": 4211
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.157003970411213e-05,
      "loss": 0.1983,
      "step": 4212
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.156238491548286e-05,
      "loss": 0.2101,
      "step": 4213
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.155472946602162e-05,
      "loss": 0.2881,
      "step": 4214
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.1547073356499296e-05,
      "loss": 0.1865,
      "step": 4215
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.153941658768688e-05,
      "loss": 0.2589,
      "step": 4216
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.1531759160355375e-05,
      "loss": 0.2606,
      "step": 4217
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.15241010752759e-05,
      "loss": 0.1418,
      "step": 4218
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.1516442333219634e-05,
      "loss": 0.1879,
      "step": 4219
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.15087829349578e-05,
      "loss": 0.142,
      "step": 4220
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.150112288126171e-05,
      "loss": 0.2186,
      "step": 4221
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.149346217290271e-05,
      "loss": 0.1153,
      "step": 4222
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.148580081065226e-05,
      "loss": 0.2005,
      "step": 4223
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.147813879528184e-05,
      "loss": 0.2696,
      "step": 4224
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.147047612756302e-05,
      "loss": 0.326,
      "step": 4225
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.1462812808267427e-05,
      "loss": 0.3564,
      "step": 4226
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.145514883816677e-05,
      "loss": 0.3047,
      "step": 4227
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.1447484218032796e-05,
      "loss": 0.2136,
      "step": 4228
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.143981894863734e-05,
      "loss": 0.212,
      "step": 4229
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.1432153030752295e-05,
      "loss": 0.2509,
      "step": 4230
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.142448646514961e-05,
      "loss": 0.214,
      "step": 4231
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.141681925260132e-05,
      "loss": 0.2182,
      "step": 4232
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.14091513938795e-05,
      "loss": 0.2923,
      "step": 4233
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.1401482889756305e-05,
      "loss": 0.3537,
      "step": 4234
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.139381374100397e-05,
      "loss": 0.1964,
      "step": 4235
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.138614394839476e-05,
      "loss": 0.4008,
      "step": 4236
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.137847351270104e-05,
      "loss": 0.3059,
      "step": 4237
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.13708024346952e-05,
      "loss": 0.0964,
      "step": 4238
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.136313071514973e-05,
      "loss": 0.1991,
      "step": 4239
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.135545835483718e-05,
      "loss": 0.0276,
      "step": 4240
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.1347785354530143e-05,
      "loss": 0.1961,
      "step": 4241
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.1340111715001285e-05,
      "loss": 0.4657,
      "step": 4242
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.133243743702336e-05,
      "loss": 0.4209,
      "step": 4243
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.132476252136915e-05,
      "loss": 0.381,
      "step": 4244
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.131708696881154e-05,
      "loss": 0.5105,
      "step": 4245
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.130941078012344e-05,
      "loss": 0.483,
      "step": 4246
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.130173395607785e-05,
      "loss": 0.2056,
      "step": 4247
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.1294056497447815e-05,
      "loss": 0.2398,
      "step": 4248
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.1286378405006465e-05,
      "loss": 0.2944,
      "step": 4249
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.127869967952698e-05,
      "loss": 0.2639,
      "step": 4250
    },
    {
      "epoch": 0.42,
      "eval_loss": 0.6123290061950684,
      "eval_runtime": 73.3346,
      "eval_samples_per_second": 3.15,
      "eval_steps_per_second": 0.791,
      "step": 4250
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.127102032178262e-05,
      "loss": 0.2946,
      "step": 4251
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.126334033254668e-05,
      "loss": 0.259,
      "step": 4252
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.1255659712592536e-05,
      "loss": 0.2236,
      "step": 4253
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.124797846269363e-05,
      "loss": 0.2396,
      "step": 4254
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.124029658362346e-05,
      "loss": 0.1951,
      "step": 4255
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.12326140761556e-05,
      "loss": 0.2545,
      "step": 4256
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.1224930941063676e-05,
      "loss": 0.221,
      "step": 4257
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.121724717912138e-05,
      "loss": 0.3121,
      "step": 4258
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.120956279110246e-05,
      "loss": 0.2001,
      "step": 4259
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.120187777778073e-05,
      "loss": 0.2492,
      "step": 4260
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.119419213993007e-05,
      "loss": 0.1963,
      "step": 4261
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.118650587832445e-05,
      "loss": 0.2379,
      "step": 4262
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.1178818993737844e-05,
      "loss": 0.2361,
      "step": 4263
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.117113148694434e-05,
      "loss": 0.3225,
      "step": 4264
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.1163443358718065e-05,
      "loss": 0.3245,
      "step": 4265
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.1155754609833214e-05,
      "loss": 0.3332,
      "step": 4266
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.114806524106404e-05,
      "loss": 0.2447,
      "step": 4267
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.114037525318486e-05,
      "loss": 0.2592,
      "step": 4268
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.1132684646970064e-05,
      "loss": 0.2811,
      "step": 4269
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.11249934231941e-05,
      "loss": 0.3339,
      "step": 4270
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.1117301582631454e-05,
      "loss": 0.1918,
      "step": 4271
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.110960912605671e-05,
      "loss": 0.1528,
      "step": 4272
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.1101916054244496e-05,
      "loss": 0.2596,
      "step": 4273
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.10942223679695e-05,
      "loss": 0.2679,
      "step": 4274
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.108652806800648e-05,
      "loss": 0.3055,
      "step": 4275
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.1078833155130244e-05,
      "loss": 0.2735,
      "step": 4276
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.107113763011568e-05,
      "loss": 0.2065,
      "step": 4277
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.1063441493737724e-05,
      "loss": 0.1857,
      "step": 4278
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.1055744746771374e-05,
      "loss": 0.208,
      "step": 4279
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.104804738999169e-05,
      "loss": 0.261,
      "step": 4280
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.104034942417381e-05,
      "loss": 0.3161,
      "step": 4281
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.1032650850092906e-05,
      "loss": 0.3184,
      "step": 4282
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.102495166852422e-05,
      "loss": 0.3468,
      "step": 4283
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.101725188024307e-05,
      "loss": 0.2347,
      "step": 4284
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.100955148602481e-05,
      "loss": 0.2158,
      "step": 4285
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.100185048664489e-05,
      "loss": 0.2718,
      "step": 4286
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.0994148882878785e-05,
      "loss": 0.1647,
      "step": 4287
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.0986446675502065e-05,
      "loss": 0.4493,
      "step": 4288
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.0978743865290315e-05,
      "loss": 0.2715,
      "step": 4289
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.097104045301922e-05,
      "loss": 0.133,
      "step": 4290
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.0963336439464526e-05,
      "loss": 0.1469,
      "step": 4291
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.0955631825402006e-05,
      "loss": 0.1962,
      "step": 4292
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.094792661160753e-05,
      "loss": 0.2361,
      "step": 4293
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.0940220798857e-05,
      "loss": 0.2302,
      "step": 4294
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.0932514387926406e-05,
      "loss": 0.2218,
      "step": 4295
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.0924807379591776e-05,
      "loss": 0.2315,
      "step": 4296
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.09170997746292e-05,
      "loss": 0.1827,
      "step": 4297
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.090939157381484e-05,
      "loss": 0.0726,
      "step": 4298
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.090168277792491e-05,
      "loss": 0.3258,
      "step": 4299
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.0893973387735687e-05,
      "loss": 0.2518,
      "step": 4300
    },
    {
      "epoch": 0.43,
      "eval_loss": 0.6133849024772644,
      "eval_runtime": 73.7084,
      "eval_samples_per_second": 3.134,
      "eval_steps_per_second": 0.787,
      "step": 4300
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.0886263404023496e-05,
      "loss": 0.2596,
      "step": 4301
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.087855282756475e-05,
      "loss": 0.398,
      "step": 4302
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.0870841659135894e-05,
      "loss": 0.1963,
      "step": 4303
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.086312989951345e-05,
      "loss": 0.1114,
      "step": 4304
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.0855417549473975e-05,
      "loss": 0.1802,
      "step": 4305
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.084770460979411e-05,
      "loss": 0.1791,
      "step": 4306
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.083999108125057e-05,
      "loss": 0.1798,
      "step": 4307
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.0832276964620074e-05,
      "loss": 0.2258,
      "step": 4308
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.0824562260679444e-05,
      "loss": 0.1837,
      "step": 4309
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.0816846970205556e-05,
      "loss": 0.4206,
      "step": 4310
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.0809131093975345e-05,
      "loss": 0.2426,
      "step": 4311
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.080141463276579e-05,
      "loss": 0.3142,
      "step": 4312
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.079369758735393e-05,
      "loss": 0.443,
      "step": 4313
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.078597995851689e-05,
      "loss": 0.2024,
      "step": 4314
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.077826174703183e-05,
      "loss": 0.2821,
      "step": 4315
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.077054295367596e-05,
      "loss": 0.3343,
      "step": 4316
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.076282357922658e-05,
      "loss": 0.2849,
      "step": 4317
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.075510362446102e-05,
      "loss": 0.2989,
      "step": 4318
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.074738309015669e-05,
      "loss": 0.1513,
      "step": 4319
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.073966197709103e-05,
      "loss": 0.2059,
      "step": 4320
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.073194028604157e-05,
      "loss": 0.1403,
      "step": 4321
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.072421801778588e-05,
      "loss": 0.2595,
      "step": 4322
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.071649517310159e-05,
      "loss": 0.1508,
      "step": 4323
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.0708771752766394e-05,
      "loss": 0.1222,
      "step": 4324
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.070104775755804e-05,
      "loss": 0.2924,
      "step": 4325
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.069332318825433e-05,
      "loss": 0.3012,
      "step": 4326
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.068559804563314e-05,
      "loss": 0.3048,
      "step": 4327
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.0677872330472374e-05,
      "loss": 0.225,
      "step": 4328
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.067014604355002e-05,
      "loss": 0.2615,
      "step": 4329
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.0662419185644115e-05,
      "loss": 0.2378,
      "step": 4330
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.0654691757532754e-05,
      "loss": 0.2446,
      "step": 4331
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.064696375999408e-05,
      "loss": 0.3342,
      "step": 4332
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.063923519380632e-05,
      "loss": 0.1506,
      "step": 4333
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.063150605974773e-05,
      "loss": 0.1899,
      "step": 4334
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.062377635859663e-05,
      "loss": 0.2207,
      "step": 4335
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.0616046091131406e-05,
      "loss": 0.2821,
      "step": 4336
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.0608315258130496e-05,
      "loss": 0.2488,
      "step": 4337
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.060058386037239e-05,
      "loss": 0.1825,
      "step": 4338
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.059285189863564e-05,
      "loss": 0.2344,
      "step": 4339
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.058511937369886e-05,
      "loss": 0.2886,
      "step": 4340
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.057738628634071e-05,
      "loss": 0.0277,
      "step": 4341
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.056965263733992e-05,
      "loss": 0.1649,
      "step": 4342
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.0561918427475254e-05,
      "loss": 0.1866,
      "step": 4343
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.055418365752556e-05,
      "loss": 0.2475,
      "step": 4344
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.054644832826972e-05,
      "loss": 0.2168,
      "step": 4345
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.053871244048669e-05,
      "loss": 0.3295,
      "step": 4346
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.053097599495546e-05,
      "loss": 0.0844,
      "step": 4347
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.0523238992455104e-05,
      "loss": 0.1822,
      "step": 4348
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.0515501433764738e-05,
      "loss": 0.1104,
      "step": 4349
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.0507763319663517e-05,
      "loss": 0.2324,
      "step": 4350
    },
    {
      "epoch": 0.43,
      "eval_loss": 0.6175130009651184,
      "eval_runtime": 73.8433,
      "eval_samples_per_second": 3.128,
      "eval_steps_per_second": 0.785,
      "step": 4350
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0500024650930686e-05,
      "loss": 0.1541,
      "step": 4351
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0492285428345525e-05,
      "loss": 0.1759,
      "step": 4352
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0484545652687372e-05,
      "loss": 0.3521,
      "step": 4353
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.047680532473562e-05,
      "loss": 0.3495,
      "step": 4354
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0469064445269724e-05,
      "loss": 0.1657,
      "step": 4355
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0461323015069182e-05,
      "loss": 0.3707,
      "step": 4356
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.045358103491357e-05,
      "loss": 0.2487,
      "step": 4357
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.044583850558249e-05,
      "loss": 0.3974,
      "step": 4358
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0438095427855622e-05,
      "loss": 0.3182,
      "step": 4359
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0430351802512698e-05,
      "loss": 0.4005,
      "step": 4360
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0422607630333494e-05,
      "loss": 0.1225,
      "step": 4361
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0414862912097846e-05,
      "loss": 0.206,
      "step": 4362
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0407117648585652e-05,
      "loss": 0.2602,
      "step": 4363
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.039937184057687e-05,
      "loss": 0.3083,
      "step": 4364
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0391625488851476e-05,
      "loss": 0.3034,
      "step": 4365
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0383878594189552e-05,
      "loss": 0.3126,
      "step": 4366
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0376131157371197e-05,
      "loss": 0.2676,
      "step": 4367
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0368383179176585e-05,
      "loss": 0.3184,
      "step": 4368
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.036063466038593e-05,
      "loss": 0.168,
      "step": 4369
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0352885601779512e-05,
      "loss": 0.1658,
      "step": 4370
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0345136004137658e-05,
      "loss": 0.0509,
      "step": 4371
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0337385868240763e-05,
      "loss": 0.1234,
      "step": 4372
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0329635194869248e-05,
      "loss": 0.2075,
      "step": 4373
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0321883984803617e-05,
      "loss": 0.1078,
      "step": 4374
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0314132238824415e-05,
      "loss": 0.1376,
      "step": 4375
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.030637995771225e-05,
      "loss": 0.3249,
      "step": 4376
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.029862714224776e-05,
      "loss": 0.2641,
      "step": 4377
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0290873793211662e-05,
      "loss": 0.5019,
      "step": 4378
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.028311991138472e-05,
      "loss": 0.2389,
      "step": 4379
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.027536549754775e-05,
      "loss": 0.1912,
      "step": 4380
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0267610552481606e-05,
      "loss": 0.2336,
      "step": 4381
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0259855076967236e-05,
      "loss": 0.2403,
      "step": 4382
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.02520990717856e-05,
      "loss": 0.1255,
      "step": 4383
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0244342537717734e-05,
      "loss": 0.3057,
      "step": 4384
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0236585475544717e-05,
      "loss": 0.2919,
      "step": 4385
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.022882788604768e-05,
      "loss": 0.2637,
      "step": 4386
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0221069770007826e-05,
      "loss": 0.3289,
      "step": 4387
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0213311128206383e-05,
      "loss": 0.2234,
      "step": 4388
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0205551961424656e-05,
      "loss": 0.2432,
      "step": 4389
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0197792270443982e-05,
      "loss": 0.1249,
      "step": 4390
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.019003205604578e-05,
      "loss": 0.1941,
      "step": 4391
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0182271319011485e-05,
      "loss": 0.0666,
      "step": 4392
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0174510060122607e-05,
      "loss": 0.3059,
      "step": 4393
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0166748280160716e-05,
      "loss": 0.3075,
      "step": 4394
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0158985979907405e-05,
      "loss": 0.1229,
      "step": 4395
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0151223160144355e-05,
      "loss": 0.0862,
      "step": 4396
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.014345982165327e-05,
      "loss": 0.1262,
      "step": 4397
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.013569596521592e-05,
      "loss": 0.0625,
      "step": 4398
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0127931591614134e-05,
      "loss": 0.0343,
      "step": 4399
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.012016670162977e-05,
      "loss": 0.0539,
      "step": 4400
    },
    {
      "epoch": 0.44,
      "eval_loss": 0.5888167023658752,
      "eval_runtime": 73.6541,
      "eval_samples_per_second": 3.136,
      "eval_steps_per_second": 0.787,
      "step": 4400
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0112401296044757e-05,
      "loss": 0.2506,
      "step": 4401
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0104635375641083e-05,
      "loss": 0.1794,
      "step": 4402
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0096868941200757e-05,
      "loss": 0.1505,
      "step": 4403
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0089101993505875e-05,
      "loss": 0.1463,
      "step": 4404
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0081334533338557e-05,
      "loss": 0.217,
      "step": 4405
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0073566561480993e-05,
      "loss": 0.1594,
      "step": 4406
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0065798078715413e-05,
      "loss": 0.1998,
      "step": 4407
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0058029085824108e-05,
      "loss": 0.1609,
      "step": 4408
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0050259583589414e-05,
      "loss": 0.1564,
      "step": 4409
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.004248957279372e-05,
      "loss": 0.2527,
      "step": 4410
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0034719054219457e-05,
      "loss": 0.2935,
      "step": 4411
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.002694802864912e-05,
      "loss": 0.338,
      "step": 4412
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0019176496865258e-05,
      "loss": 0.246,
      "step": 4413
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0011404459650465e-05,
      "loss": 0.2043,
      "step": 4414
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0003631917787378e-05,
      "loss": 0.3988,
      "step": 4415
    },
    {
      "epoch": 0.44,
      "learning_rate": 2.9995858872058685e-05,
      "loss": 0.3918,
      "step": 4416
    },
    {
      "epoch": 0.44,
      "learning_rate": 2.998808532324715e-05,
      "loss": 0.324,
      "step": 4417
    },
    {
      "epoch": 0.44,
      "learning_rate": 2.9980311272135557e-05,
      "loss": 0.2854,
      "step": 4418
    },
    {
      "epoch": 0.44,
      "learning_rate": 2.9972536719506757e-05,
      "loss": 0.1497,
      "step": 4419
    },
    {
      "epoch": 0.44,
      "learning_rate": 2.996476166614364e-05,
      "loss": 0.2779,
      "step": 4420
    },
    {
      "epoch": 0.44,
      "learning_rate": 2.9956986112829162e-05,
      "loss": 0.2045,
      "step": 4421
    },
    {
      "epoch": 0.44,
      "learning_rate": 2.9949210060346322e-05,
      "loss": 0.1338,
      "step": 4422
    },
    {
      "epoch": 0.44,
      "learning_rate": 2.9941433509478156e-05,
      "loss": 0.145,
      "step": 4423
    },
    {
      "epoch": 0.44,
      "learning_rate": 2.9933656461007775e-05,
      "loss": 0.1145,
      "step": 4424
    },
    {
      "epoch": 0.44,
      "learning_rate": 2.992587891571833e-05,
      "loss": 0.1386,
      "step": 4425
    },
    {
      "epoch": 0.44,
      "learning_rate": 2.9918100874393007e-05,
      "loss": 0.1549,
      "step": 4426
    },
    {
      "epoch": 0.44,
      "learning_rate": 2.9910322337815056e-05,
      "loss": 0.1299,
      "step": 4427
    },
    {
      "epoch": 0.44,
      "learning_rate": 2.9902543306767783e-05,
      "loss": 0.2384,
      "step": 4428
    },
    {
      "epoch": 0.44,
      "learning_rate": 2.9894763782034542e-05,
      "loss": 0.2065,
      "step": 4429
    },
    {
      "epoch": 0.44,
      "learning_rate": 2.9886983764398707e-05,
      "loss": 0.121,
      "step": 4430
    },
    {
      "epoch": 0.44,
      "learning_rate": 2.987920325464375e-05,
      "loss": 0.2226,
      "step": 4431
    },
    {
      "epoch": 0.44,
      "learning_rate": 2.9871422253553157e-05,
      "loss": 0.3123,
      "step": 4432
    },
    {
      "epoch": 0.44,
      "learning_rate": 2.986364076191048e-05,
      "loss": 0.353,
      "step": 4433
    },
    {
      "epoch": 0.44,
      "learning_rate": 2.98558587804993e-05,
      "loss": 0.4192,
      "step": 4434
    },
    {
      "epoch": 0.44,
      "learning_rate": 2.9848076310103286e-05,
      "loss": 0.4056,
      "step": 4435
    },
    {
      "epoch": 0.44,
      "learning_rate": 2.984029335150611e-05,
      "loss": 0.1846,
      "step": 4436
    },
    {
      "epoch": 0.44,
      "learning_rate": 2.9832509905491533e-05,
      "loss": 0.3055,
      "step": 4437
    },
    {
      "epoch": 0.44,
      "learning_rate": 2.982472597284334e-05,
      "loss": 0.1941,
      "step": 4438
    },
    {
      "epoch": 0.44,
      "learning_rate": 2.9816941554345372e-05,
      "loss": 0.326,
      "step": 4439
    },
    {
      "epoch": 0.44,
      "learning_rate": 2.9809156650781528e-05,
      "loss": 0.2654,
      "step": 4440
    },
    {
      "epoch": 0.44,
      "learning_rate": 2.9801371262935733e-05,
      "loss": 0.2828,
      "step": 4441
    },
    {
      "epoch": 0.44,
      "learning_rate": 2.9793585391591983e-05,
      "loss": 0.2236,
      "step": 4442
    },
    {
      "epoch": 0.44,
      "learning_rate": 2.9785799037534316e-05,
      "loss": 0.1933,
      "step": 4443
    },
    {
      "epoch": 0.44,
      "learning_rate": 2.9778012201546822e-05,
      "loss": 0.2569,
      "step": 4444
    },
    {
      "epoch": 0.44,
      "learning_rate": 2.9770224884413623e-05,
      "loss": 0.0681,
      "step": 4445
    },
    {
      "epoch": 0.44,
      "learning_rate": 2.976243708691891e-05,
      "loss": 0.2174,
      "step": 4446
    },
    {
      "epoch": 0.44,
      "learning_rate": 2.9754648809846913e-05,
      "loss": 0.3539,
      "step": 4447
    },
    {
      "epoch": 0.44,
      "learning_rate": 2.9746860053981917e-05,
      "loss": 0.3444,
      "step": 4448
    },
    {
      "epoch": 0.44,
      "learning_rate": 2.973907082010824e-05,
      "loss": 0.2125,
      "step": 4449
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9731281109010256e-05,
      "loss": 0.1434,
      "step": 4450
    },
    {
      "epoch": 0.45,
      "eval_loss": 0.6055759191513062,
      "eval_runtime": 73.8051,
      "eval_samples_per_second": 3.13,
      "eval_steps_per_second": 0.786,
      "step": 4450
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9723490921472395e-05,
      "loss": 0.2238,
      "step": 4451
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.971570025827914e-05,
      "loss": 0.3178,
      "step": 4452
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9707909120214984e-05,
      "loss": 0.2168,
      "step": 4453
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.970011750806451e-05,
      "loss": 0.1992,
      "step": 4454
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.969232542261234e-05,
      "loss": 0.2192,
      "step": 4455
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9684532864643122e-05,
      "loss": 0.1126,
      "step": 4456
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.967673983494157e-05,
      "loss": 0.247,
      "step": 4457
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9668946334292448e-05,
      "loss": 0.1322,
      "step": 4458
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.966115236348056e-05,
      "loss": 0.1083,
      "step": 4459
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9653357923290753e-05,
      "loss": 0.1529,
      "step": 4460
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9645563014507928e-05,
      "loss": 0.1735,
      "step": 4461
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9637767637917036e-05,
      "loss": 0.2361,
      "step": 4462
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.962997179430308e-05,
      "loss": 0.1683,
      "step": 4463
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9622175484451083e-05,
      "loss": 0.201,
      "step": 4464
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9614378709146133e-05,
      "loss": 0.1379,
      "step": 4465
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9606581469173383e-05,
      "loss": 0.1881,
      "step": 4466
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9598783765318007e-05,
      "loss": 0.2212,
      "step": 4467
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9590985598365227e-05,
      "loss": 0.1155,
      "step": 4468
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9583186969100322e-05,
      "loss": 0.2443,
      "step": 4469
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9575387878308615e-05,
      "loss": 0.254,
      "step": 4470
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.956758832677548e-05,
      "loss": 0.2224,
      "step": 4471
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.955978831528632e-05,
      "loss": 0.3729,
      "step": 4472
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.95519878446266e-05,
      "loss": 0.152,
      "step": 4473
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9544186915581835e-05,
      "loss": 0.1299,
      "step": 4474
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9536385528937567e-05,
      "loss": 0.167,
      "step": 4475
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.95285836854794e-05,
      "loss": 0.2955,
      "step": 4476
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.952078138599298e-05,
      "loss": 0.1028,
      "step": 4477
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9512978631264006e-05,
      "loss": 0.037,
      "step": 4478
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9505175422078196e-05,
      "loss": 0.2518,
      "step": 4479
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9497371759221347e-05,
      "loss": 0.028,
      "step": 4480
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9489567643479288e-05,
      "loss": 0.1109,
      "step": 4481
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9481763075637892e-05,
      "loss": 0.0973,
      "step": 4482
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.947395805648307e-05,
      "loss": 0.1127,
      "step": 4483
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9466152586800798e-05,
      "loss": 0.1984,
      "step": 4484
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9458346667377078e-05,
      "loss": 0.3832,
      "step": 4485
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.945054029899798e-05,
      "loss": 0.3517,
      "step": 4486
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9442733482449593e-05,
      "loss": 0.1816,
      "step": 4487
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.943492621851806e-05,
      "loss": 0.1739,
      "step": 4488
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9427118507989586e-05,
      "loss": 0.2771,
      "step": 4489
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9419310351650392e-05,
      "loss": 0.154,
      "step": 4490
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.941150175028677e-05,
      "loss": 0.2086,
      "step": 4491
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9403692704685038e-05,
      "loss": 0.1874,
      "step": 4492
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.939588321563158e-05,
      "loss": 0.2113,
      "step": 4493
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.93880732839128e-05,
      "loss": 0.0978,
      "step": 4494
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9380262910315155e-05,
      "loss": 0.2098,
      "step": 4495
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9372452095625164e-05,
      "loss": 0.2509,
      "step": 4496
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9364640840629354e-05,
      "loss": 0.2178,
      "step": 4497
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9356829146114345e-05,
      "loss": 0.0839,
      "step": 4498
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9349017012866752e-05,
      "loss": 0.0865,
      "step": 4499
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9341204441673266e-05,
      "loss": 0.1425,
      "step": 4500
    },
    {
      "epoch": 0.45,
      "eval_loss": 0.603393018245697,
      "eval_runtime": 67.0453,
      "eval_samples_per_second": 3.445,
      "eval_steps_per_second": 0.865,
      "step": 4500
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.933339143332061e-05,
      "loss": 0.187,
      "step": 4501
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9325577988595554e-05,
      "loss": 0.1452,
      "step": 4502
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9317764108284916e-05,
      "loss": 0.204,
      "step": 4503
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9309949793175546e-05,
      "loss": 0.2394,
      "step": 4504
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9302135044054357e-05,
      "loss": 0.0595,
      "step": 4505
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.929431986170828e-05,
      "loss": 0.1184,
      "step": 4506
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9286504246924313e-05,
      "loss": 0.0963,
      "step": 4507
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9278688200489485e-05,
      "loss": 0.3676,
      "step": 4508
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9270871723190878e-05,
      "loss": 0.2634,
      "step": 4509
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.92630548158156e-05,
      "loss": 0.2406,
      "step": 4510
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9255237479150816e-05,
      "loss": 0.086,
      "step": 4511
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.924741971398374e-05,
      "loss": 0.2787,
      "step": 4512
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.923960152110161e-05,
      "loss": 0.2257,
      "step": 4513
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9231782901291727e-05,
      "loss": 0.3476,
      "step": 4514
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9223963855341418e-05,
      "loss": 0.1473,
      "step": 4515
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.921614438403807e-05,
      "loss": 0.2855,
      "step": 4516
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.920832448816909e-05,
      "loss": 0.1983,
      "step": 4517
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.920050416852196e-05,
      "loss": 0.1703,
      "step": 4518
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9192683425884164e-05,
      "loss": 0.2981,
      "step": 4519
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.918486226104327e-05,
      "loss": 0.1639,
      "step": 4520
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9177040674786854e-05,
      "loss": 0.4623,
      "step": 4521
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.916921866790256e-05,
      "loss": 0.4101,
      "step": 4522
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9161396241178057e-05,
      "loss": 0.3078,
      "step": 4523
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9153573395401073e-05,
      "loss": 0.2451,
      "step": 4524
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9145750131359355e-05,
      "loss": 0.248,
      "step": 4525
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9137926449840715e-05,
      "loss": 0.0942,
      "step": 4526
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.913010235163299e-05,
      "loss": 0.0687,
      "step": 4527
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9122277837524085e-05,
      "loss": 0.4601,
      "step": 4528
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9114452908301902e-05,
      "loss": 0.1813,
      "step": 4529
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.910662756475443e-05,
      "loss": 0.1604,
      "step": 4530
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.909880180766967e-05,
      "loss": 0.4326,
      "step": 4531
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9090975637835682e-05,
      "loss": 0.4797,
      "step": 4532
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.908314905604056e-05,
      "loss": 0.5662,
      "step": 4533
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9075322063072434e-05,
      "loss": 0.2962,
      "step": 4534
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.90674946597195e-05,
      "loss": 0.3434,
      "step": 4535
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9059666846769956e-05,
      "loss": 0.0307,
      "step": 4536
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9051838625012072e-05,
      "loss": 0.3883,
      "step": 4537
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.904400999523415e-05,
      "loss": 0.3174,
      "step": 4538
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9036180958224535e-05,
      "loss": 0.2437,
      "step": 4539
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9028351514771606e-05,
      "loss": 0.2236,
      "step": 4540
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9020521665663785e-05,
      "loss": 0.1665,
      "step": 4541
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.9012691411689545e-05,
      "loss": 0.255,
      "step": 4542
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.90048607536374e-05,
      "loss": 0.2211,
      "step": 4543
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.8997029692295874e-05,
      "loss": 0.2512,
      "step": 4544
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.8989198228453573e-05,
      "loss": 0.1166,
      "step": 4545
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.8981366362899113e-05,
      "loss": 0.1754,
      "step": 4546
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.897353409642118e-05,
      "loss": 0.2221,
      "step": 4547
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.896570142980846e-05,
      "loss": 0.2369,
      "step": 4548
    },
    {
      "epoch": 0.45,
      "learning_rate": 2.8957868363849723e-05,
      "loss": 0.155,
      "step": 4549
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.895003489933375e-05,
      "loss": 0.1416,
      "step": 4550
    },
    {
      "epoch": 0.46,
      "eval_loss": 0.6059311628341675,
      "eval_runtime": 67.2707,
      "eval_samples_per_second": 3.434,
      "eval_steps_per_second": 0.862,
      "step": 4550
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8942201037049372e-05,
      "loss": 0.2035,
      "step": 4551
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8934366777785448e-05,
      "loss": 0.2576,
      "step": 4552
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8926532122330903e-05,
      "loss": 0.0851,
      "step": 4553
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8918697071474686e-05,
      "loss": 0.1717,
      "step": 4554
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8910861626005776e-05,
      "loss": 0.1743,
      "step": 4555
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8903025786713206e-05,
      "loss": 0.1515,
      "step": 4556
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8895189554386043e-05,
      "loss": 0.2933,
      "step": 4557
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8887352929813412e-05,
      "loss": 0.1439,
      "step": 4558
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8879515913784434e-05,
      "loss": 0.2381,
      "step": 4559
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8871678507088312e-05,
      "loss": 0.1426,
      "step": 4560
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8863840710514268e-05,
      "loss": 0.1295,
      "step": 4561
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8856002524851577e-05,
      "loss": 0.093,
      "step": 4562
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8848163950889535e-05,
      "loss": 0.1306,
      "step": 4563
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.884032498941749e-05,
      "loss": 0.1269,
      "step": 4564
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8832485641224816e-05,
      "loss": 0.1316,
      "step": 4565
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8824645907100954e-05,
      "loss": 0.1444,
      "step": 4566
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8816805787835348e-05,
      "loss": 0.3332,
      "step": 4567
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8808965284217503e-05,
      "loss": 0.0498,
      "step": 4568
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.880112439703696e-05,
      "loss": 0.1819,
      "step": 4569
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8793283127083292e-05,
      "loss": 0.1826,
      "step": 4570
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.878544147514612e-05,
      "loss": 0.1289,
      "step": 4571
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.877759944201509e-05,
      "loss": 0.1449,
      "step": 4572
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8769757028479903e-05,
      "loss": 0.2779,
      "step": 4573
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.876191423533029e-05,
      "loss": 0.2365,
      "step": 4574
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8754071063356008e-05,
      "loss": 0.2298,
      "step": 4575
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8746227513346876e-05,
      "loss": 0.2175,
      "step": 4576
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8738383586092745e-05,
      "loss": 0.1742,
      "step": 4577
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8730539282383473e-05,
      "loss": 0.3085,
      "step": 4578
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8722694603009005e-05,
      "loss": 0.1751,
      "step": 4579
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8714849548759293e-05,
      "loss": 0.2333,
      "step": 4580
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.870700412042434e-05,
      "loss": 0.1628,
      "step": 4581
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8699158318794168e-05,
      "loss": 0.1989,
      "step": 4582
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.869131214465885e-05,
      "loss": 0.1584,
      "step": 4583
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.86834655988085e-05,
      "loss": 0.2675,
      "step": 4584
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8675618682033273e-05,
      "loss": 0.1936,
      "step": 4585
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8667771395123337e-05,
      "loss": 0.1915,
      "step": 4586
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8659923738868926e-05,
      "loss": 0.1262,
      "step": 4587
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8652075714060295e-05,
      "loss": 0.1408,
      "step": 4588
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8644227321487736e-05,
      "loss": 0.1623,
      "step": 4589
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8636378561941592e-05,
      "loss": 0.1614,
      "step": 4590
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.862852943621222e-05,
      "loss": 0.1813,
      "step": 4591
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8620679945090033e-05,
      "loss": 0.1985,
      "step": 4592
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8612830089365476e-05,
      "loss": 0.2868,
      "step": 4593
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.860497986982903e-05,
      "loss": 0.3801,
      "step": 4594
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8597129287271207e-05,
      "loss": 0.3556,
      "step": 4595
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8589278342482567e-05,
      "loss": 0.2937,
      "step": 4596
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8581427036253696e-05,
      "loss": 0.2216,
      "step": 4597
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8573575369375217e-05,
      "loss": 0.185,
      "step": 4598
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8565723342637796e-05,
      "loss": 0.2049,
      "step": 4599
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8557870956832132e-05,
      "loss": 0.0554,
      "step": 4600
    },
    {
      "epoch": 0.46,
      "eval_loss": 0.6584358811378479,
      "eval_runtime": 66.275,
      "eval_samples_per_second": 3.485,
      "eval_steps_per_second": 0.875,
      "step": 4600
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8550018212748962e-05,
      "loss": 0.096,
      "step": 4601
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8542165111179055e-05,
      "loss": 0.121,
      "step": 4602
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8534311652913215e-05,
      "loss": 0.1549,
      "step": 4603
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.852645783874229e-05,
      "loss": 0.2331,
      "step": 4604
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8518603669457162e-05,
      "loss": 0.1441,
      "step": 4605
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.851074914584873e-05,
      "loss": 0.1057,
      "step": 4606
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8502894268707963e-05,
      "loss": 0.197,
      "step": 4607
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8495039038825843e-05,
      "loss": 0.0932,
      "step": 4608
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8487183456993378e-05,
      "loss": 0.0696,
      "step": 4609
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8479327524001636e-05,
      "loss": 0.1042,
      "step": 4610
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8471471240641712e-05,
      "loss": 0.0968,
      "step": 4611
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.846361460770473e-05,
      "loss": 0.0321,
      "step": 4612
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.845575762598185e-05,
      "loss": 0.0389,
      "step": 4613
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8447900296264263e-05,
      "loss": 0.1792,
      "step": 4614
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8440042619343227e-05,
      "loss": 0.1884,
      "step": 4615
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.843218459600998e-05,
      "loss": 0.164,
      "step": 4616
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.842432622705584e-05,
      "loss": 0.2548,
      "step": 4617
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8416467513272145e-05,
      "loss": 0.2444,
      "step": 4618
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.840860845545027e-05,
      "loss": 0.2752,
      "step": 4619
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.840074905438161e-05,
      "loss": 0.2437,
      "step": 4620
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8392889310857612e-05,
      "loss": 0.2435,
      "step": 4621
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8385029225669756e-05,
      "loss": 0.0716,
      "step": 4622
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8377168799609554e-05,
      "loss": 0.3153,
      "step": 4623
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.836930803346854e-05,
      "loss": 0.1675,
      "step": 4624
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8361446928038298e-05,
      "loss": 0.2297,
      "step": 4625
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8353585484110444e-05,
      "loss": 0.1864,
      "step": 4626
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.834572370247663e-05,
      "loss": 0.2661,
      "step": 4627
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8337861583928527e-05,
      "loss": 0.1619,
      "step": 4628
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8329999129257847e-05,
      "loss": 0.2765,
      "step": 4629
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8322136339256356e-05,
      "loss": 0.3709,
      "step": 4630
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.831427321471582e-05,
      "loss": 0.2853,
      "step": 4631
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8306409756428064e-05,
      "loss": 0.8589,
      "step": 4632
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.829854596518493e-05,
      "loss": 0.4812,
      "step": 4633
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8290681841778322e-05,
      "loss": 0.6278,
      "step": 4634
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.828281738700013e-05,
      "loss": 1.2416,
      "step": 4635
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8274952601642324e-05,
      "loss": 0.5625,
      "step": 4636
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8267087486496873e-05,
      "loss": 0.3163,
      "step": 4637
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.825922204235581e-05,
      "loss": 0.1836,
      "step": 4638
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.825135627001117e-05,
      "loss": 0.1961,
      "step": 4639
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8243490170255043e-05,
      "loss": 0.178,
      "step": 4640
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8235623743879548e-05,
      "loss": 0.1988,
      "step": 4641
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8227756991676834e-05,
      "loss": 0.228,
      "step": 4642
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8219889914439074e-05,
      "loss": 0.0691,
      "step": 4643
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8212022512958484e-05,
      "loss": 0.1458,
      "step": 4644
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8204154788027325e-05,
      "loss": 0.1826,
      "step": 4645
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.819628674043786e-05,
      "loss": 0.1879,
      "step": 4646
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8188418370982405e-05,
      "loss": 0.0752,
      "step": 4647
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8180549680453306e-05,
      "loss": 0.0991,
      "step": 4648
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.8172680669642954e-05,
      "loss": 0.1256,
      "step": 4649
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.8164811339343732e-05,
      "loss": 0.1228,
      "step": 4650
    },
    {
      "epoch": 0.47,
      "eval_loss": 0.6187840104103088,
      "eval_runtime": 66.979,
      "eval_samples_per_second": 3.449,
      "eval_steps_per_second": 0.866,
      "step": 4650
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.81569416903481e-05,
      "loss": 0.0385,
      "step": 4651
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.8149071723448528e-05,
      "loss": 0.0579,
      "step": 4652
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.814120143943752e-05,
      "loss": 0.1629,
      "step": 4653
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.8133330839107608e-05,
      "loss": 0.0805,
      "step": 4654
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.812545992325137e-05,
      "loss": 0.0794,
      "step": 4655
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.81175886926614e-05,
      "loss": 0.2133,
      "step": 4656
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.8109717148130338e-05,
      "loss": 0.2318,
      "step": 4657
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.810184529045084e-05,
      "loss": 0.2054,
      "step": 4658
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.8093973120415605e-05,
      "loss": 0.1864,
      "step": 4659
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.808610063881737e-05,
      "loss": 0.2657,
      "step": 4660
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.807822784644888e-05,
      "loss": 0.1886,
      "step": 4661
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.807035474410293e-05,
      "loss": 0.2334,
      "step": 4662
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.8062481332572337e-05,
      "loss": 0.2149,
      "step": 4663
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.805460761264997e-05,
      "loss": 0.1574,
      "step": 4664
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.8046733585128687e-05,
      "loss": 0.1488,
      "step": 4665
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.8038859250801426e-05,
      "loss": 0.162,
      "step": 4666
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.8030984610461113e-05,
      "loss": 0.1562,
      "step": 4667
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.802310966490074e-05,
      "loss": 0.1003,
      "step": 4668
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.80152344149133e-05,
      "loss": 0.1738,
      "step": 4669
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.800735886129184e-05,
      "loss": 0.2664,
      "step": 4670
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7999483004829418e-05,
      "loss": 0.2893,
      "step": 4671
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7991606846319147e-05,
      "loss": 0.2694,
      "step": 4672
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.798373038655415e-05,
      "loss": 0.2734,
      "step": 4673
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7975853626327582e-05,
      "loss": 0.22,
      "step": 4674
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.796797656643263e-05,
      "loss": 0.1767,
      "step": 4675
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7960099207662532e-05,
      "loss": 0.24,
      "step": 4676
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7952221550810513e-05,
      "loss": 0.1877,
      "step": 4677
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.794434359666987e-05,
      "loss": 0.1855,
      "step": 4678
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.79364653460339e-05,
      "loss": 0.2816,
      "step": 4679
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.792858679969596e-05,
      "loss": 0.2869,
      "step": 4680
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7920707958449406e-05,
      "loss": 0.1782,
      "step": 4681
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.791282882308764e-05,
      "loss": 0.3241,
      "step": 4682
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7904949394404085e-05,
      "loss": 0.2616,
      "step": 4683
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7897069673192218e-05,
      "loss": 0.0834,
      "step": 4684
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7889189660245503e-05,
      "loss": 0.1548,
      "step": 4685
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7881309356357472e-05,
      "loss": 0.0562,
      "step": 4686
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.787342876232167e-05,
      "loss": 0.1586,
      "step": 4687
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.786554787893167e-05,
      "loss": 0.4431,
      "step": 4688
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7857666706981074e-05,
      "loss": 0.291,
      "step": 4689
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7849785247263515e-05,
      "loss": 0.3663,
      "step": 4690
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7841903500572674e-05,
      "loss": 0.4484,
      "step": 4691
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7834021467702214e-05,
      "loss": 0.4349,
      "step": 4692
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7826139149445873e-05,
      "loss": 0.1643,
      "step": 4693
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.78182565465974e-05,
      "loss": 0.2184,
      "step": 4694
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7810373659950573e-05,
      "loss": 0.2429,
      "step": 4695
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7802490490299187e-05,
      "loss": 0.2527,
      "step": 4696
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7794607038437087e-05,
      "loss": 0.2844,
      "step": 4697
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7786723305158136e-05,
      "loss": 0.2258,
      "step": 4698
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7778839291256232e-05,
      "loss": 0.1892,
      "step": 4699
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7770954997525277e-05,
      "loss": 0.1929,
      "step": 4700
    },
    {
      "epoch": 0.47,
      "eval_loss": 0.6222979426383972,
      "eval_runtime": 67.0375,
      "eval_samples_per_second": 3.446,
      "eval_steps_per_second": 0.865,
      "step": 4700
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7763070424759237e-05,
      "loss": 0.1606,
      "step": 4701
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7755185573752075e-05,
      "loss": 0.199,
      "step": 4702
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.77473004452978e-05,
      "loss": 0.2327,
      "step": 4703
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.773941504019045e-05,
      "loss": 0.2463,
      "step": 4704
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7731529359224077e-05,
      "loss": 0.1982,
      "step": 4705
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7723643403192783e-05,
      "loss": 0.2306,
      "step": 4706
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7715757172890662e-05,
      "loss": 0.1963,
      "step": 4707
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7707870669111868e-05,
      "loss": 0.2078,
      "step": 4708
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7699983892650573e-05,
      "loss": 0.2045,
      "step": 4709
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.769209684430098e-05,
      "loss": 0.2511,
      "step": 4710
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.76842095248573e-05,
      "loss": 0.2813,
      "step": 4711
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7676321935113798e-05,
      "loss": 0.2651,
      "step": 4712
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7668434075864747e-05,
      "loss": 0.2255,
      "step": 4713
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7660545947904465e-05,
      "loss": 0.2614,
      "step": 4714
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.765265755202727e-05,
      "loss": 0.2563,
      "step": 4715
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.764476888902754e-05,
      "loss": 0.2982,
      "step": 4716
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7636879959699648e-05,
      "loss": 0.1705,
      "step": 4717
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7628990764838024e-05,
      "loss": 0.1328,
      "step": 4718
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7621101305237096e-05,
      "loss": 0.241,
      "step": 4719
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.761321158169134e-05,
      "loss": 0.2304,
      "step": 4720
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7605321594995247e-05,
      "loss": 0.2747,
      "step": 4721
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.759743134594335e-05,
      "loss": 0.2152,
      "step": 4722
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7589540835330174e-05,
      "loss": 0.1731,
      "step": 4723
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7581650063950314e-05,
      "loss": 0.179,
      "step": 4724
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7573759032598366e-05,
      "loss": 0.182,
      "step": 4725
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7565867742068946e-05,
      "loss": 0.2307,
      "step": 4726
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.755797619315672e-05,
      "loss": 0.2931,
      "step": 4727
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7550084386656356e-05,
      "loss": 0.2663,
      "step": 4728
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7542192323362576e-05,
      "loss": 0.336,
      "step": 4729
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7534300004070086e-05,
      "loss": 0.2129,
      "step": 4730
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7526407429573657e-05,
      "loss": 0.17,
      "step": 4731
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.751851460066807e-05,
      "loss": 0.2376,
      "step": 4732
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7510621518148138e-05,
      "loss": 0.1581,
      "step": 4733
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7502728182808684e-05,
      "loss": 0.403,
      "step": 4734
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7494834595444568e-05,
      "loss": 0.2376,
      "step": 4735
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7486940756850676e-05,
      "loss": 0.1329,
      "step": 4736
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7479046667821922e-05,
      "loss": 0.1511,
      "step": 4737
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7471152329153237e-05,
      "loss": 0.1924,
      "step": 4738
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7463257741639576e-05,
      "loss": 0.1998,
      "step": 4739
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7455362906075932e-05,
      "loss": 0.1863,
      "step": 4740
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7447467823257306e-05,
      "loss": 0.1921,
      "step": 4741
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7439572493978736e-05,
      "loss": 0.22,
      "step": 4742
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7431676919035286e-05,
      "loss": 0.1613,
      "step": 4743
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.742378109922204e-05,
      "loss": 0.069,
      "step": 4744
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.74158850353341e-05,
      "loss": 0.3236,
      "step": 4745
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.74079887281666e-05,
      "loss": 0.2147,
      "step": 4746
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.74000921785147e-05,
      "loss": 0.2583,
      "step": 4747
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.739219538717359e-05,
      "loss": 0.3338,
      "step": 4748
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.738429835493847e-05,
      "loss": 0.1544,
      "step": 4749
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.7376401082604564e-05,
      "loss": 0.0734,
      "step": 4750
    },
    {
      "epoch": 0.47,
      "eval_loss": 0.6166539788246155,
      "eval_runtime": 67.0202,
      "eval_samples_per_second": 3.447,
      "eval_steps_per_second": 0.865,
      "step": 4750
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.736850357096714e-05,
      "loss": 0.1983,
      "step": 4751
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.7360605820821476e-05,
      "loss": 0.1141,
      "step": 4752
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.7352707832962865e-05,
      "loss": 0.1791,
      "step": 4753
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.7344809608186635e-05,
      "loss": 0.1835,
      "step": 4754
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.7336911147288146e-05,
      "loss": 0.1551,
      "step": 4755
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.732901245106277e-05,
      "loss": 0.3512,
      "step": 4756
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.7321113520305903e-05,
      "loss": 0.2221,
      "step": 4757
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.731321435581296e-05,
      "loss": 0.3392,
      "step": 4758
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.73053149583794e-05,
      "loss": 0.4123,
      "step": 4759
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.7297415328800692e-05,
      "loss": 0.177,
      "step": 4760
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.7289515467872317e-05,
      "loss": 0.2669,
      "step": 4761
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.7281615376389797e-05,
      "loss": 0.303,
      "step": 4762
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.7273715055148676e-05,
      "loss": 0.2232,
      "step": 4763
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.726581450494451e-05,
      "loss": 0.2531,
      "step": 4764
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.7257913726572883e-05,
      "loss": 0.1268,
      "step": 4765
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.7250012720829403e-05,
      "loss": 0.1645,
      "step": 4766
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.7242111488509703e-05,
      "loss": 0.1393,
      "step": 4767
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.7234210030409447e-05,
      "loss": 0.2412,
      "step": 4768
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.7226308347324297e-05,
      "loss": 0.116,
      "step": 4769
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.7218406440049954e-05,
      "loss": 0.1311,
      "step": 4770
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.7210504309382153e-05,
      "loss": 0.2502,
      "step": 4771
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.7202601956116614e-05,
      "loss": 0.2548,
      "step": 4772
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.7194699381049128e-05,
      "loss": 0.2267,
      "step": 4773
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.7186796584975473e-05,
      "loss": 0.1735,
      "step": 4774
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.717889356869146e-05,
      "loss": 0.2118,
      "step": 4775
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.7170990332992925e-05,
      "loss": 0.202,
      "step": 4776
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.716308687867572e-05,
      "loss": 0.2044,
      "step": 4777
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.7155183206535727e-05,
      "loss": 0.2659,
      "step": 4778
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.7147279317368852e-05,
      "loss": 0.1394,
      "step": 4779
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.7139375211970996e-05,
      "loss": 0.1421,
      "step": 4780
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.7131470891138123e-05,
      "loss": 0.2391,
      "step": 4781
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.7123566355666186e-05,
      "loss": 0.2245,
      "step": 4782
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.7115661606351177e-05,
      "loss": 0.1805,
      "step": 4783
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.7107756643989102e-05,
      "loss": 0.1645,
      "step": 4784
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.7099851469375986e-05,
      "loss": 0.1987,
      "step": 4785
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.7091946083307896e-05,
      "loss": 0.2134,
      "step": 4786
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.708404048658088e-05,
      "loss": 0.0433,
      "step": 4787
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.707613467999105e-05,
      "loss": 0.159,
      "step": 4788
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.706822866433451e-05,
      "loss": 0.1842,
      "step": 4789
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.706032244040741e-05,
      "loss": 0.2056,
      "step": 4790
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.7052416009005887e-05,
      "loss": 0.2013,
      "step": 4791
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.704450937092613e-05,
      "loss": 0.2659,
      "step": 4792
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.7036602526964333e-05,
      "loss": 0.0436,
      "step": 4793
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.7028695477916728e-05,
      "loss": 0.1667,
      "step": 4794
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.7020788224579535e-05,
      "loss": 0.1332,
      "step": 4795
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.7012880767749022e-05,
      "loss": 0.1803,
      "step": 4796
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.7004973108221472e-05,
      "loss": 0.1218,
      "step": 4797
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.699706524679319e-05,
      "loss": 0.183,
      "step": 4798
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.698915718426049e-05,
      "loss": 0.3462,
      "step": 4799
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.698124892141971e-05,
      "loss": 0.259,
      "step": 4800
    },
    {
      "epoch": 0.48,
      "eval_loss": 0.625816285610199,
      "eval_runtime": 67.0458,
      "eval_samples_per_second": 3.445,
      "eval_steps_per_second": 0.865,
      "step": 4800
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.697334045906723e-05,
      "loss": 0.1574,
      "step": 4801
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.696543179799941e-05,
      "loss": 0.2745,
      "step": 4802
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.6957522939012662e-05,
      "loss": 0.2009,
      "step": 4803
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.6949613882903406e-05,
      "loss": 0.3886,
      "step": 4804
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.6941704630468094e-05,
      "loss": 0.2085,
      "step": 4805
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.6933795182503175e-05,
      "loss": 0.354,
      "step": 4806
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.692588553980513e-05,
      "loss": 0.0706,
      "step": 4807
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.6917975703170466e-05,
      "loss": 0.2139,
      "step": 4808
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.6910065673395705e-05,
      "loss": 0.2184,
      "step": 4809
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.6902155451277377e-05,
      "loss": 0.2685,
      "step": 4810
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.6894245037612055e-05,
      "loss": 0.1955,
      "step": 4811
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.68863344331963e-05,
      "loss": 0.3025,
      "step": 4812
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.6878423638826726e-05,
      "loss": 0.1978,
      "step": 4813
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.687051265529994e-05,
      "loss": 0.285,
      "step": 4814
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.686260148341258e-05,
      "loss": 0.1753,
      "step": 4815
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.6854690123961308e-05,
      "loss": 0.0898,
      "step": 4816
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.684677857774278e-05,
      "loss": 0.0469,
      "step": 4817
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.6838866845553708e-05,
      "loss": 0.118,
      "step": 4818
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.6830954928190794e-05,
      "loss": 0.1959,
      "step": 4819
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.6823042826450774e-05,
      "loss": 0.0913,
      "step": 4820
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.681513054113038e-05,
      "loss": 0.1271,
      "step": 4821
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.6807218073026392e-05,
      "loss": 0.301,
      "step": 4822
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.6799305422935595e-05,
      "loss": 0.2544,
      "step": 4823
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.6791392591654794e-05,
      "loss": 0.3616,
      "step": 4824
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.6783479579980807e-05,
      "loss": 0.2186,
      "step": 4825
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.6775566388710476e-05,
      "loss": 0.1327,
      "step": 4826
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.676765301864066e-05,
      "loss": 0.2354,
      "step": 4827
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.675973947056823e-05,
      "loss": 0.1685,
      "step": 4828
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.6751825745290082e-05,
      "loss": 0.1195,
      "step": 4829
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.674391184360313e-05,
      "loss": 0.3119,
      "step": 4830
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.6735997766304305e-05,
      "loss": 0.208,
      "step": 4831
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.6728083514190554e-05,
      "loss": 0.2288,
      "step": 4832
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.672016908805884e-05,
      "loss": 0.3109,
      "step": 4833
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.671225448870614e-05,
      "loss": 0.1824,
      "step": 4834
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.670433971692947e-05,
      "loss": 0.2,
      "step": 4835
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.669642477352583e-05,
      "loss": 0.0927,
      "step": 4836
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.6688509659292267e-05,
      "loss": 0.2032,
      "step": 4837
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.6680594375025823e-05,
      "loss": 0.0453,
      "step": 4838
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.667267892152357e-05,
      "loss": 0.2442,
      "step": 4839
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.6664763299582602e-05,
      "loss": 0.3032,
      "step": 4840
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.6656847510000012e-05,
      "loss": 0.1305,
      "step": 4841
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.6648931553572914e-05,
      "loss": 0.0794,
      "step": 4842
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.6641015431098464e-05,
      "loss": 0.1006,
      "step": 4843
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.663309914337381e-05,
      "loss": 0.0604,
      "step": 4844
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.6625182691196105e-05,
      "loss": 0.0298,
      "step": 4845
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.6617266075362544e-05,
      "loss": 0.0475,
      "step": 4846
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.660934929667035e-05,
      "loss": 0.1817,
      "step": 4847
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.6601432355916716e-05,
      "loss": 0.2102,
      "step": 4848
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.6593515253898888e-05,
      "loss": 0.1457,
      "step": 4849
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.6585597991414114e-05,
      "loss": 0.1192,
      "step": 4850
    },
    {
      "epoch": 0.48,
      "eval_loss": 0.5989487171173096,
      "eval_runtime": 66.3047,
      "eval_samples_per_second": 3.484,
      "eval_steps_per_second": 0.875,
      "step": 4850
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6577680569259676e-05,
      "loss": 0.1818,
      "step": 4851
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.656976298823284e-05,
      "loss": 0.1415,
      "step": 4852
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6561845249130913e-05,
      "loss": 0.1665,
      "step": 4853
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.655392735275121e-05,
      "loss": 0.1302,
      "step": 4854
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6546009299891077e-05,
      "loss": 0.1942,
      "step": 4855
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6538091091347843e-05,
      "loss": 0.2134,
      "step": 4856
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6530172727918877e-05,
      "loss": 0.2831,
      "step": 4857
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.652225421040156e-05,
      "loss": 0.2762,
      "step": 4858
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.651433553959329e-05,
      "loss": 0.2457,
      "step": 4859
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6506416716291465e-05,
      "loss": 0.1798,
      "step": 4860
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.649849774129352e-05,
      "loss": 0.3402,
      "step": 4861
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.64905786153969e-05,
      "loss": 0.3489,
      "step": 4862
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6482659339399045e-05,
      "loss": 0.3332,
      "step": 4863
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.647473991409744e-05,
      "loss": 0.2459,
      "step": 4864
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.646682034028956e-05,
      "loss": 0.1444,
      "step": 4865
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6458900618772925e-05,
      "loss": 0.2634,
      "step": 4866
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6450980750345027e-05,
      "loss": 0.1856,
      "step": 4867
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6443060735803405e-05,
      "loss": 0.123,
      "step": 4868
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6435140575945612e-05,
      "loss": 0.1414,
      "step": 4869
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6427220271569203e-05,
      "loss": 0.1075,
      "step": 4870
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.641929982347175e-05,
      "loss": 0.0961,
      "step": 4871
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6411379232450844e-05,
      "loss": 0.1783,
      "step": 4872
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6403458499304083e-05,
      "loss": 0.1241,
      "step": 4873
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6395537624829096e-05,
      "loss": 0.1916,
      "step": 4874
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6387616609823507e-05,
      "loss": 0.1963,
      "step": 4875
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6379695455084962e-05,
      "loss": 0.1261,
      "step": 4876
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6371774161411123e-05,
      "loss": 0.1946,
      "step": 4877
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6363852729599668e-05,
      "loss": 0.3067,
      "step": 4878
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6355931160448272e-05,
      "loss": 0.3325,
      "step": 4879
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6348009454754653e-05,
      "loss": 0.335,
      "step": 4880
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6340087613316516e-05,
      "loss": 0.419,
      "step": 4881
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6332165636931594e-05,
      "loss": 0.1966,
      "step": 4882
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6324243526397623e-05,
      "loss": 0.2171,
      "step": 4883
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6316321282512368e-05,
      "loss": 0.2125,
      "step": 4884
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.63083989060736e-05,
      "loss": 0.2847,
      "step": 4885
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.630047639787909e-05,
      "loss": 0.2591,
      "step": 4886
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.629255375872665e-05,
      "loss": 0.2551,
      "step": 4887
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6284630989414078e-05,
      "loss": 0.2043,
      "step": 4888
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6276708090739205e-05,
      "loss": 0.1698,
      "step": 4889
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.626878506349986e-05,
      "loss": 0.2403,
      "step": 4890
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.626086190849389e-05,
      "loss": 0.0741,
      "step": 4891
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.625293862651916e-05,
      "loss": 0.1712,
      "step": 4892
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6245015218373552e-05,
      "loss": 0.2687,
      "step": 4893
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6237091684854942e-05,
      "loss": 0.3262,
      "step": 4894
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6229168026761232e-05,
      "loss": 0.2009,
      "step": 4895
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6221244244890336e-05,
      "loss": 0.1349,
      "step": 4896
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6213320340040177e-05,
      "loss": 0.1885,
      "step": 4897
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.620539631300869e-05,
      "loss": 0.2856,
      "step": 4898
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6197472164593827e-05,
      "loss": 0.2079,
      "step": 4899
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6189547895593562e-05,
      "loss": 0.1638,
      "step": 4900
    },
    {
      "epoch": 0.49,
      "eval_loss": 0.622526228427887,
      "eval_runtime": 67.6011,
      "eval_samples_per_second": 3.417,
      "eval_steps_per_second": 0.858,
      "step": 4900
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6181623506805847e-05,
      "loss": 0.2148,
      "step": 4901
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6173698999028674e-05,
      "loss": 0.1099,
      "step": 4902
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6165774373060047e-05,
      "loss": 0.212,
      "step": 4903
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6157849629697977e-05,
      "loss": 0.1428,
      "step": 4904
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.614992476974048e-05,
      "loss": 0.0954,
      "step": 4905
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6141999793985583e-05,
      "loss": 0.1436,
      "step": 4906
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6134074703231344e-05,
      "loss": 0.124,
      "step": 4907
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6126149498275816e-05,
      "loss": 0.2035,
      "step": 4908
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.611822417991706e-05,
      "loss": 0.1691,
      "step": 4909
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6110298748953153e-05,
      "loss": 0.1638,
      "step": 4910
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6102373206182208e-05,
      "loss": 0.119,
      "step": 4911
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6094447552402302e-05,
      "loss": 0.1599,
      "step": 4912
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6086521788411555e-05,
      "loss": 0.2192,
      "step": 4913
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6078595915008098e-05,
      "loss": 0.0938,
      "step": 4914
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6070669932990067e-05,
      "loss": 0.198,
      "step": 4915
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.606274384315559e-05,
      "loss": 0.2447,
      "step": 4916
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6054817646302842e-05,
      "loss": 0.1871,
      "step": 4917
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.604689134322999e-05,
      "loss": 0.3286,
      "step": 4918
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.603896493473521e-05,
      "loss": 0.1846,
      "step": 4919
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6031038421616683e-05,
      "loss": 0.129,
      "step": 4920
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6023111804672618e-05,
      "loss": 0.1421,
      "step": 4921
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6015185084701228e-05,
      "loss": 0.2699,
      "step": 4922
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.6007258262500717e-05,
      "loss": 0.1135,
      "step": 4923
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.5999331338869336e-05,
      "loss": 0.0337,
      "step": 4924
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.599140431460531e-05,
      "loss": 0.237,
      "step": 4925
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.59834771905069e-05,
      "loss": 0.0304,
      "step": 4926
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.5975549967372364e-05,
      "loss": 0.1174,
      "step": 4927
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.5967622645999972e-05,
      "loss": 0.0909,
      "step": 4928
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.5959695227188004e-05,
      "loss": 0.1158,
      "step": 4929
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.5951767711734753e-05,
      "loss": 0.154,
      "step": 4930
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.594384010043852e-05,
      "loss": 0.321,
      "step": 4931
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.5935912394097616e-05,
      "loss": 0.3377,
      "step": 4932
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.5927984593510358e-05,
      "loss": 0.2053,
      "step": 4933
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.5920056699475077e-05,
      "loss": 0.1524,
      "step": 4934
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.591212871279012e-05,
      "loss": 0.2261,
      "step": 4935
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.5904200634253817e-05,
      "loss": 0.2046,
      "step": 4936
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.5896272464664533e-05,
      "loss": 0.1872,
      "step": 4937
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.5888344204820635e-05,
      "loss": 0.1691,
      "step": 4938
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.5880415855520514e-05,
      "loss": 0.2032,
      "step": 4939
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.587248741756253e-05,
      "loss": 0.1083,
      "step": 4940
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.5864558891745084e-05,
      "loss": 0.1817,
      "step": 4941
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.5856630278866588e-05,
      "loss": 0.1995,
      "step": 4942
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.5848701579725444e-05,
      "loss": 0.225,
      "step": 4943
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.584077279512007e-05,
      "loss": 0.0764,
      "step": 4944
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.5832843925848904e-05,
      "loss": 0.0898,
      "step": 4945
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.582491497271038e-05,
      "loss": 0.1285,
      "step": 4946
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.5816985936502936e-05,
      "loss": 0.1548,
      "step": 4947
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.580905681802503e-05,
      "loss": 0.1453,
      "step": 4948
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.5801127618075127e-05,
      "loss": 0.203,
      "step": 4949
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.5793198337451696e-05,
      "loss": 0.2151,
      "step": 4950
    },
    {
      "epoch": 0.49,
      "eval_loss": 0.6145470142364502,
      "eval_runtime": 66.6701,
      "eval_samples_per_second": 3.465,
      "eval_steps_per_second": 0.87,
      "step": 4950
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.578526897695321e-05,
      "loss": 0.0613,
      "step": 4951
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.577733953737816e-05,
      "loss": 0.1369,
      "step": 4952
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5769410019525043e-05,
      "loss": 0.071,
      "step": 4953
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5761480424192358e-05,
      "loss": 0.3395,
      "step": 4954
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5753550752178613e-05,
      "loss": 0.2363,
      "step": 4955
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5745621004282328e-05,
      "loss": 0.2754,
      "step": 4956
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.573769118130203e-05,
      "loss": 0.0873,
      "step": 4957
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5729761284036248e-05,
      "loss": 0.211,
      "step": 4958
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5721831313283524e-05,
      "loss": 0.1987,
      "step": 4959
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5713901269842404e-05,
      "loss": 0.3698,
      "step": 4960
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.570597115451146e-05,
      "loss": 0.1112,
      "step": 4961
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5698040968089225e-05,
      "loss": 0.242,
      "step": 4962
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.569011071137429e-05,
      "loss": 0.1668,
      "step": 4963
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5682180385165222e-05,
      "loss": 0.1351,
      "step": 4964
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5674249990260614e-05,
      "loss": 0.263,
      "step": 4965
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.566631952745904e-05,
      "loss": 0.2003,
      "step": 4966
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5658388997559113e-05,
      "loss": 0.3589,
      "step": 4967
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5650458401359433e-05,
      "loss": 0.3989,
      "step": 4968
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.564252773965861e-05,
      "loss": 0.2636,
      "step": 4969
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.563459701325526e-05,
      "loss": 0.2347,
      "step": 4970
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.562666622294801e-05,
      "loss": 0.2348,
      "step": 4971
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.561873536953549e-05,
      "loss": 0.1111,
      "step": 4972
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5610804453816333e-05,
      "loss": 0.0515,
      "step": 4973
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5602873476589184e-05,
      "loss": 0.4318,
      "step": 4974
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5594942438652688e-05,
      "loss": 0.1579,
      "step": 4975
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.558701134080551e-05,
      "loss": 0.1505,
      "step": 4976
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5579080183846305e-05,
      "loss": 0.3386,
      "step": 4977
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5571148968573743e-05,
      "loss": 0.3832,
      "step": 4978
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.556321769578649e-05,
      "loss": 0.4974,
      "step": 4979
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5555286366283237e-05,
      "loss": 0.2886,
      "step": 4980
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5547354980862658e-05,
      "loss": 0.327,
      "step": 4981
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.553942354032345e-05,
      "loss": 0.0311,
      "step": 4982
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.55314920454643e-05,
      "loss": 0.3224,
      "step": 4983
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5523560497083926e-05,
      "loss": 0.3063,
      "step": 4984
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.551562889598102e-05,
      "loss": 0.1828,
      "step": 4985
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5507697242954292e-05,
      "loss": 0.206,
      "step": 4986
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5499765538802473e-05,
      "loss": 0.1385,
      "step": 4987
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5491833784324275e-05,
      "loss": 0.2119,
      "step": 4988
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.548390198031843e-05,
      "loss": 0.2279,
      "step": 4989
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5475970127583666e-05,
      "loss": 0.2023,
      "step": 4990
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.546803822691873e-05,
      "loss": 0.1118,
      "step": 4991
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5460106279122354e-05,
      "loss": 0.1526,
      "step": 4992
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.545217428499328e-05,
      "loss": 0.2073,
      "step": 4993
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5444242245330273e-05,
      "loss": 0.1962,
      "step": 4994
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5436310160932092e-05,
      "loss": 0.1623,
      "step": 4995
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5428378032597482e-05,
      "loss": 0.146,
      "step": 4996
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5420445861125215e-05,
      "loss": 0.1863,
      "step": 4997
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5412513647314064e-05,
      "loss": 0.2103,
      "step": 4998
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.54045813919628e-05,
      "loss": 0.1121,
      "step": 4999
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5396649095870202e-05,
      "loss": 0.1455,
      "step": 5000
    },
    {
      "epoch": 0.5,
      "eval_loss": 0.6257889866828918,
      "eval_runtime": 73.5684,
      "eval_samples_per_second": 3.14,
      "eval_steps_per_second": 0.788,
      "step": 5000
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5388716759835046e-05,
      "loss": 0.1504,
      "step": 5001
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5380784384656126e-05,
      "loss": 0.1359,
      "step": 5002
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5372851971132234e-05,
      "loss": 0.2537,
      "step": 5003
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5364919520062146e-05,
      "loss": 0.129,
      "step": 5004
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5356987032244683e-05,
      "loss": 0.1991,
      "step": 5005
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5349054508478637e-05,
      "loss": 0.1296,
      "step": 5006
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.53411219495628e-05,
      "loss": 0.1196,
      "step": 5007
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5333189356296007e-05,
      "loss": 0.0901,
      "step": 5008
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.532525672947705e-05,
      "loss": 0.1172,
      "step": 5009
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.531732406990474e-05,
      "loss": 0.107,
      "step": 5010
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5309391378377916e-05,
      "loss": 0.1132,
      "step": 5011
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.530145865569538e-05,
      "loss": 0.1185,
      "step": 5012
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5293525902655967e-05,
      "loss": 0.3018,
      "step": 5013
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.528559312005851e-05,
      "loss": 0.0415,
      "step": 5014
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5277660308701833e-05,
      "loss": 0.1443,
      "step": 5015
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.526972746938476e-05,
      "loss": 0.1716,
      "step": 5016
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5261794602906145e-05,
      "loss": 0.1402,
      "step": 5017
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.525386171006483e-05,
      "loss": 0.1178,
      "step": 5018
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5245928791659634e-05,
      "loss": 0.2497,
      "step": 5019
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.523799584848942e-05,
      "loss": 0.2168,
      "step": 5020
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.523006288135303e-05,
      "loss": 0.2055,
      "step": 5021
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.522212989104932e-05,
      "loss": 0.1997,
      "step": 5022
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5214196878377126e-05,
      "loss": 0.1052,
      "step": 5023
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.520626384413532e-05,
      "loss": 0.3081,
      "step": 5024
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5198330789122742e-05,
      "loss": 0.1639,
      "step": 5025
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.519039771413827e-05,
      "loss": 0.2197,
      "step": 5026
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.518246461998075e-05,
      "loss": 0.1522,
      "step": 5027
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.517453150744904e-05,
      "loss": 0.1582,
      "step": 5028
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5166598377342016e-05,
      "loss": 0.1414,
      "step": 5029
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.515866523045855e-05,
      "loss": 0.2327,
      "step": 5030
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.515073206759749e-05,
      "loss": 0.2073,
      "step": 5031
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.514279888955771e-05,
      "loss": 0.1726,
      "step": 5032
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5134865697138094e-05,
      "loss": 0.1155,
      "step": 5033
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5126932491137505e-05,
      "loss": 0.1279,
      "step": 5034
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5118999272354816e-05,
      "loss": 0.152,
      "step": 5035
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5111066041588906e-05,
      "loss": 0.1574,
      "step": 5036
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.510313279963865e-05,
      "loss": 0.1593,
      "step": 5037
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5095199547302916e-05,
      "loss": 0.1879,
      "step": 5038
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5087266285380596e-05,
      "loss": 0.2443,
      "step": 5039
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.507933301467056e-05,
      "loss": 0.3618,
      "step": 5040
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.50713997359717e-05,
      "loss": 0.2918,
      "step": 5041
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5063466450082878e-05,
      "loss": 0.2614,
      "step": 5042
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.505553315780299e-05,
      "loss": 0.1808,
      "step": 5043
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5047599859930916e-05,
      "loss": 0.1713,
      "step": 5044
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.503966655726554e-05,
      "loss": 0.1403,
      "step": 5045
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.503173325060574e-05,
      "loss": 0.0623,
      "step": 5046
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5023799940750397e-05,
      "loss": 0.0786,
      "step": 5047
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.501586662849841e-05,
      "loss": 0.1128,
      "step": 5048
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.5007933314648652e-05,
      "loss": 0.1209,
      "step": 5049
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.5e-05,
      "loss": 0.189,
      "step": 5050
    },
    {
      "epoch": 0.51,
      "eval_loss": 0.6706745028495789,
      "eval_runtime": 73.5522,
      "eval_samples_per_second": 3.141,
      "eval_steps_per_second": 0.789,
      "step": 5050
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.499206668535136e-05,
      "loss": 0.126,
      "step": 5051
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.49841333715016e-05,
      "loss": 0.0929,
      "step": 5052
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4976200059249612e-05,
      "loss": 0.174,
      "step": 5053
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4968266749394267e-05,
      "loss": 0.0832,
      "step": 5054
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.496033344273447e-05,
      "loss": 0.0696,
      "step": 5055
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.495240014006909e-05,
      "loss": 0.0926,
      "step": 5056
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.494446684219702e-05,
      "loss": 0.0954,
      "step": 5057
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4936533549917128e-05,
      "loss": 0.0459,
      "step": 5058
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4928600264028312e-05,
      "loss": 0.0427,
      "step": 5059
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4920666985329443e-05,
      "loss": 0.1495,
      "step": 5060
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4912733714619417e-05,
      "loss": 0.1772,
      "step": 5061
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4904800452697086e-05,
      "loss": 0.1491,
      "step": 5062
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4896867200361363e-05,
      "loss": 0.2172,
      "step": 5063
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.48889339584111e-05,
      "loss": 0.2078,
      "step": 5064
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4881000727645193e-05,
      "loss": 0.2254,
      "step": 5065
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.48730675088625e-05,
      "loss": 0.2958,
      "step": 5066
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4865134302861912e-05,
      "loss": 0.2252,
      "step": 5067
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4857201110442294e-05,
      "loss": 0.0756,
      "step": 5068
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4849267932402524e-05,
      "loss": 0.2221,
      "step": 5069
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.484133476954146e-05,
      "loss": 0.1738,
      "step": 5070
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4833401622657986e-05,
      "loss": 0.1463,
      "step": 5071
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4825468492550964e-05,
      "loss": 0.1955,
      "step": 5072
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4817535380019265e-05,
      "loss": 0.2269,
      "step": 5073
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4809602285861737e-05,
      "loss": 0.152,
      "step": 5074
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4801669210877264e-05,
      "loss": 0.1962,
      "step": 5075
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.479373615586469e-05,
      "loss": 0.3137,
      "step": 5076
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4785803121622883e-05,
      "loss": 0.26,
      "step": 5077
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4777870108950687e-05,
      "loss": 0.701,
      "step": 5078
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4769937118646977e-05,
      "loss": 0.5201,
      "step": 5079
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4762004151510584e-05,
      "loss": 0.3737,
      "step": 5080
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4754071208340376e-05,
      "loss": 1.1683,
      "step": 5081
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4746138289935177e-05,
      "loss": 0.7016,
      "step": 5082
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4738205397093864e-05,
      "loss": 0.3363,
      "step": 5083
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.473027253061524e-05,
      "loss": 0.1355,
      "step": 5084
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.472233969129818e-05,
      "loss": 0.2085,
      "step": 5085
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.47144068799415e-05,
      "loss": 0.207,
      "step": 5086
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.470647409734404e-05,
      "loss": 0.1531,
      "step": 5087
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4698541344304625e-05,
      "loss": 0.2829,
      "step": 5088
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4690608621622097e-05,
      "loss": 0.0434,
      "step": 5089
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4682675930095263e-05,
      "loss": 0.1294,
      "step": 5090
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4674743270522964e-05,
      "loss": 0.143,
      "step": 5091
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4666810643704e-05,
      "loss": 0.1874,
      "step": 5092
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4658878050437202e-05,
      "loss": 0.078,
      "step": 5093
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4650945491521372e-05,
      "loss": 0.0799,
      "step": 5094
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4643012967755326e-05,
      "loss": 0.0999,
      "step": 5095
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.463508047993785e-05,
      "loss": 0.1083,
      "step": 5096
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4627148028867775e-05,
      "loss": 0.0345,
      "step": 5097
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4619215615343877e-05,
      "loss": 0.0452,
      "step": 5098
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.461128324016496e-05,
      "loss": 0.1434,
      "step": 5099
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.46033509041298e-05,
      "loss": 0.1042,
      "step": 5100
    },
    {
      "epoch": 0.51,
      "eval_loss": 0.6322799324989319,
      "eval_runtime": 73.6215,
      "eval_samples_per_second": 3.138,
      "eval_steps_per_second": 0.788,
      "step": 5100
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4595418608037205e-05,
      "loss": 0.07,
      "step": 5101
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.458748635268594e-05,
      "loss": 0.2086,
      "step": 5102
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.457955413887479e-05,
      "loss": 0.2158,
      "step": 5103
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.457162196740252e-05,
      "loss": 0.1555,
      "step": 5104
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4563689839067913e-05,
      "loss": 0.1823,
      "step": 5105
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4555757754669726e-05,
      "loss": 0.2615,
      "step": 5106
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4547825715006722e-05,
      "loss": 0.1677,
      "step": 5107
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.453989372087765e-05,
      "loss": 0.2146,
      "step": 5108
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4531961773081274e-05,
      "loss": 0.2137,
      "step": 5109
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4524029872416333e-05,
      "loss": 0.1228,
      "step": 5110
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4516098019681575e-05,
      "loss": 0.1464,
      "step": 5111
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.450816621567572e-05,
      "loss": 0.1169,
      "step": 5112
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4500234461197533e-05,
      "loss": 0.1782,
      "step": 5113
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4492302757045703e-05,
      "loss": 0.0999,
      "step": 5114
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4484371104018986e-05,
      "loss": 0.1445,
      "step": 5115
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.447643950291608e-05,
      "loss": 0.2256,
      "step": 5116
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4468507954535703e-05,
      "loss": 0.2431,
      "step": 5117
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4460576459676553e-05,
      "loss": 0.2974,
      "step": 5118
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4452645019137347e-05,
      "loss": 0.2592,
      "step": 5119
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4444713633716765e-05,
      "loss": 0.1856,
      "step": 5120
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4436782304213516e-05,
      "loss": 0.1667,
      "step": 5121
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.442885103142626e-05,
      "loss": 0.1925,
      "step": 5122
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4420919816153698e-05,
      "loss": 0.1846,
      "step": 5123
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4412988659194493e-05,
      "loss": 0.2071,
      "step": 5124
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4405057561347315e-05,
      "loss": 0.2422,
      "step": 5125
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4397126523410818e-05,
      "loss": 0.2595,
      "step": 5126
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4389195546183673e-05,
      "loss": 0.1555,
      "step": 5127
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4381264630464513e-05,
      "loss": 0.2948,
      "step": 5128
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4373333777051996e-05,
      "loss": 0.2419,
      "step": 5129
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4365402986744738e-05,
      "loss": 0.0902,
      "step": 5130
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4357472260341392e-05,
      "loss": 0.1525,
      "step": 5131
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.434954159864057e-05,
      "loss": 0.0241,
      "step": 5132
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4341611002440892e-05,
      "loss": 0.146,
      "step": 5133
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4333680472540958e-05,
      "loss": 0.3419,
      "step": 5134
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4325750009739395e-05,
      "loss": 0.3076,
      "step": 5135
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4317819614834787e-05,
      "loss": 0.2768,
      "step": 5136
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4309889288625717e-05,
      "loss": 0.4328,
      "step": 5137
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4301959031910784e-05,
      "loss": 0.3752,
      "step": 5138
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4294028845488547e-05,
      "loss": 0.1884,
      "step": 5139
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.42860987301576e-05,
      "loss": 0.2043,
      "step": 5140
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4278168686716478e-05,
      "loss": 0.2344,
      "step": 5141
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.427023871596376e-05,
      "loss": 0.232,
      "step": 5142
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4262308818697972e-05,
      "loss": 0.2276,
      "step": 5143
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4254378995717685e-05,
      "loss": 0.2285,
      "step": 5144
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4246449247821392e-05,
      "loss": 0.1703,
      "step": 5145
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.423851957580765e-05,
      "loss": 0.1802,
      "step": 5146
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4230589980474963e-05,
      "loss": 0.1577,
      "step": 5147
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.422266046262185e-05,
      "loss": 0.208,
      "step": 5148
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.4214731023046793e-05,
      "loss": 0.1733,
      "step": 5149
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.4206801662548314e-05,
      "loss": 0.2652,
      "step": 5150
    },
    {
      "epoch": 0.52,
      "eval_loss": 0.6477502584457397,
      "eval_runtime": 73.3784,
      "eval_samples_per_second": 3.148,
      "eval_steps_per_second": 0.79,
      "step": 5150
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.4198872381924882e-05,
      "loss": 0.1493,
      "step": 5151
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.419094318197498e-05,
      "loss": 0.2049,
      "step": 5152
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.4183014063497066e-05,
      "loss": 0.1634,
      "step": 5153
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.417508502728963e-05,
      "loss": 0.187,
      "step": 5154
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.41671560741511e-05,
      "loss": 0.164,
      "step": 5155
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.4159227204879938e-05,
      "loss": 0.2783,
      "step": 5156
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.4151298420274558e-05,
      "loss": 0.2438,
      "step": 5157
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.4143369721133418e-05,
      "loss": 0.2632,
      "step": 5158
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.413544110825492e-05,
      "loss": 0.2022,
      "step": 5159
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.4127512582437485e-05,
      "loss": 0.1942,
      "step": 5160
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.4119584144479492e-05,
      "loss": 0.2311,
      "step": 5161
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.4111655795179367e-05,
      "loss": 0.2731,
      "step": 5162
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.4103727535335473e-05,
      "loss": 0.1519,
      "step": 5163
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.4095799365746195e-05,
      "loss": 0.1292,
      "step": 5164
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.408787128720989e-05,
      "loss": 0.1957,
      "step": 5165
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.407994330052493e-05,
      "loss": 0.187,
      "step": 5166
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.4072015406489645e-05,
      "loss": 0.2259,
      "step": 5167
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.4064087605902393e-05,
      "loss": 0.2105,
      "step": 5168
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.4056159899561482e-05,
      "loss": 0.1651,
      "step": 5169
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.4048232288265253e-05,
      "loss": 0.1602,
      "step": 5170
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.4040304772812002e-05,
      "loss": 0.1622,
      "step": 5171
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.403237735400004e-05,
      "loss": 0.2,
      "step": 5172
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.402445003262764e-05,
      "loss": 0.2255,
      "step": 5173
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.4016522809493107e-05,
      "loss": 0.2911,
      "step": 5174
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.4008595685394696e-05,
      "loss": 0.2792,
      "step": 5175
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.4000668661130674e-05,
      "loss": 0.2043,
      "step": 5176
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.399274173749929e-05,
      "loss": 0.1995,
      "step": 5177
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3984814915298788e-05,
      "loss": 0.2278,
      "step": 5178
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.397688819532738e-05,
      "loss": 0.148,
      "step": 5179
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3968961578383323e-05,
      "loss": 0.3664,
      "step": 5180
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3961035065264795e-05,
      "loss": 0.2,
      "step": 5181
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3953108656770016e-05,
      "loss": 0.1583,
      "step": 5182
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3945182353697154e-05,
      "loss": 0.1071,
      "step": 5183
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.393725615684441e-05,
      "loss": 0.1823,
      "step": 5184
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3929330067009942e-05,
      "loss": 0.2081,
      "step": 5185
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3921404084991908e-05,
      "loss": 0.2019,
      "step": 5186
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3913478211588444e-05,
      "loss": 0.174,
      "step": 5187
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3905552447597704e-05,
      "loss": 0.2081,
      "step": 5188
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3897626793817798e-05,
      "loss": 0.1399,
      "step": 5189
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.388970125104685e-05,
      "loss": 0.0614,
      "step": 5190
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.388177582008294e-05,
      "loss": 0.2451,
      "step": 5191
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.387385050172419e-05,
      "loss": 0.2163,
      "step": 5192
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.386592529676866e-05,
      "loss": 0.2123,
      "step": 5193
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.385800020601442e-05,
      "loss": 0.3149,
      "step": 5194
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3850075230259522e-05,
      "loss": 0.1784,
      "step": 5195
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.384215037030203e-05,
      "loss": 0.0826,
      "step": 5196
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.383422562693995e-05,
      "loss": 0.1264,
      "step": 5197
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.382630100097133e-05,
      "loss": 0.148,
      "step": 5198
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3818376493194153e-05,
      "loss": 0.1465,
      "step": 5199
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3810452104406444e-05,
      "loss": 0.181,
      "step": 5200
    },
    {
      "epoch": 0.52,
      "eval_loss": 0.6372978091239929,
      "eval_runtime": 73.4756,
      "eval_samples_per_second": 3.144,
      "eval_steps_per_second": 0.789,
      "step": 5200
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3802527835406168e-05,
      "loss": 0.1532,
      "step": 5201
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3794603686991316e-05,
      "loss": 0.3408,
      "step": 5202
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3786679659959825e-05,
      "loss": 0.1817,
      "step": 5203
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.377875575510967e-05,
      "loss": 0.2613,
      "step": 5204
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.377083197323877e-05,
      "loss": 0.347,
      "step": 5205
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3762908315145067e-05,
      "loss": 0.1766,
      "step": 5206
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.375498478162645e-05,
      "loss": 0.216,
      "step": 5207
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3747061373480843e-05,
      "loss": 0.2476,
      "step": 5208
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.373913809150611e-05,
      "loss": 0.2466,
      "step": 5209
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3731214936500147e-05,
      "loss": 0.2081,
      "step": 5210
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.37232919092608e-05,
      "loss": 0.1242,
      "step": 5211
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3715369010585928e-05,
      "loss": 0.1745,
      "step": 5212
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3707446241273353e-05,
      "loss": 0.1301,
      "step": 5213
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.369952360212091e-05,
      "loss": 0.215,
      "step": 5214
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3691601093926404e-05,
      "loss": 0.1258,
      "step": 5215
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3683678717487638e-05,
      "loss": 0.1098,
      "step": 5216
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.367575647360238e-05,
      "loss": 0.2218,
      "step": 5217
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3667834363068415e-05,
      "loss": 0.2579,
      "step": 5218
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.365991238668349e-05,
      "loss": 0.2473,
      "step": 5219
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3651990545245356e-05,
      "loss": 0.1884,
      "step": 5220
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3644068839551737e-05,
      "loss": 0.1901,
      "step": 5221
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3636147270400338e-05,
      "loss": 0.1913,
      "step": 5222
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3628225838588883e-05,
      "loss": 0.1917,
      "step": 5223
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3620304544915044e-05,
      "loss": 0.2414,
      "step": 5224
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3612383390176503e-05,
      "loss": 0.1199,
      "step": 5225
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3604462375170906e-05,
      "loss": 0.1443,
      "step": 5226
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.359654150069592e-05,
      "loss": 0.1929,
      "step": 5227
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3588620767549162e-05,
      "loss": 0.2313,
      "step": 5228
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3580700176528262e-05,
      "loss": 0.2052,
      "step": 5229
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.35727797284308e-05,
      "loss": 0.1238,
      "step": 5230
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3564859424054394e-05,
      "loss": 0.2062,
      "step": 5231
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3556939264196598e-05,
      "loss": 0.2314,
      "step": 5232
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3549019249654985e-05,
      "loss": 0.0247,
      "step": 5233
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3541099381227084e-05,
      "loss": 0.1271,
      "step": 5234
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3533179659710445e-05,
      "loss": 0.1478,
      "step": 5235
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.352526008590257e-05,
      "loss": 0.2065,
      "step": 5236
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3517340660600964e-05,
      "loss": 0.184,
      "step": 5237
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.350942138460311e-05,
      "loss": 0.258,
      "step": 5238
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3501502258706492e-05,
      "loss": 0.0549,
      "step": 5239
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.349358328370854e-05,
      "loss": 0.127,
      "step": 5240
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3485664460406723e-05,
      "loss": 0.0852,
      "step": 5241
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.347774578959845e-05,
      "loss": 0.1759,
      "step": 5242
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3469827272081136e-05,
      "loss": 0.1406,
      "step": 5243
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3461908908652163e-05,
      "loss": 0.1383,
      "step": 5244
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3453990700108932e-05,
      "loss": 0.2339,
      "step": 5245
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.344607264724879e-05,
      "loss": 0.3009,
      "step": 5246
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.34381547508691e-05,
      "loss": 0.1306,
      "step": 5247
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3430237011767167e-05,
      "loss": 0.2832,
      "step": 5248
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.3422319430740336e-05,
      "loss": 0.2025,
      "step": 5249
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3414402008585888e-05,
      "loss": 0.2827,
      "step": 5250
    },
    {
      "epoch": 0.53,
      "eval_loss": 0.6505811214447021,
      "eval_runtime": 73.5383,
      "eval_samples_per_second": 3.141,
      "eval_steps_per_second": 0.789,
      "step": 5250
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3406484746101125e-05,
      "loss": 0.2301,
      "step": 5251
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.339856764408329e-05,
      "loss": 0.2842,
      "step": 5252
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.339065070332966e-05,
      "loss": 0.0904,
      "step": 5253
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3382733924637458e-05,
      "loss": 0.1721,
      "step": 5254
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3374817308803908e-05,
      "loss": 0.2051,
      "step": 5255
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.33669008566262e-05,
      "loss": 0.2264,
      "step": 5256
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.335898456890154e-05,
      "loss": 0.2618,
      "step": 5257
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.335106844642709e-05,
      "loss": 0.241,
      "step": 5258
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3343152490000004e-05,
      "loss": 0.2309,
      "step": 5259
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3335236700417404e-05,
      "loss": 0.2985,
      "step": 5260
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3327321078476437e-05,
      "loss": 0.1393,
      "step": 5261
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3319405624974183e-05,
      "loss": 0.1363,
      "step": 5262
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3311490340707742e-05,
      "loss": 0.043,
      "step": 5263
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.330357522647417e-05,
      "loss": 0.0946,
      "step": 5264
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3295660283070535e-05,
      "loss": 0.1611,
      "step": 5265
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3287745511293858e-05,
      "loss": 0.0819,
      "step": 5266
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3279830911941166e-05,
      "loss": 0.1034,
      "step": 5267
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3271916485809445e-05,
      "loss": 0.2434,
      "step": 5268
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.32640022336957e-05,
      "loss": 0.206,
      "step": 5269
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3256088156396868e-05,
      "loss": 0.4208,
      "step": 5270
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.324817425470992e-05,
      "loss": 0.1841,
      "step": 5271
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3240260529431773e-05,
      "loss": 0.1352,
      "step": 5272
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.323234698135935e-05,
      "loss": 0.1736,
      "step": 5273
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3224433611289523e-05,
      "loss": 0.1866,
      "step": 5274
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3216520420019195e-05,
      "loss": 0.1008,
      "step": 5275
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3208607408345208e-05,
      "loss": 0.2332,
      "step": 5276
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3200694577064407e-05,
      "loss": 0.2242,
      "step": 5277
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3192781926973607e-05,
      "loss": 0.1945,
      "step": 5278
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3184869458869627e-05,
      "loss": 0.2423,
      "step": 5279
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3176957173549235e-05,
      "loss": 0.1849,
      "step": 5280
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3169045071809215e-05,
      "loss": 0.1743,
      "step": 5281
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.316113315444629e-05,
      "loss": 0.0994,
      "step": 5282
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.315322142225722e-05,
      "loss": 0.1799,
      "step": 5283
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3145309876038698e-05,
      "loss": 0.0444,
      "step": 5284
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3137398516587425e-05,
      "loss": 0.1541,
      "step": 5285
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.312948734470006e-05,
      "loss": 0.2914,
      "step": 5286
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3121576361173277e-05,
      "loss": 0.1279,
      "step": 5287
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.31136655668037e-05,
      "loss": 0.055,
      "step": 5288
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3105754962387954e-05,
      "loss": 0.0923,
      "step": 5289
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.309784454872262e-05,
      "loss": 0.0611,
      "step": 5290
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3089934326604297e-05,
      "loss": 0.03,
      "step": 5291
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3082024296829536e-05,
      "loss": 0.0369,
      "step": 5292
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3074114460194872e-05,
      "loss": 0.1193,
      "step": 5293
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3066204817496824e-05,
      "loss": 0.2126,
      "step": 5294
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3058295369531908e-05,
      "loss": 0.1289,
      "step": 5295
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3050386117096593e-05,
      "loss": 0.1238,
      "step": 5296
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3042477060987343e-05,
      "loss": 0.1569,
      "step": 5297
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.303456820200059e-05,
      "loss": 0.1623,
      "step": 5298
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3026659540932776e-05,
      "loss": 0.1238,
      "step": 5299
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3018751078580287e-05,
      "loss": 0.123,
      "step": 5300
    },
    {
      "epoch": 0.53,
      "eval_loss": 0.6260350942611694,
      "eval_runtime": 73.8708,
      "eval_samples_per_second": 3.127,
      "eval_steps_per_second": 0.785,
      "step": 5300
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.3010842815739516e-05,
      "loss": 0.1861,
      "step": 5301
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.300293475320681e-05,
      "loss": 0.1498,
      "step": 5302
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.299502689177853e-05,
      "loss": 0.2656,
      "step": 5303
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.2987119232250977e-05,
      "loss": 0.2272,
      "step": 5304
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.297921177542047e-05,
      "loss": 0.248,
      "step": 5305
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.2971304522083278e-05,
      "loss": 0.1469,
      "step": 5306
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.296339747303567e-05,
      "loss": 0.2536,
      "step": 5307
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.295549062907388e-05,
      "loss": 0.3016,
      "step": 5308
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.294758399099412e-05,
      "loss": 0.3177,
      "step": 5309
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.2939677559592605e-05,
      "loss": 0.1907,
      "step": 5310
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.2931771335665493e-05,
      "loss": 0.1367,
      "step": 5311
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.2923865320008963e-05,
      "loss": 0.1936,
      "step": 5312
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.2915959513419124e-05,
      "loss": 0.1825,
      "step": 5313
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.2908053916692117e-05,
      "loss": 0.116,
      "step": 5314
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.290014853062402e-05,
      "loss": 0.1387,
      "step": 5315
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.289224335601091e-05,
      "loss": 0.072,
      "step": 5316
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.2884338393648826e-05,
      "loss": 0.1052,
      "step": 5317
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.2876433644333823e-05,
      "loss": 0.1403,
      "step": 5318
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.2868529108861886e-05,
      "loss": 0.0842,
      "step": 5319
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.2860624788029013e-05,
      "loss": 0.1613,
      "step": 5320
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.2852720682631157e-05,
      "loss": 0.1834,
      "step": 5321
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.284481679346428e-05,
      "loss": 0.117,
      "step": 5322
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.2836913121324287e-05,
      "loss": 0.1581,
      "step": 5323
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.2829009667007088e-05,
      "loss": 0.2617,
      "step": 5324
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.2821106431308544e-05,
      "loss": 0.2325,
      "step": 5325
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.2813203415024537e-05,
      "loss": 0.3334,
      "step": 5326
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.2805300618950878e-05,
      "loss": 0.3614,
      "step": 5327
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.2797398043883395e-05,
      "loss": 0.1724,
      "step": 5328
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.2789495690617857e-05,
      "loss": 0.1985,
      "step": 5329
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.2781593559950052e-05,
      "loss": 0.2152,
      "step": 5330
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.2773691652675712e-05,
      "loss": 0.2019,
      "step": 5331
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.2765789969590563e-05,
      "loss": 0.2323,
      "step": 5332
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.27578885114903e-05,
      "loss": 0.2218,
      "step": 5333
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.2749987279170606e-05,
      "loss": 0.1936,
      "step": 5334
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.2742086273427123e-05,
      "loss": 0.154,
      "step": 5335
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.2734185495055503e-05,
      "loss": 0.1893,
      "step": 5336
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.272628494485133e-05,
      "loss": 0.1196,
      "step": 5337
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.2718384623610212e-05,
      "loss": 0.1365,
      "step": 5338
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.271048453212769e-05,
      "loss": 0.2389,
      "step": 5339
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.2702584671199317e-05,
      "loss": 0.3119,
      "step": 5340
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.2694685041620607e-05,
      "loss": 0.1675,
      "step": 5341
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.268678564418705e-05,
      "loss": 0.1472,
      "step": 5342
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.2678886479694107e-05,
      "loss": 0.1444,
      "step": 5343
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.2670987548937243e-05,
      "loss": 0.2262,
      "step": 5344
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.266308885271186e-05,
      "loss": 0.2219,
      "step": 5345
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.2655190391813374e-05,
      "loss": 0.1194,
      "step": 5346
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.2647292167037144e-05,
      "loss": 0.1805,
      "step": 5347
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.2639394179178533e-05,
      "loss": 0.0703,
      "step": 5348
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.263149642903286e-05,
      "loss": 0.2354,
      "step": 5349
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2623598917395438e-05,
      "loss": 0.1187,
      "step": 5350
    },
    {
      "epoch": 0.54,
      "eval_loss": 0.6421680450439453,
      "eval_runtime": 66.3268,
      "eval_samples_per_second": 3.483,
      "eval_steps_per_second": 0.874,
      "step": 5350
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.261570164506153e-05,
      "loss": 0.0739,
      "step": 5351
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.260780461282641e-05,
      "loss": 0.1134,
      "step": 5352
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2599907821485298e-05,
      "loss": 0.119,
      "step": 5353
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2592011271833405e-05,
      "loss": 0.172,
      "step": 5354
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.25841149646659e-05,
      "loss": 0.1562,
      "step": 5355
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2576218900777965e-05,
      "loss": 0.1449,
      "step": 5356
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2568323080964717e-05,
      "loss": 0.1257,
      "step": 5357
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2560427506021266e-05,
      "loss": 0.1328,
      "step": 5358
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2552532176742693e-05,
      "loss": 0.2308,
      "step": 5359
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2544637093924074e-05,
      "loss": 0.0801,
      "step": 5360
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2536742258360423e-05,
      "loss": 0.1688,
      "step": 5361
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.252884767084677e-05,
      "loss": 0.2311,
      "step": 5362
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2520953332178073e-05,
      "loss": 0.1713,
      "step": 5363
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.251305924314933e-05,
      "loss": 0.2926,
      "step": 5364
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.250516540455543e-05,
      "loss": 0.1538,
      "step": 5365
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2497271817191322e-05,
      "loss": 0.1181,
      "step": 5366
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2489378481851865e-05,
      "loss": 0.1299,
      "step": 5367
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2481485399331935e-05,
      "loss": 0.228,
      "step": 5368
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.247359257042634e-05,
      "loss": 0.1102,
      "step": 5369
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2465699995929916e-05,
      "loss": 0.0323,
      "step": 5370
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2457807676637433e-05,
      "loss": 0.1778,
      "step": 5371
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2449915613343646e-05,
      "loss": 0.0566,
      "step": 5372
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2442023806843283e-05,
      "loss": 0.0908,
      "step": 5373
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2434132257931057e-05,
      "loss": 0.0662,
      "step": 5374
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.242624096740164e-05,
      "loss": 0.0977,
      "step": 5375
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2418349936049692e-05,
      "loss": 0.1195,
      "step": 5376
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2410459164669825e-05,
      "loss": 0.2622,
      "step": 5377
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.240256865405666e-05,
      "loss": 0.257,
      "step": 5378
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2394678405004756e-05,
      "loss": 0.2432,
      "step": 5379
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.238678841830867e-05,
      "loss": 0.1446,
      "step": 5380
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2378898694762903e-05,
      "loss": 0.1382,
      "step": 5381
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2371009235161982e-05,
      "loss": 0.1777,
      "step": 5382
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2363120040300355e-05,
      "loss": 0.1438,
      "step": 5383
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.235523111097247e-05,
      "loss": 0.1519,
      "step": 5384
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2347342447972727e-05,
      "loss": 0.1896,
      "step": 5385
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.233945405209554e-05,
      "loss": 0.0997,
      "step": 5386
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2331565924135252e-05,
      "loss": 0.1461,
      "step": 5387
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.232367806488621e-05,
      "loss": 0.1859,
      "step": 5388
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.23157904751427e-05,
      "loss": 0.2267,
      "step": 5389
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2307903155699027e-05,
      "loss": 0.0653,
      "step": 5390
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.230001610734943e-05,
      "loss": 0.0803,
      "step": 5391
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2292129330888138e-05,
      "loss": 0.0844,
      "step": 5392
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.228424282710935e-05,
      "loss": 0.1747,
      "step": 5393
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2276356596807223e-05,
      "loss": 0.1505,
      "step": 5394
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2268470640775932e-05,
      "loss": 0.1569,
      "step": 5395
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.226058495980955e-05,
      "loss": 0.2401,
      "step": 5396
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2252699554702204e-05,
      "loss": 0.0343,
      "step": 5397
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2244814426247934e-05,
      "loss": 0.1038,
      "step": 5398
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.223692957524078e-05,
      "loss": 0.0604,
      "step": 5399
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.222904500247473e-05,
      "loss": 0.2527,
      "step": 5400
    },
    {
      "epoch": 0.54,
      "eval_loss": 0.6341155171394348,
      "eval_runtime": 66.6619,
      "eval_samples_per_second": 3.465,
      "eval_steps_per_second": 0.87,
      "step": 5400
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.222116070874378e-05,
      "loss": 0.1977,
      "step": 5401
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2213276694841866e-05,
      "loss": 0.2662,
      "step": 5402
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2205392961562922e-05,
      "loss": 0.0559,
      "step": 5403
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2197509509700816e-05,
      "loss": 0.1709,
      "step": 5404
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2189626340049437e-05,
      "loss": 0.2135,
      "step": 5405
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2181743453402607e-05,
      "loss": 0.3105,
      "step": 5406
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2173860850554136e-05,
      "loss": 0.0759,
      "step": 5407
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2165978532297792e-05,
      "loss": 0.2136,
      "step": 5408
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.215809649942734e-05,
      "loss": 0.2009,
      "step": 5409
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2150214752736488e-05,
      "loss": 0.0993,
      "step": 5410
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.214233329301894e-05,
      "loss": 0.2284,
      "step": 5411
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2134452121068335e-05,
      "loss": 0.1592,
      "step": 5412
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.212657123767834e-05,
      "loss": 0.2944,
      "step": 5413
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2118690643642533e-05,
      "loss": 0.3841,
      "step": 5414
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2110810339754506e-05,
      "loss": 0.2289,
      "step": 5415
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2102930326807788e-05,
      "loss": 0.2227,
      "step": 5416
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2095050605595917e-05,
      "loss": 0.1774,
      "step": 5417
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.208717117691237e-05,
      "loss": 0.1215,
      "step": 5418
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2079292041550607e-05,
      "loss": 0.0388,
      "step": 5419
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2071413200304043e-05,
      "loss": 0.3627,
      "step": 5420
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2063534653966105e-05,
      "loss": 0.1192,
      "step": 5421
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.205565640333014e-05,
      "loss": 0.1103,
      "step": 5422
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2047778449189496e-05,
      "loss": 0.2976,
      "step": 5423
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2039900792337474e-05,
      "loss": 0.3433,
      "step": 5424
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2032023433567378e-05,
      "loss": 0.483,
      "step": 5425
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2024146373672424e-05,
      "loss": 0.2601,
      "step": 5426
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2016269613445858e-05,
      "loss": 0.3155,
      "step": 5427
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.200839315368086e-05,
      "loss": 0.0534,
      "step": 5428
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.2000516995170588e-05,
      "loss": 0.2265,
      "step": 5429
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.1992641138708166e-05,
      "loss": 0.3099,
      "step": 5430
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.1984765585086708e-05,
      "loss": 0.1997,
      "step": 5431
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.197689033509927e-05,
      "loss": 0.1922,
      "step": 5432
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.1969015389538896e-05,
      "loss": 0.1742,
      "step": 5433
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.196114074919858e-05,
      "loss": 0.1637,
      "step": 5434
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.195326641487132e-05,
      "loss": 0.2101,
      "step": 5435
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.194539238735004e-05,
      "loss": 0.1957,
      "step": 5436
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.1937518667427668e-05,
      "loss": 0.1277,
      "step": 5437
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.192964525589707e-05,
      "loss": 0.1387,
      "step": 5438
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.1921772153551126e-05,
      "loss": 0.1642,
      "step": 5439
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.1913899361182632e-05,
      "loss": 0.2181,
      "step": 5440
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.1906026879584397e-05,
      "loss": 0.1525,
      "step": 5441
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.189815470954916e-05,
      "loss": 0.1315,
      "step": 5442
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.1890282851869668e-05,
      "loss": 0.1524,
      "step": 5443
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.1882411307338603e-05,
      "loss": 0.1889,
      "step": 5444
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.187454007674864e-05,
      "loss": 0.1275,
      "step": 5445
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.186666916089239e-05,
      "loss": 0.1114,
      "step": 5446
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.1858798560562487e-05,
      "loss": 0.1457,
      "step": 5447
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.1850928276551474e-05,
      "loss": 0.1546,
      "step": 5448
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.1843058309651904e-05,
      "loss": 0.2574,
      "step": 5449
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1835188660656267e-05,
      "loss": 0.1127,
      "step": 5450
    },
    {
      "epoch": 0.55,
      "eval_loss": 0.6417266726493835,
      "eval_runtime": 66.6181,
      "eval_samples_per_second": 3.468,
      "eval_steps_per_second": 0.871,
      "step": 5450
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1827319330357055e-05,
      "loss": 0.1975,
      "step": 5451
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1819450319546693e-05,
      "loss": 0.1132,
      "step": 5452
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.18115816290176e-05,
      "loss": 0.1029,
      "step": 5453
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1803713259562142e-05,
      "loss": 0.0875,
      "step": 5454
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.179584521197268e-05,
      "loss": 0.101,
      "step": 5455
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1787977487041518e-05,
      "loss": 0.1145,
      "step": 5456
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1780110085560935e-05,
      "loss": 0.0946,
      "step": 5457
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.177224300832317e-05,
      "loss": 0.1156,
      "step": 5458
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1764376256120458e-05,
      "loss": 0.3296,
      "step": 5459
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1756509829744956e-05,
      "loss": 0.0482,
      "step": 5460
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1748643729988835e-05,
      "loss": 0.1065,
      "step": 5461
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1740777957644195e-05,
      "loss": 0.1313,
      "step": 5462
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1732912513503136e-05,
      "loss": 0.1284,
      "step": 5463
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.172504739835768e-05,
      "loss": 0.0956,
      "step": 5464
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1717182612999875e-05,
      "loss": 0.2134,
      "step": 5465
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1709318158221684e-05,
      "loss": 0.2134,
      "step": 5466
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1701454034815073e-05,
      "loss": 0.1773,
      "step": 5467
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1693590243571938e-05,
      "loss": 0.2278,
      "step": 5468
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1685726785284187e-05,
      "loss": 0.0972,
      "step": 5469
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.167786366074365e-05,
      "loss": 0.3002,
      "step": 5470
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1670000870742156e-05,
      "loss": 0.1545,
      "step": 5471
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1662138416071475e-05,
      "loss": 0.1959,
      "step": 5472
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1654276297523377e-05,
      "loss": 0.13,
      "step": 5473
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.164641451588956e-05,
      "loss": 0.1438,
      "step": 5474
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1638553071961708e-05,
      "loss": 0.1294,
      "step": 5475
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.163069196653146e-05,
      "loss": 0.2191,
      "step": 5476
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1622831200390452e-05,
      "loss": 0.1944,
      "step": 5477
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.161497077433025e-05,
      "loss": 0.1792,
      "step": 5478
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1607110689142393e-05,
      "loss": 0.1117,
      "step": 5479
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1599250945618402e-05,
      "loss": 0.0957,
      "step": 5480
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.159139154454974e-05,
      "loss": 0.1399,
      "step": 5481
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.158353248672786e-05,
      "loss": 0.1553,
      "step": 5482
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1575673772944165e-05,
      "loss": 0.1377,
      "step": 5483
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.156781540399003e-05,
      "loss": 0.13,
      "step": 5484
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1559957380656782e-05,
      "loss": 0.2162,
      "step": 5485
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.155209970373574e-05,
      "loss": 0.2906,
      "step": 5486
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.154424237401816e-05,
      "loss": 0.283,
      "step": 5487
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.153638539229528e-05,
      "loss": 0.2705,
      "step": 5488
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1528528759358297e-05,
      "loss": 0.1829,
      "step": 5489
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1520672475998373e-05,
      "loss": 0.1635,
      "step": 5490
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1512816543006624e-05,
      "loss": 0.1305,
      "step": 5491
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.150496096117417e-05,
      "loss": 0.0909,
      "step": 5492
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1497105731292043e-05,
      "loss": 0.061,
      "step": 5493
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1489250854151278e-05,
      "loss": 0.0999,
      "step": 5494
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1481396330542847e-05,
      "loss": 0.1271,
      "step": 5495
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1473542161257718e-05,
      "loss": 0.0985,
      "step": 5496
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1465688347086794e-05,
      "loss": 0.1492,
      "step": 5497
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1457834888820958e-05,
      "loss": 0.0939,
      "step": 5498
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1449981787251043e-05,
      "loss": 0.1533,
      "step": 5499
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1442129043167874e-05,
      "loss": 0.0727,
      "step": 5500
    },
    {
      "epoch": 0.55,
      "eval_loss": 0.684328019618988,
      "eval_runtime": 66.3725,
      "eval_samples_per_second": 3.48,
      "eval_steps_per_second": 0.874,
      "step": 5500
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1434276657362213e-05,
      "loss": 0.0634,
      "step": 5501
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.14264246306248e-05,
      "loss": 0.0763,
      "step": 5502
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.141857296374631e-05,
      "loss": 0.0741,
      "step": 5503
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1410721657517442e-05,
      "loss": 0.0379,
      "step": 5504
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.14028707127288e-05,
      "loss": 0.0274,
      "step": 5505
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.139502013017098e-05,
      "loss": 0.093,
      "step": 5506
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1387169910634526e-05,
      "loss": 0.1769,
      "step": 5507
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1379320054909973e-05,
      "loss": 0.12,
      "step": 5508
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1371470563787788e-05,
      "loss": 0.1773,
      "step": 5509
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.136362143805842e-05,
      "loss": 0.2142,
      "step": 5510
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1355772678512266e-05,
      "loss": 0.1832,
      "step": 5511
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1347924285939714e-05,
      "loss": 0.2435,
      "step": 5512
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.134007626113108e-05,
      "loss": 0.2608,
      "step": 5513
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.133222860487667e-05,
      "loss": 0.1119,
      "step": 5514
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1324381317966732e-05,
      "loss": 0.1967,
      "step": 5515
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1316534401191505e-05,
      "loss": 0.1565,
      "step": 5516
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1308687855341157e-05,
      "loss": 0.1698,
      "step": 5517
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1300841681205844e-05,
      "loss": 0.2135,
      "step": 5518
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1292995879575662e-05,
      "loss": 0.2158,
      "step": 5519
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1285150451240713e-05,
      "loss": 0.1507,
      "step": 5520
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1277305396990994e-05,
      "loss": 0.1517,
      "step": 5521
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.126946071761653e-05,
      "loss": 0.2948,
      "step": 5522
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1261616413907265e-05,
      "loss": 0.264,
      "step": 5523
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1253772486653127e-05,
      "loss": 0.6237,
      "step": 5524
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.124592893664399e-05,
      "loss": 0.537,
      "step": 5525
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1238085764669718e-05,
      "loss": 0.3149,
      "step": 5526
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.12302429715201e-05,
      "loss": 0.9752,
      "step": 5527
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1222400557984918e-05,
      "loss": 0.8882,
      "step": 5528
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1214558524853883e-05,
      "loss": 0.3863,
      "step": 5529
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1206716872916714e-05,
      "loss": 0.1232,
      "step": 5530
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1198875602963046e-05,
      "loss": 0.1883,
      "step": 5531
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1191034715782502e-05,
      "loss": 0.1589,
      "step": 5532
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1183194212164654e-05,
      "loss": 0.101,
      "step": 5533
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.117535409289905e-05,
      "loss": 0.2773,
      "step": 5534
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1167514358775183e-05,
      "loss": 0.0373,
      "step": 5535
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.115967501058252e-05,
      "loss": 0.1153,
      "step": 5536
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1151836049110464e-05,
      "loss": 0.1427,
      "step": 5537
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1143997475148425e-05,
      "loss": 0.1701,
      "step": 5538
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.113615928948573e-05,
      "loss": 0.0703,
      "step": 5539
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1128321492911697e-05,
      "loss": 0.0668,
      "step": 5540
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1120484086215565e-05,
      "loss": 0.0886,
      "step": 5541
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1112647070186597e-05,
      "loss": 0.1133,
      "step": 5542
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1104810445613953e-05,
      "loss": 0.0574,
      "step": 5543
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1096974213286803e-05,
      "loss": 0.0415,
      "step": 5544
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1089138373994223e-05,
      "loss": 0.0947,
      "step": 5545
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.108130292852532e-05,
      "loss": 0.0941,
      "step": 5546
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1073467877669096e-05,
      "loss": 0.0626,
      "step": 5547
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.1065633222214554e-05,
      "loss": 0.1672,
      "step": 5548
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.105779896295063e-05,
      "loss": 0.2054,
      "step": 5549
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.104996510066625e-05,
      "loss": 0.1283,
      "step": 5550
    },
    {
      "epoch": 0.56,
      "eval_loss": 0.6676444411277771,
      "eval_runtime": 67.3418,
      "eval_samples_per_second": 3.43,
      "eval_steps_per_second": 0.861,
      "step": 5550
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.1042131636150276e-05,
      "loss": 0.1559,
      "step": 5551
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.1034298570191542e-05,
      "loss": 0.223,
      "step": 5552
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.102646590357882e-05,
      "loss": 0.1431,
      "step": 5553
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.1018633637100892e-05,
      "loss": 0.1738,
      "step": 5554
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.101080177154643e-05,
      "loss": 0.1832,
      "step": 5555
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.1002970307704132e-05,
      "loss": 0.1149,
      "step": 5556
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0995139246362607e-05,
      "loss": 0.1302,
      "step": 5557
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0987308588310457e-05,
      "loss": 0.0909,
      "step": 5558
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.097947833433621e-05,
      "loss": 0.1263,
      "step": 5559
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.09716484852284e-05,
      "loss": 0.0839,
      "step": 5560
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.096381904177547e-05,
      "loss": 0.1198,
      "step": 5561
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0955990004765858e-05,
      "loss": 0.1699,
      "step": 5562
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.094816137498794e-05,
      "loss": 0.2098,
      "step": 5563
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.094033315323005e-05,
      "loss": 0.2487,
      "step": 5564
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.093250534028051e-05,
      "loss": 0.1996,
      "step": 5565
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0924677936927568e-05,
      "loss": 0.1658,
      "step": 5566
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0916850943959452e-05,
      "loss": 0.1549,
      "step": 5567
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.090902436216432e-05,
      "loss": 0.1594,
      "step": 5568
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0901198192330337e-05,
      "loss": 0.1622,
      "step": 5569
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.089337243524558e-05,
      "loss": 0.1688,
      "step": 5570
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0885547091698107e-05,
      "loss": 0.1931,
      "step": 5571
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.087772216247592e-05,
      "loss": 0.2235,
      "step": 5572
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.086989764836701e-05,
      "loss": 0.1286,
      "step": 5573
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0862073550159288e-05,
      "loss": 0.2747,
      "step": 5574
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.085424986864065e-05,
      "loss": 0.207,
      "step": 5575
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0846426604598933e-05,
      "loss": 0.0673,
      "step": 5576
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.083860375882195e-05,
      "loss": 0.1258,
      "step": 5577
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0830781332097446e-05,
      "loss": 0.0212,
      "step": 5578
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0822959325213155e-05,
      "loss": 0.1112,
      "step": 5579
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0815137738956735e-05,
      "loss": 0.2931,
      "step": 5580
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.080731657411585e-05,
      "loss": 0.2481,
      "step": 5581
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.079949583147805e-05,
      "loss": 0.2185,
      "step": 5582
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0791675511830915e-05,
      "loss": 0.373,
      "step": 5583
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.078385561596194e-05,
      "loss": 0.33,
      "step": 5584
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.077603614465859e-05,
      "loss": 0.1439,
      "step": 5585
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.076821709870828e-05,
      "loss": 0.1594,
      "step": 5586
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0760398478898398e-05,
      "loss": 0.2052,
      "step": 5587
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0752580286016267e-05,
      "loss": 0.193,
      "step": 5588
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0744762520849193e-05,
      "loss": 0.1896,
      "step": 5589
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0736945184184405e-05,
      "loss": 0.1907,
      "step": 5590
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0729128276809135e-05,
      "loss": 0.1466,
      "step": 5591
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.072131179951052e-05,
      "loss": 0.1462,
      "step": 5592
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0713495753075696e-05,
      "loss": 0.1396,
      "step": 5593
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.070568013829172e-05,
      "loss": 0.1594,
      "step": 5594
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0697864955945652e-05,
      "loss": 0.1653,
      "step": 5595
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0690050206824456e-05,
      "loss": 0.2312,
      "step": 5596
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0682235891715096e-05,
      "loss": 0.131,
      "step": 5597
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0674422011404448e-05,
      "loss": 0.1839,
      "step": 5598
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.06666085666794e-05,
      "loss": 0.1296,
      "step": 5599
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0658795558326743e-05,
      "loss": 0.163,
      "step": 5600
    },
    {
      "epoch": 0.56,
      "eval_loss": 0.6609147191047668,
      "eval_runtime": 73.6673,
      "eval_samples_per_second": 3.136,
      "eval_steps_per_second": 0.787,
      "step": 5600
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.065098298713326e-05,
      "loss": 0.1375,
      "step": 5601
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.064317085388566e-05,
      "loss": 0.219,
      "step": 5602
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.063535915937065e-05,
      "loss": 0.1932,
      "step": 5603
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0627547904374846e-05,
      "loss": 0.2427,
      "step": 5604
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.061973708968485e-05,
      "loss": 0.1708,
      "step": 5605
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0611926716087203e-05,
      "loss": 0.1758,
      "step": 5606
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0604116784368425e-05,
      "loss": 0.1876,
      "step": 5607
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0596307295314958e-05,
      "loss": 0.2396,
      "step": 5608
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0588498249713233e-05,
      "loss": 0.1369,
      "step": 5609
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0580689648349603e-05,
      "loss": 0.113,
      "step": 5610
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.057288149201042e-05,
      "loss": 0.1682,
      "step": 5611
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0565073781481942e-05,
      "loss": 0.1603,
      "step": 5612
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0557266517550413e-05,
      "loss": 0.1927,
      "step": 5613
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.054945970100202e-05,
      "loss": 0.176,
      "step": 5614
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0541653332622925e-05,
      "loss": 0.1501,
      "step": 5615
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0533847413199204e-05,
      "loss": 0.1386,
      "step": 5616
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0526041943516934e-05,
      "loss": 0.1356,
      "step": 5617
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0518236924362117e-05,
      "loss": 0.1522,
      "step": 5618
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.051043235652072e-05,
      "loss": 0.1856,
      "step": 5619
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0502628240778655e-05,
      "loss": 0.2476,
      "step": 5620
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.049482457792181e-05,
      "loss": 0.2438,
      "step": 5621
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0487021368736003e-05,
      "loss": 0.1655,
      "step": 5622
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0479218614007026e-05,
      "loss": 0.1695,
      "step": 5623
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.04714163145206e-05,
      "loss": 0.1984,
      "step": 5624
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0463614471062435e-05,
      "loss": 0.1109,
      "step": 5625
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0455813084418167e-05,
      "loss": 0.3078,
      "step": 5626
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0448012155373402e-05,
      "loss": 0.1529,
      "step": 5627
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0440211684713677e-05,
      "loss": 0.1418,
      "step": 5628
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0432411673224525e-05,
      "loss": 0.1037,
      "step": 5629
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0424612121691384e-05,
      "loss": 0.1346,
      "step": 5630
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0416813030899684e-05,
      "loss": 0.1942,
      "step": 5631
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0409014401634776e-05,
      "loss": 0.1702,
      "step": 5632
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0401216234681995e-05,
      "loss": 0.1528,
      "step": 5633
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0393418530826616e-05,
      "loss": 0.1739,
      "step": 5634
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.038562129085387e-05,
      "loss": 0.1343,
      "step": 5635
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.037782451554892e-05,
      "loss": 0.0564,
      "step": 5636
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.037002820569693e-05,
      "loss": 0.1955,
      "step": 5637
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.036223236208296e-05,
      "loss": 0.2016,
      "step": 5638
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0354436985492075e-05,
      "loss": 0.1793,
      "step": 5639
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.034664207670925e-05,
      "loss": 0.2753,
      "step": 5640
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0338847636519447e-05,
      "loss": 0.1355,
      "step": 5641
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0331053665707555e-05,
      "loss": 0.0772,
      "step": 5642
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0323260165058437e-05,
      "loss": 0.1049,
      "step": 5643
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.031546713535688e-05,
      "loss": 0.1263,
      "step": 5644
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0307674577387667e-05,
      "loss": 0.1422,
      "step": 5645
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.029988249193549e-05,
      "loss": 0.1847,
      "step": 5646
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0292090879785022e-05,
      "loss": 0.1395,
      "step": 5647
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0284299741720876e-05,
      "loss": 0.2918,
      "step": 5648
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0276509078527607e-05,
      "loss": 0.1432,
      "step": 5649
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.0268718890989753e-05,
      "loss": 0.2195,
      "step": 5650
    },
    {
      "epoch": 0.56,
      "eval_loss": 0.6560461521148682,
      "eval_runtime": 73.5707,
      "eval_samples_per_second": 3.14,
      "eval_steps_per_second": 0.788,
      "step": 5650
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.0260929179891767e-05,
      "loss": 0.2978,
      "step": 5651
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.0253139946018093e-05,
      "loss": 0.1505,
      "step": 5652
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.024535119015309e-05,
      "loss": 0.1881,
      "step": 5653
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.0237562913081097e-05,
      "loss": 0.1953,
      "step": 5654
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.022977511558638e-05,
      "loss": 0.2195,
      "step": 5655
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.022198779845319e-05,
      "loss": 0.1874,
      "step": 5656
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.021420096246569e-05,
      "loss": 0.1095,
      "step": 5657
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.0206414608408027e-05,
      "loss": 0.1396,
      "step": 5658
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.0198628737064272e-05,
      "loss": 0.1244,
      "step": 5659
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.0190843349218485e-05,
      "loss": 0.1788,
      "step": 5660
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.018305844565463e-05,
      "loss": 0.115,
      "step": 5661
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.017527402715667e-05,
      "loss": 0.0955,
      "step": 5662
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.016749009450847e-05,
      "loss": 0.1832,
      "step": 5663
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.0159706648493892e-05,
      "loss": 0.2332,
      "step": 5664
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.0151923689896723e-05,
      "loss": 0.2008,
      "step": 5665
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.0144141219500705e-05,
      "loss": 0.1446,
      "step": 5666
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.0136359238089527e-05,
      "loss": 0.1714,
      "step": 5667
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.0128577746446852e-05,
      "loss": 0.1552,
      "step": 5668
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.012079674535626e-05,
      "loss": 0.148,
      "step": 5669
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.0113016235601302e-05,
      "loss": 0.2358,
      "step": 5670
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.0105236217965467e-05,
      "loss": 0.0903,
      "step": 5671
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.0097456693232223e-05,
      "loss": 0.1527,
      "step": 5672
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.008967766218495e-05,
      "loss": 0.1604,
      "step": 5673
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.0081899125607006e-05,
      "loss": 0.1933,
      "step": 5674
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.0074121084281678e-05,
      "loss": 0.1678,
      "step": 5675
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.0066343538992237e-05,
      "loss": 0.1034,
      "step": 5676
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.0058566490521847e-05,
      "loss": 0.1819,
      "step": 5677
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.005078993965369e-05,
      "loss": 0.2053,
      "step": 5678
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.0043013887170843e-05,
      "loss": 0.04,
      "step": 5679
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.003523833385637e-05,
      "loss": 0.1115,
      "step": 5680
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.002746328049325e-05,
      "loss": 0.1341,
      "step": 5681
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.0019688727864452e-05,
      "loss": 0.18,
      "step": 5682
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.001191467675286e-05,
      "loss": 0.1545,
      "step": 5683
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.0004141127941324e-05,
      "loss": 0.226,
      "step": 5684
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.999636808221263e-05,
      "loss": 0.0493,
      "step": 5685
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9988595540349544e-05,
      "loss": 0.1294,
      "step": 5686
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9980823503134745e-05,
      "loss": 0.0714,
      "step": 5687
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9973051971350888e-05,
      "loss": 0.1705,
      "step": 5688
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9965280945780552e-05,
      "loss": 0.1078,
      "step": 5689
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9957510427206295e-05,
      "loss": 0.124,
      "step": 5690
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.994974041641059e-05,
      "loss": 0.203,
      "step": 5691
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.99419709141759e-05,
      "loss": 0.2498,
      "step": 5692
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9934201921284586e-05,
      "loss": 0.1029,
      "step": 5693
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.992643343851901e-05,
      "loss": 0.2421,
      "step": 5694
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9918665466661446e-05,
      "loss": 0.1662,
      "step": 5695
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9910898006494134e-05,
      "loss": 0.2474,
      "step": 5696
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.990313105879924e-05,
      "loss": 0.2203,
      "step": 5697
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9895364624358923e-05,
      "loss": 0.2252,
      "step": 5698
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9887598703955242e-05,
      "loss": 0.0858,
      "step": 5699
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9879833298370238e-05,
      "loss": 0.1787,
      "step": 5700
    },
    {
      "epoch": 0.57,
      "eval_loss": 0.6701752543449402,
      "eval_runtime": 73.46,
      "eval_samples_per_second": 3.145,
      "eval_steps_per_second": 0.79,
      "step": 5700
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9872068408385868e-05,
      "loss": 0.1863,
      "step": 5701
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9864304034784082e-05,
      "loss": 0.2089,
      "step": 5702
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9856540178346732e-05,
      "loss": 0.2362,
      "step": 5703
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9848776839855654e-05,
      "loss": 0.2042,
      "step": 5704
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.984101402009259e-05,
      "loss": 0.1887,
      "step": 5705
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.983325171983929e-05,
      "loss": 0.2462,
      "step": 5706
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9825489939877393e-05,
      "loss": 0.134,
      "step": 5707
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9817728680988525e-05,
      "loss": 0.1574,
      "step": 5708
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9809967943954223e-05,
      "loss": 0.0413,
      "step": 5709
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.980220772955602e-05,
      "loss": 0.0896,
      "step": 5710
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9794448038575347e-05,
      "loss": 0.1621,
      "step": 5711
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9786688871793623e-05,
      "loss": 0.0854,
      "step": 5712
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9778930229992183e-05,
      "loss": 0.0924,
      "step": 5713
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9771172113952326e-05,
      "loss": 0.2057,
      "step": 5714
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9763414524455285e-05,
      "loss": 0.1727,
      "step": 5715
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.975565746228227e-05,
      "loss": 0.3628,
      "step": 5716
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9747900928214402e-05,
      "loss": 0.1746,
      "step": 5717
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9740144923032773e-05,
      "loss": 0.1233,
      "step": 5718
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.973238944751839e-05,
      "loss": 0.131,
      "step": 5719
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.972463450245226e-05,
      "loss": 0.1844,
      "step": 5720
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9716880088615285e-05,
      "loss": 0.1085,
      "step": 5721
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9709126206788344e-05,
      "loss": 0.2008,
      "step": 5722
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.970137285775224e-05,
      "loss": 0.2181,
      "step": 5723
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.969362004228776e-05,
      "loss": 0.1673,
      "step": 5724
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9685867761175584e-05,
      "loss": 0.2264,
      "step": 5725
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9678116015196385e-05,
      "loss": 0.1783,
      "step": 5726
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.967036480513075e-05,
      "loss": 0.1513,
      "step": 5727
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9662614131759243e-05,
      "loss": 0.1,
      "step": 5728
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.965486399586234e-05,
      "loss": 0.1738,
      "step": 5729
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9647114398220494e-05,
      "loss": 0.0462,
      "step": 5730
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.963936533961407e-05,
      "loss": 0.1467,
      "step": 5731
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.963161682082342e-05,
      "loss": 0.2737,
      "step": 5732
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9623868842628812e-05,
      "loss": 0.125,
      "step": 5733
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9616121405810457e-05,
      "loss": 0.0581,
      "step": 5734
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.960837451114853e-05,
      "loss": 0.0682,
      "step": 5735
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9600628159423137e-05,
      "loss": 0.0579,
      "step": 5736
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9592882351414353e-05,
      "loss": 0.0307,
      "step": 5737
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.958513708790216e-05,
      "loss": 0.039,
      "step": 5738
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9577392369666518e-05,
      "loss": 0.1194,
      "step": 5739
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.956964819748731e-05,
      "loss": 0.187,
      "step": 5740
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9561904572144387e-05,
      "loss": 0.1281,
      "step": 5741
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9554161494417515e-05,
      "loss": 0.1159,
      "step": 5742
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9546418965086442e-05,
      "loss": 0.1475,
      "step": 5743
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9538676984930827e-05,
      "loss": 0.153,
      "step": 5744
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.953093555473029e-05,
      "loss": 0.1256,
      "step": 5745
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9523194675264383e-05,
      "loss": 0.1,
      "step": 5746
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9515454347312637e-05,
      "loss": 0.1893,
      "step": 5747
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.950771457165448e-05,
      "loss": 0.1269,
      "step": 5748
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9499975349069323e-05,
      "loss": 0.2701,
      "step": 5749
    },
    {
      "epoch": 0.57,
      "learning_rate": 1.9492236680336485e-05,
      "loss": 0.1942,
      "step": 5750
    },
    {
      "epoch": 0.57,
      "eval_loss": 0.6416488289833069,
      "eval_runtime": 73.2121,
      "eval_samples_per_second": 3.155,
      "eval_steps_per_second": 0.792,
      "step": 5750
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9484498566235275e-05,
      "loss": 0.2117,
      "step": 5751
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.94767610075449e-05,
      "loss": 0.1526,
      "step": 5752
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.946902400504455e-05,
      "loss": 0.2296,
      "step": 5753
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.946128755951332e-05,
      "loss": 0.2805,
      "step": 5754
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.945355167173029e-05,
      "loss": 0.3134,
      "step": 5755
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9445816342474448e-05,
      "loss": 0.1659,
      "step": 5756
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.943808157252476e-05,
      "loss": 0.1286,
      "step": 5757
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.943034736266009e-05,
      "loss": 0.1888,
      "step": 5758
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9422613713659297e-05,
      "loss": 0.1666,
      "step": 5759
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9414880626301147e-05,
      "loss": 0.0956,
      "step": 5760
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.940714810136437e-05,
      "loss": 0.1222,
      "step": 5761
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9399416139627614e-05,
      "loss": 0.0672,
      "step": 5762
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9391684741869513e-05,
      "loss": 0.09,
      "step": 5763
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9383953908868603e-05,
      "loss": 0.13,
      "step": 5764
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.937622364140338e-05,
      "loss": 0.0972,
      "step": 5765
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9368493940252274e-05,
      "loss": 0.1436,
      "step": 5766
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9360764806193685e-05,
      "loss": 0.1672,
      "step": 5767
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.935303624000592e-05,
      "loss": 0.1131,
      "step": 5768
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9345308242467258e-05,
      "loss": 0.1308,
      "step": 5769
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9337580814355888e-05,
      "loss": 0.229,
      "step": 5770
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9329853956449994e-05,
      "loss": 0.2033,
      "step": 5771
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9322127669527635e-05,
      "loss": 0.3035,
      "step": 5772
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9314401954366874e-05,
      "loss": 0.3125,
      "step": 5773
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9306676811745674e-05,
      "loss": 0.1654,
      "step": 5774
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.929895224244197e-05,
      "loss": 0.1618,
      "step": 5775
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9291228247233605e-05,
      "loss": 0.1773,
      "step": 5776
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9283504826898412e-05,
      "loss": 0.215,
      "step": 5777
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9275781982214124e-05,
      "loss": 0.2169,
      "step": 5778
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9268059713958437e-05,
      "loss": 0.2086,
      "step": 5779
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.926033802290897e-05,
      "loss": 0.1677,
      "step": 5780
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.925261690984332e-05,
      "loss": 0.14,
      "step": 5781
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.924489637553898e-05,
      "loss": 0.2043,
      "step": 5782
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9237176420773426e-05,
      "loss": 0.0667,
      "step": 5783
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9229457046324037e-05,
      "loss": 0.1388,
      "step": 5784
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9221738252968175e-05,
      "loss": 0.2123,
      "step": 5785
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.921402004148311e-05,
      "loss": 0.2616,
      "step": 5786
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.920630241264607e-05,
      "loss": 0.1614,
      "step": 5787
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9198585367234212e-05,
      "loss": 0.1017,
      "step": 5788
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9190868906024657e-05,
      "loss": 0.14,
      "step": 5789
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.918315302979444e-05,
      "loss": 0.217,
      "step": 5790
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.917543773932056e-05,
      "loss": 0.1603,
      "step": 5791
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9167723035379928e-05,
      "loss": 0.1307,
      "step": 5792
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.916000891874944e-05,
      "loss": 0.1508,
      "step": 5793
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9152295390205886e-05,
      "loss": 0.0798,
      "step": 5794
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.914458245052603e-05,
      "loss": 0.1722,
      "step": 5795
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9136870100486555e-05,
      "loss": 0.1013,
      "step": 5796
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9129158340864105e-05,
      "loss": 0.0718,
      "step": 5797
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.912144717243525e-05,
      "loss": 0.1085,
      "step": 5798
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9113736595976507e-05,
      "loss": 0.1057,
      "step": 5799
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9106026612264316e-05,
      "loss": 0.1607,
      "step": 5800
    },
    {
      "epoch": 0.58,
      "eval_loss": 0.653928279876709,
      "eval_runtime": 73.1596,
      "eval_samples_per_second": 3.157,
      "eval_steps_per_second": 0.793,
      "step": 5800
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9098317222075098e-05,
      "loss": 0.1417,
      "step": 5801
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9090608426185164e-05,
      "loss": 0.1347,
      "step": 5802
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9082900225370808e-05,
      "loss": 0.0958,
      "step": 5803
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.907519262040823e-05,
      "loss": 0.1282,
      "step": 5804
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9067485612073603e-05,
      "loss": 0.175,
      "step": 5805
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9059779201142996e-05,
      "loss": 0.0763,
      "step": 5806
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9052073388392473e-05,
      "loss": 0.1544,
      "step": 5807
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9044368174597996e-05,
      "loss": 0.1911,
      "step": 5808
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9036663560535483e-05,
      "loss": 0.1352,
      "step": 5809
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9028959546980777e-05,
      "loss": 0.2681,
      "step": 5810
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.902125613470969e-05,
      "loss": 0.1529,
      "step": 5811
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.901355332449794e-05,
      "loss": 0.105,
      "step": 5812
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.9005851117121214e-05,
      "loss": 0.1172,
      "step": 5813
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.8998149513355106e-05,
      "loss": 0.2027,
      "step": 5814
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.899044851397519e-05,
      "loss": 0.0931,
      "step": 5815
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.898274811975694e-05,
      "loss": 0.0331,
      "step": 5816
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.8975048331475788e-05,
      "loss": 0.1885,
      "step": 5817
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.89673491499071e-05,
      "loss": 0.0287,
      "step": 5818
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.8959650575826195e-05,
      "loss": 0.1037,
      "step": 5819
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.895195261000831e-05,
      "loss": 0.0708,
      "step": 5820
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.8944255253228632e-05,
      "loss": 0.0906,
      "step": 5821
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.8936558506262285e-05,
      "loss": 0.1242,
      "step": 5822
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.892886236988432e-05,
      "loss": 0.2612,
      "step": 5823
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.8921166844869762e-05,
      "loss": 0.2555,
      "step": 5824
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.891347193199353e-05,
      "loss": 0.1767,
      "step": 5825
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.8905777632030515e-05,
      "loss": 0.1131,
      "step": 5826
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.889808394575551e-05,
      "loss": 0.15,
      "step": 5827
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.8890390873943296e-05,
      "loss": 0.1714,
      "step": 5828
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.8882698417368552e-05,
      "loss": 0.136,
      "step": 5829
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.8875006576805914e-05,
      "loss": 0.1384,
      "step": 5830
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.8867315353029935e-05,
      "loss": 0.1737,
      "step": 5831
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.885962474681515e-05,
      "loss": 0.1021,
      "step": 5832
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.8851934758935965e-05,
      "loss": 0.1338,
      "step": 5833
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.8844245390166796e-05,
      "loss": 0.1512,
      "step": 5834
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.883655664128194e-05,
      "loss": 0.174,
      "step": 5835
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.882886851305567e-05,
      "loss": 0.0566,
      "step": 5836
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.8821181006262155e-05,
      "loss": 0.0662,
      "step": 5837
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.8813494121675564e-05,
      "loss": 0.0944,
      "step": 5838
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.880580786006993e-05,
      "loss": 0.1208,
      "step": 5839
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.879812222221929e-05,
      "loss": 0.1153,
      "step": 5840
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.8790437208897556e-05,
      "loss": 0.1674,
      "step": 5841
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.8782752820878634e-05,
      "loss": 0.1757,
      "step": 5842
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.877506905893633e-05,
      "loss": 0.0583,
      "step": 5843
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.8767385923844407e-05,
      "loss": 0.096,
      "step": 5844
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.8759703416376542e-05,
      "loss": 0.0571,
      "step": 5845
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.875202153730638e-05,
      "loss": 0.2746,
      "step": 5846
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.8744340287407473e-05,
      "loss": 0.1815,
      "step": 5847
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.8736659667453337e-05,
      "loss": 0.2267,
      "step": 5848
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.8728979678217386e-05,
      "loss": 0.061,
      "step": 5849
    },
    {
      "epoch": 0.58,
      "learning_rate": 1.872130032047302e-05,
      "loss": 0.1739,
      "step": 5850
    },
    {
      "epoch": 0.58,
      "eval_loss": 0.6458953022956848,
      "eval_runtime": 73.1392,
      "eval_samples_per_second": 3.158,
      "eval_steps_per_second": 0.793,
      "step": 5850
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.871362159499354e-05,
      "loss": 0.1669,
      "step": 5851
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8705943502552197e-05,
      "loss": 0.2937,
      "step": 5852
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.869826604392216e-05,
      "loss": 0.0873,
      "step": 5853
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.869058921987657e-05,
      "loss": 0.1812,
      "step": 5854
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8682913031188464e-05,
      "loss": 0.1361,
      "step": 5855
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8675237478630853e-05,
      "loss": 0.1089,
      "step": 5856
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8667562562976644e-05,
      "loss": 0.22,
      "step": 5857
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.865988828499872e-05,
      "loss": 0.155,
      "step": 5858
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.865221464546987e-05,
      "loss": 0.2851,
      "step": 5859
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8644541645162834e-05,
      "loss": 0.3357,
      "step": 5860
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8636869284850268e-05,
      "loss": 0.2135,
      "step": 5861
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8629197565304805e-05,
      "loss": 0.1723,
      "step": 5862
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8621526487298965e-05,
      "loss": 0.182,
      "step": 5863
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8613856051605243e-05,
      "loss": 0.0949,
      "step": 5864
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8606186258996027e-05,
      "loss": 0.0375,
      "step": 5865
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8598517110243698e-05,
      "loss": 0.343,
      "step": 5866
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8590848606120503e-05,
      "loss": 0.1308,
      "step": 5867
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8583180747398688e-05,
      "loss": 0.1239,
      "step": 5868
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.857551353485039e-05,
      "loss": 0.2647,
      "step": 5869
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8567846969247714e-05,
      "loss": 0.2855,
      "step": 5870
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.856018105136266e-05,
      "loss": 0.3968,
      "step": 5871
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8552515781967207e-05,
      "loss": 0.2211,
      "step": 5872
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8544851161833233e-05,
      "loss": 0.249,
      "step": 5873
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8537187191732576e-05,
      "loss": 0.0282,
      "step": 5874
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.852952387243698e-05,
      "loss": 0.2634,
      "step": 5875
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8521861204718166e-05,
      "loss": 0.2491,
      "step": 5876
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.851419918934774e-05,
      "loss": 0.1439,
      "step": 5877
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8506537827097293e-05,
      "loss": 0.1622,
      "step": 5878
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8498877118738295e-05,
      "loss": 0.1196,
      "step": 5879
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.84912170650422e-05,
      "loss": 0.1693,
      "step": 5880
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8483557666780365e-05,
      "loss": 0.1887,
      "step": 5881
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.84758989247241e-05,
      "loss": 0.1697,
      "step": 5882
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8468240839644628e-05,
      "loss": 0.0976,
      "step": 5883
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8460583412313132e-05,
      "loss": 0.1252,
      "step": 5884
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.84529266435007e-05,
      "loss": 0.1787,
      "step": 5885
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8445270533978388e-05,
      "loss": 0.1624,
      "step": 5886
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8437615084517136e-05,
      "loss": 0.1353,
      "step": 5887
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.842996029588788e-05,
      "loss": 0.1195,
      "step": 5888
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8422306168861437e-05,
      "loss": 0.1507,
      "step": 5889
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8414652704208583e-05,
      "loss": 0.1907,
      "step": 5890
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8406999902700016e-05,
      "loss": 0.0876,
      "step": 5891
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.839934776510639e-05,
      "loss": 0.1194,
      "step": 5892
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8391696292198257e-05,
      "loss": 0.1154,
      "step": 5893
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8384045484746133e-05,
      "loss": 0.1184,
      "step": 5894
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8376395343520434e-05,
      "loss": 0.2026,
      "step": 5895
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.836874586929156e-05,
      "loss": 0.1043,
      "step": 5896
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8361097062829778e-05,
      "loss": 0.1714,
      "step": 5897
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8353448924905352e-05,
      "loss": 0.1093,
      "step": 5898
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8345801456288435e-05,
      "loss": 0.0944,
      "step": 5899
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8338154657749128e-05,
      "loss": 0.0814,
      "step": 5900
    },
    {
      "epoch": 0.59,
      "eval_loss": 0.6553686261177063,
      "eval_runtime": 73.1056,
      "eval_samples_per_second": 3.16,
      "eval_steps_per_second": 0.793,
      "step": 5900
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8330508530057462e-05,
      "loss": 0.097,
      "step": 5901
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.832286307398341e-05,
      "loss": 0.0909,
      "step": 5902
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.831521829029686e-05,
      "loss": 0.0884,
      "step": 5903
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8307574179767652e-05,
      "loss": 0.0965,
      "step": 5904
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8299930743165535e-05,
      "loss": 0.2409,
      "step": 5905
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8292287981260204e-05,
      "loss": 0.0415,
      "step": 5906
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8284645894821297e-05,
      "loss": 0.1129,
      "step": 5907
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.827700448461836e-05,
      "loss": 0.1393,
      "step": 5908
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8269363751420895e-05,
      "loss": 0.0951,
      "step": 5909
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8261723695998307e-05,
      "loss": 0.0973,
      "step": 5910
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8254084319119963e-05,
      "loss": 0.1944,
      "step": 5911
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.824644562155514e-05,
      "loss": 0.17,
      "step": 5912
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8238807604073067e-05,
      "loss": 0.1657,
      "step": 5913
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.823117026744287e-05,
      "loss": 0.1806,
      "step": 5914
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8223533612433653e-05,
      "loss": 0.0893,
      "step": 5915
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8215897639814412e-05,
      "loss": 0.2496,
      "step": 5916
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8208262350354093e-05,
      "loss": 0.1246,
      "step": 5917
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8200627744821563e-05,
      "loss": 0.1811,
      "step": 5918
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8192993823985643e-05,
      "loss": 0.1103,
      "step": 5919
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8185360588615058e-05,
      "loss": 0.1287,
      "step": 5920
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8177728039478475e-05,
      "loss": 0.1158,
      "step": 5921
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.817009617734448e-05,
      "loss": 0.1906,
      "step": 5922
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8162465002981626e-05,
      "loss": 0.1774,
      "step": 5923
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8154834517158355e-05,
      "loss": 0.1434,
      "step": 5924
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8147204720643067e-05,
      "loss": 0.0898,
      "step": 5925
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8139575614204064e-05,
      "loss": 0.1076,
      "step": 5926
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8131947198609623e-05,
      "loss": 0.1358,
      "step": 5927
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8124319474627896e-05,
      "loss": 0.1338,
      "step": 5928
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8116692443027024e-05,
      "loss": 0.1324,
      "step": 5929
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8109066104575023e-05,
      "loss": 0.1489,
      "step": 5930
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8101440460039886e-05,
      "loss": 0.182,
      "step": 5931
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8093815510189493e-05,
      "loss": 0.2787,
      "step": 5932
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8086191255791704e-05,
      "loss": 0.222,
      "step": 5933
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8078567697614258e-05,
      "loss": 0.2113,
      "step": 5934
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8070944836424863e-05,
      "loss": 0.1403,
      "step": 5935
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.806332267299112e-05,
      "loss": 0.1381,
      "step": 5936
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8055701208080606e-05,
      "loss": 0.1205,
      "step": 5937
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8048080442460785e-05,
      "loss": 0.0472,
      "step": 5938
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8040460376899075e-05,
      "loss": 0.0636,
      "step": 5939
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.803284101216281e-05,
      "loss": 0.1088,
      "step": 5940
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.802522234901927e-05,
      "loss": 0.1099,
      "step": 5941
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8017604388235647e-05,
      "loss": 0.1493,
      "step": 5942
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8009987130579077e-05,
      "loss": 0.1038,
      "step": 5943
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.8002370576816596e-05,
      "loss": 0.0872,
      "step": 5944
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.7994754727715224e-05,
      "loss": 0.151,
      "step": 5945
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.7987139584041847e-05,
      "loss": 0.0747,
      "step": 5946
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.7979525146563332e-05,
      "loss": 0.0453,
      "step": 5947
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.797191141604643e-05,
      "loss": 0.062,
      "step": 5948
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.7964298393257866e-05,
      "loss": 0.0735,
      "step": 5949
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.795668607896426e-05,
      "loss": 0.0412,
      "step": 5950
    },
    {
      "epoch": 0.59,
      "eval_loss": 0.6775067448616028,
      "eval_runtime": 66.0436,
      "eval_samples_per_second": 3.498,
      "eval_steps_per_second": 0.878,
      "step": 5950
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7949074473932176e-05,
      "loss": 0.0341,
      "step": 5951
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7941463578928086e-05,
      "loss": 0.114,
      "step": 5952
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7933853394718437e-05,
      "loss": 0.1326,
      "step": 5953
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7926243922069545e-05,
      "loss": 0.1215,
      "step": 5954
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7918635161747708e-05,
      "loss": 0.1566,
      "step": 5955
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.79110271145191e-05,
      "loss": 0.1532,
      "step": 5956
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7903419781149885e-05,
      "loss": 0.1847,
      "step": 5957
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7895813162406094e-05,
      "loss": 0.2272,
      "step": 5958
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.788820725905373e-05,
      "loss": 0.1874,
      "step": 5959
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7880602071858692e-05,
      "loss": 0.0691,
      "step": 5960
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7872997601586843e-05,
      "loss": 0.1865,
      "step": 5961
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7865393849003926e-05,
      "loss": 0.1649,
      "step": 5962
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7857790814875663e-05,
      "loss": 0.1188,
      "step": 5963
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.785018849996767e-05,
      "loss": 0.1615,
      "step": 5964
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7842586905045494e-05,
      "loss": 0.1949,
      "step": 5965
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7834986030874618e-05,
      "loss": 0.1405,
      "step": 5966
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.782738587822046e-05,
      "loss": 0.1609,
      "step": 5967
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7819786447848346e-05,
      "loss": 0.254,
      "step": 5968
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.781218774052354e-05,
      "loss": 0.215,
      "step": 5969
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7804589757011226e-05,
      "loss": 0.6231,
      "step": 5970
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7796992498076536e-05,
      "loss": 0.4456,
      "step": 5971
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7789395964484497e-05,
      "loss": 0.3149,
      "step": 5972
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7781800157000094e-05,
      "loss": 1.1008,
      "step": 5973
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7774205076388206e-05,
      "loss": 0.6658,
      "step": 5974
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7766610723413684e-05,
      "loss": 0.3575,
      "step": 5975
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7759017098841254e-05,
      "loss": 0.102,
      "step": 5976
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7751424203435613e-05,
      "loss": 0.1638,
      "step": 5977
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7743832037961345e-05,
      "loss": 0.1468,
      "step": 5978
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7736240603182998e-05,
      "loss": 0.0997,
      "step": 5979
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7728649899865024e-05,
      "loss": 0.2318,
      "step": 5980
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.772105992877181e-05,
      "loss": 0.0223,
      "step": 5981
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.771347069066765e-05,
      "loss": 0.0962,
      "step": 5982
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7705882186316803e-05,
      "loss": 0.1317,
      "step": 5983
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7698294416483413e-05,
      "loss": 0.1358,
      "step": 5984
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7690707381931583e-05,
      "loss": 0.0666,
      "step": 5985
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.768312108342531e-05,
      "loss": 0.0617,
      "step": 5986
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7675535521728554e-05,
      "loss": 0.0688,
      "step": 5987
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7667950697605166e-05,
      "loss": 0.0857,
      "step": 5988
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7660366611818947e-05,
      "loss": 0.0336,
      "step": 5989
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7652783265133606e-05,
      "loss": 0.0331,
      "step": 5990
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.764520065831279e-05,
      "loss": 0.1037,
      "step": 5991
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7637618792120063e-05,
      "loss": 0.0907,
      "step": 5992
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.763003766731892e-05,
      "loss": 0.045,
      "step": 5993
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.762245728467279e-05,
      "loss": 0.1374,
      "step": 5994
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7614877644945e-05,
      "loss": 0.1685,
      "step": 5995
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7607298748898842e-05,
      "loss": 0.1345,
      "step": 5996
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.759972059729748e-05,
      "loss": 0.1697,
      "step": 5997
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7592143190904067e-05,
      "loss": 0.2019,
      "step": 5998
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7584566530481625e-05,
      "loss": 0.1354,
      "step": 5999
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7576990616793137e-05,
      "loss": 0.1451,
      "step": 6000
    },
    {
      "epoch": 0.6,
      "eval_loss": 0.6640515327453613,
      "eval_runtime": 66.1128,
      "eval_samples_per_second": 3.494,
      "eval_steps_per_second": 0.877,
      "step": 6000
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.756941545060148e-05,
      "loss": 0.1671,
      "step": 6001
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.756184103266949e-05,
      "loss": 0.1023,
      "step": 6002
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.75542673637599e-05,
      "loss": 0.1218,
      "step": 6003
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7546694444635393e-05,
      "loss": 0.1045,
      "step": 6004
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.753912227605854e-05,
      "loss": 0.1097,
      "step": 6005
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.753155085879188e-05,
      "loss": 0.0741,
      "step": 6006
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7523980193597836e-05,
      "loss": 0.0986,
      "step": 6007
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.751641028123879e-05,
      "loss": 0.161,
      "step": 6008
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.750884112247701e-05,
      "loss": 0.2017,
      "step": 6009
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7501272718074737e-05,
      "loss": 0.2303,
      "step": 6010
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7493705068794093e-05,
      "loss": 0.1906,
      "step": 6011
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7486138175397144e-05,
      "loss": 0.1651,
      "step": 6012
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7478572038645867e-05,
      "loss": 0.1435,
      "step": 6013
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.747100665930219e-05,
      "loss": 0.1323,
      "step": 6014
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7463442038127932e-05,
      "loss": 0.1225,
      "step": 6015
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.745587817588486e-05,
      "loss": 0.1426,
      "step": 6016
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7448315073334637e-05,
      "loss": 0.1801,
      "step": 6017
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.744075273123889e-05,
      "loss": 0.2133,
      "step": 6018
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7433191150359132e-05,
      "loss": 0.129,
      "step": 6019
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.742563033145682e-05,
      "loss": 0.2345,
      "step": 6020
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.741807027529332e-05,
      "loss": 0.1999,
      "step": 6021
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7410510982629952e-05,
      "loss": 0.079,
      "step": 6022
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7402952454227904e-05,
      "loss": 0.1339,
      "step": 6023
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7395394690848342e-05,
      "loss": 0.0191,
      "step": 6024
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7387837693252328e-05,
      "loss": 0.1095,
      "step": 6025
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7380281462200853e-05,
      "loss": 0.2572,
      "step": 6026
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7372725998454814e-05,
      "loss": 0.2307,
      "step": 6027
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.736517130277507e-05,
      "loss": 0.2037,
      "step": 6028
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.735761737592236e-05,
      "loss": 0.3504,
      "step": 6029
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.735006421865738e-05,
      "loss": 0.3247,
      "step": 6030
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.734251183174071e-05,
      "loss": 0.13,
      "step": 6031
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.73349602159329e-05,
      "loss": 0.1579,
      "step": 6032
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7327409371994384e-05,
      "loss": 0.1799,
      "step": 6033
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7319859300685537e-05,
      "loss": 0.189,
      "step": 6034
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7312310002766634e-05,
      "loss": 0.1877,
      "step": 6035
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7304761478997922e-05,
      "loss": 0.1929,
      "step": 6036
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7297213730139507e-05,
      "loss": 0.1376,
      "step": 6037
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7289666756951466e-05,
      "loss": 0.1474,
      "step": 6038
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7282120560193764e-05,
      "loss": 0.1332,
      "step": 6039
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7274575140626318e-05,
      "loss": 0.1439,
      "step": 6040
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7267030499008937e-05,
      "loss": 0.1394,
      "step": 6041
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.725948663610138e-05,
      "loss": 0.2212,
      "step": 6042
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7251943552663297e-05,
      "loss": 0.1156,
      "step": 6043
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7244401249454296e-05,
      "loss": 0.1568,
      "step": 6044
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.723685972723387e-05,
      "loss": 0.1167,
      "step": 6045
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7229318986761468e-05,
      "loss": 0.1523,
      "step": 6046
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.722177902879642e-05,
      "loss": 0.1427,
      "step": 6047
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7214239854098017e-05,
      "loss": 0.1924,
      "step": 6048
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7206701463425446e-05,
      "loss": 0.1853,
      "step": 6049
    },
    {
      "epoch": 0.6,
      "learning_rate": 1.7199163857537825e-05,
      "loss": 0.2089,
      "step": 6050
    },
    {
      "epoch": 0.6,
      "eval_loss": 0.67817622423172,
      "eval_runtime": 66.8585,
      "eval_samples_per_second": 3.455,
      "eval_steps_per_second": 0.868,
      "step": 6050
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.7191627037194186e-05,
      "loss": 0.1521,
      "step": 6051
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.7184091003153503e-05,
      "loss": 0.1769,
      "step": 6052
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.7176555756174624e-05,
      "loss": 0.1685,
      "step": 6053
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.716902129701638e-05,
      "loss": 0.2017,
      "step": 6054
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.7161487626437473e-05,
      "loss": 0.1137,
      "step": 6055
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.7153954745196547e-05,
      "loss": 0.1016,
      "step": 6056
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.7146422654052156e-05,
      "loss": 0.1774,
      "step": 6057
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.7138891353762804e-05,
      "loss": 0.1389,
      "step": 6058
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.713136084508687e-05,
      "loss": 0.1752,
      "step": 6059
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.7123831128782684e-05,
      "loss": 0.1556,
      "step": 6060
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.7116302205608482e-05,
      "loss": 0.1362,
      "step": 6061
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.7108774076322443e-05,
      "loss": 0.1266,
      "step": 6062
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.7101246741682632e-05,
      "loss": 0.1265,
      "step": 6063
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.709372020244706e-05,
      "loss": 0.1401,
      "step": 6064
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.7086194459373638e-05,
      "loss": 0.1512,
      "step": 6065
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.707866951322023e-05,
      "loss": 0.2227,
      "step": 6066
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.707114536474458e-05,
      "loss": 0.231,
      "step": 6067
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.706362201470438e-05,
      "loss": 0.1544,
      "step": 6068
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.7056099463857215e-05,
      "loss": 0.1674,
      "step": 6069
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.7048577712960627e-05,
      "loss": 0.1782,
      "step": 6070
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.7041056762772042e-05,
      "loss": 0.1183,
      "step": 6071
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.7033536614048828e-05,
      "loss": 0.2751,
      "step": 6072
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.702601726754825e-05,
      "loss": 0.1474,
      "step": 6073
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.701849872402752e-05,
      "loss": 0.1374,
      "step": 6074
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.7010980984243756e-05,
      "loss": 0.0938,
      "step": 6075
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.700346404895398e-05,
      "loss": 0.1284,
      "step": 6076
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.699594791891516e-05,
      "loss": 0.1709,
      "step": 6077
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6988432594884157e-05,
      "loss": 0.161,
      "step": 6078
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.698091807761778e-05,
      "loss": 0.136,
      "step": 6079
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.697340436787273e-05,
      "loss": 0.1724,
      "step": 6080
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6965891466405646e-05,
      "loss": 0.1186,
      "step": 6081
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6958379373973062e-05,
      "loss": 0.0556,
      "step": 6082
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.695086809133147e-05,
      "loss": 0.1875,
      "step": 6083
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6943357619237226e-05,
      "loss": 0.187,
      "step": 6084
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6935847958446657e-05,
      "loss": 0.1573,
      "step": 6085
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6928339109715973e-05,
      "loss": 0.2465,
      "step": 6086
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.692083107380133e-05,
      "loss": 0.1163,
      "step": 6087
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.691332385145876e-05,
      "loss": 0.0717,
      "step": 6088
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6905817443444272e-05,
      "loss": 0.0992,
      "step": 6089
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6898311850513738e-05,
      "loss": 0.1259,
      "step": 6090
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6890807073422988e-05,
      "loss": 0.1201,
      "step": 6091
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.688330311292773e-05,
      "loss": 0.1723,
      "step": 6092
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6875799969783633e-05,
      "loss": 0.1365,
      "step": 6093
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6868297644746257e-05,
      "loss": 0.2623,
      "step": 6094
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.686079613857109e-05,
      "loss": 0.1308,
      "step": 6095
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6853295452013518e-05,
      "loss": 0.2126,
      "step": 6096
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6845795585828885e-05,
      "loss": 0.2942,
      "step": 6097
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6838296540772403e-05,
      "loss": 0.1421,
      "step": 6098
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6830798317599245e-05,
      "loss": 0.1748,
      "step": 6099
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.682330091706446e-05,
      "loss": 0.1621,
      "step": 6100
    },
    {
      "epoch": 0.61,
      "eval_loss": 0.6721746325492859,
      "eval_runtime": 65.1165,
      "eval_samples_per_second": 3.547,
      "eval_steps_per_second": 0.891,
      "step": 6100
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6815804339923056e-05,
      "loss": 0.206,
      "step": 6101
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6808308586929934e-05,
      "loss": 0.1602,
      "step": 6102
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6800813658839915e-05,
      "loss": 0.1258,
      "step": 6103
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6793319556407723e-05,
      "loss": 0.1326,
      "step": 6104
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.678582628038804e-05,
      "loss": 0.1231,
      "step": 6105
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.677833383153542e-05,
      "loss": 0.1766,
      "step": 6106
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6770842210604365e-05,
      "loss": 0.1179,
      "step": 6107
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.676335141834926e-05,
      "loss": 0.087,
      "step": 6108
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6755861455524456e-05,
      "loss": 0.188,
      "step": 6109
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.674837232288417e-05,
      "loss": 0.2104,
      "step": 6110
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6740884021182573e-05,
      "loss": 0.1968,
      "step": 6111
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6733396551173718e-05,
      "loss": 0.1378,
      "step": 6112
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6725909913611614e-05,
      "loss": 0.153,
      "step": 6113
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.671842410925015e-05,
      "loss": 0.1329,
      "step": 6114
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6710939138843157e-05,
      "loss": 0.1273,
      "step": 6115
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.670345500314436e-05,
      "loss": 0.2323,
      "step": 6116
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6695971702907426e-05,
      "loss": 0.0924,
      "step": 6117
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6688489238885898e-05,
      "loss": 0.1271,
      "step": 6118
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.668100761183329e-05,
      "loss": 0.1427,
      "step": 6119
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.667352682250298e-05,
      "loss": 0.1885,
      "step": 6120
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6666046871648303e-05,
      "loss": 0.1574,
      "step": 6121
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.665856776002246e-05,
      "loss": 0.0934,
      "step": 6122
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.665108948837863e-05,
      "loss": 0.1639,
      "step": 6123
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6643612057469854e-05,
      "loss": 0.1649,
      "step": 6124
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6636135468049123e-05,
      "loss": 0.0247,
      "step": 6125
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6628659720869304e-05,
      "loss": 0.1067,
      "step": 6126
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6621184816683237e-05,
      "loss": 0.1226,
      "step": 6127
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6613710756243626e-05,
      "loss": 0.1643,
      "step": 6128
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6606237540303115e-05,
      "loss": 0.1465,
      "step": 6129
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6598765169614243e-05,
      "loss": 0.204,
      "step": 6130
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6591293644929503e-05,
      "loss": 0.0529,
      "step": 6131
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6583822967001255e-05,
      "loss": 0.1233,
      "step": 6132
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.657635313658181e-05,
      "loss": 0.0695,
      "step": 6133
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6568884154423362e-05,
      "loss": 0.1596,
      "step": 6134
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6561416021278058e-05,
      "loss": 0.0996,
      "step": 6135
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6553948737897928e-05,
      "loss": 0.1054,
      "step": 6136
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6546482305034934e-05,
      "loss": 0.2001,
      "step": 6137
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6539016723440926e-05,
      "loss": 0.24,
      "step": 6138
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6531551993867717e-05,
      "loss": 0.1002,
      "step": 6139
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6524088117066984e-05,
      "loss": 0.2237,
      "step": 6140
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.651662509379035e-05,
      "loss": 0.1751,
      "step": 6141
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.650916292478933e-05,
      "loss": 0.2147,
      "step": 6142
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6501701610815378e-05,
      "loss": 0.1933,
      "step": 6143
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6494241152619834e-05,
      "loss": 0.2239,
      "step": 6144
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6486781550953984e-05,
      "loss": 0.0827,
      "step": 6145
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6479322806568987e-05,
      "loss": 0.1399,
      "step": 6146
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6471864920215963e-05,
      "loss": 0.1464,
      "step": 6147
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6464407892645895e-05,
      "loss": 0.1642,
      "step": 6148
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6456951724609725e-05,
      "loss": 0.205,
      "step": 6149
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.6449496416858284e-05,
      "loss": 0.165,
      "step": 6150
    },
    {
      "epoch": 0.61,
      "eval_loss": 0.6781531572341919,
      "eval_runtime": 66.6952,
      "eval_samples_per_second": 3.464,
      "eval_steps_per_second": 0.87,
      "step": 6150
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.644204197014232e-05,
      "loss": 0.1923,
      "step": 6151
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.643458838521249e-05,
      "loss": 0.2233,
      "step": 6152
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.642713566281938e-05,
      "loss": 0.1073,
      "step": 6153
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.641968380371347e-05,
      "loss": 0.1282,
      "step": 6154
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6412232808645173e-05,
      "loss": 0.0413,
      "step": 6155
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6404782678364788e-05,
      "loss": 0.0757,
      "step": 6156
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6397333413622563e-05,
      "loss": 0.1314,
      "step": 6157
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6389885015168618e-05,
      "loss": 0.0811,
      "step": 6158
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6382437483753027e-05,
      "loss": 0.0899,
      "step": 6159
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.637499082012574e-05,
      "loss": 0.1925,
      "step": 6160
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6367545025036636e-05,
      "loss": 0.1589,
      "step": 6161
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.636010009923552e-05,
      "loss": 0.3176,
      "step": 6162
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6352656043472082e-05,
      "loss": 0.1741,
      "step": 6163
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.634521285849595e-05,
      "loss": 0.1239,
      "step": 6164
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6337770545056634e-05,
      "loss": 0.1136,
      "step": 6165
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.63303291039036e-05,
      "loss": 0.1917,
      "step": 6166
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.632288853578618e-05,
      "loss": 0.0968,
      "step": 6167
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6315448841453657e-05,
      "loss": 0.1764,
      "step": 6168
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6308010021655184e-05,
      "loss": 0.199,
      "step": 6169
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6300572077139874e-05,
      "loss": 0.1452,
      "step": 6170
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6293135008656715e-05,
      "loss": 0.1905,
      "step": 6171
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6285698816954624e-05,
      "loss": 0.1516,
      "step": 6172
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.627826350278242e-05,
      "loss": 0.1454,
      "step": 6173
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6270829066888846e-05,
      "loss": 0.0794,
      "step": 6174
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6263395510022543e-05,
      "loss": 0.1639,
      "step": 6175
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6255962832932082e-05,
      "loss": 0.0464,
      "step": 6176
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6248531036365906e-05,
      "loss": 0.1323,
      "step": 6177
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.624110012107244e-05,
      "loss": 0.2361,
      "step": 6178
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.623367008779993e-05,
      "loss": 0.1118,
      "step": 6179
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6226240937296617e-05,
      "loss": 0.0462,
      "step": 6180
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6218812670310593e-05,
      "loss": 0.0764,
      "step": 6181
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.62113852875899e-05,
      "loss": 0.0618,
      "step": 6182
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6203958789882456e-05,
      "loss": 0.0279,
      "step": 6183
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6196533177936133e-05,
      "loss": 0.0352,
      "step": 6184
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.618910845249867e-05,
      "loss": 0.1061,
      "step": 6185
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6181684614317754e-05,
      "loss": 0.1808,
      "step": 6186
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6174261664140945e-05,
      "loss": 0.1107,
      "step": 6187
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6166839602715756e-05,
      "loss": 0.1074,
      "step": 6188
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.615941843078957e-05,
      "loss": 0.144,
      "step": 6189
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.615199814910971e-05,
      "loss": 0.1097,
      "step": 6190
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6144578758423385e-05,
      "loss": 0.0942,
      "step": 6191
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6137160259477748e-05,
      "loss": 0.1065,
      "step": 6192
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6129742653019824e-05,
      "loss": 0.1689,
      "step": 6193
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.612232593979658e-05,
      "loss": 0.1209,
      "step": 6194
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.611491012055486e-05,
      "loss": 0.2449,
      "step": 6195
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6107495196041457e-05,
      "loss": 0.1772,
      "step": 6196
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.610008116700304e-05,
      "loss": 0.1997,
      "step": 6197
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6092668034186207e-05,
      "loss": 0.1268,
      "step": 6198
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6085255798337454e-05,
      "loss": 0.2029,
      "step": 6199
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6077844460203206e-05,
      "loss": 0.274,
      "step": 6200
    },
    {
      "epoch": 0.62,
      "eval_loss": 0.6594749689102173,
      "eval_runtime": 64.9327,
      "eval_samples_per_second": 3.558,
      "eval_steps_per_second": 0.893,
      "step": 6200
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6070434020529772e-05,
      "loss": 0.2697,
      "step": 6201
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6063024480063395e-05,
      "loss": 0.1606,
      "step": 6202
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6055615839550197e-05,
      "loss": 0.1206,
      "step": 6203
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6048208099736248e-05,
      "loss": 0.18,
      "step": 6204
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6040801261367493e-05,
      "loss": 0.1709,
      "step": 6205
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6033395325189814e-05,
      "loss": 0.0973,
      "step": 6206
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6025990291948968e-05,
      "loss": 0.1184,
      "step": 6207
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6018586162390664e-05,
      "loss": 0.054,
      "step": 6208
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.6011182937260483e-05,
      "loss": 0.0838,
      "step": 6209
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.600378061730394e-05,
      "loss": 0.1367,
      "step": 6210
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.5996379203266438e-05,
      "loss": 0.0869,
      "step": 6211
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.598897869589331e-05,
      "loss": 0.1278,
      "step": 6212
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.5981579095929767e-05,
      "loss": 0.155,
      "step": 6213
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.5974180404120973e-05,
      "loss": 0.1009,
      "step": 6214
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.5966782621211963e-05,
      "loss": 0.115,
      "step": 6215
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.5959385747947698e-05,
      "loss": 0.1988,
      "step": 6216
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.595198978507303e-05,
      "loss": 0.1841,
      "step": 6217
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.5944594733332757e-05,
      "loss": 0.259,
      "step": 6218
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.593720059347154e-05,
      "loss": 0.3024,
      "step": 6219
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.5929807366233977e-05,
      "loss": 0.1971,
      "step": 6220
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.592241505236456e-05,
      "loss": 0.1406,
      "step": 6221
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.5915023652607707e-05,
      "loss": 0.2086,
      "step": 6222
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.5907633167707716e-05,
      "loss": 0.1867,
      "step": 6223
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.5900243598408823e-05,
      "loss": 0.1875,
      "step": 6224
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.589285494545514e-05,
      "loss": 0.2076,
      "step": 6225
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.5885467209590726e-05,
      "loss": 0.16,
      "step": 6226
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.5878080391559508e-05,
      "loss": 0.1551,
      "step": 6227
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.5870694492105353e-05,
      "loss": 0.1544,
      "step": 6228
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.5863309511971998e-05,
      "loss": 0.1318,
      "step": 6229
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.585592545190314e-05,
      "loss": 0.1052,
      "step": 6230
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.584854231264233e-05,
      "loss": 0.2173,
      "step": 6231
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.5841160094933065e-05,
      "loss": 0.2766,
      "step": 6232
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.583377879951872e-05,
      "loss": 0.1288,
      "step": 6233
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.5826398427142607e-05,
      "loss": 0.1119,
      "step": 6234
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.5819018978547916e-05,
      "loss": 0.1086,
      "step": 6235
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.581164045447777e-05,
      "loss": 0.1735,
      "step": 6236
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.5804262855675167e-05,
      "loss": 0.1723,
      "step": 6237
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.5796886182883053e-05,
      "loss": 0.0959,
      "step": 6238
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.578951043684424e-05,
      "loss": 0.1431,
      "step": 6239
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.5782135618301486e-05,
      "loss": 0.0548,
      "step": 6240
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.5774761727997405e-05,
      "loss": 0.1926,
      "step": 6241
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.576738876667459e-05,
      "loss": 0.0905,
      "step": 6242
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.576001673507545e-05,
      "loss": 0.0665,
      "step": 6243
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.5752645633942387e-05,
      "loss": 0.0821,
      "step": 6244
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.5745275464017657e-05,
      "loss": 0.0957,
      "step": 6245
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.5737906226043424e-05,
      "loss": 0.1372,
      "step": 6246
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.573053792076179e-05,
      "loss": 0.1293,
      "step": 6247
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.5723170548914724e-05,
      "loss": 0.1124,
      "step": 6248
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.5715804111244137e-05,
      "loss": 0.1111,
      "step": 6249
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.5708438608491814e-05,
      "loss": 0.1034,
      "step": 6250
    },
    {
      "epoch": 0.62,
      "eval_loss": 0.6642052531242371,
      "eval_runtime": 73.119,
      "eval_samples_per_second": 3.159,
      "eval_steps_per_second": 0.793,
      "step": 6250
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.570107404139948e-05,
      "loss": 0.1715,
      "step": 6251
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.569371041070872e-05,
      "loss": 0.0551,
      "step": 6252
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5686347717161083e-05,
      "loss": 0.1327,
      "step": 6253
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.567898596149797e-05,
      "loss": 0.177,
      "step": 6254
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.567162514446072e-05,
      "loss": 0.1216,
      "step": 6255
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.566426526679055e-05,
      "loss": 0.2259,
      "step": 6256
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5656906329228627e-05,
      "loss": 0.1263,
      "step": 6257
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.564954833251597e-05,
      "loss": 0.0998,
      "step": 6258
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.564219127739355e-05,
      "loss": 0.1021,
      "step": 6259
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.56348351646022e-05,
      "loss": 0.1881,
      "step": 6260
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5627479994882706e-05,
      "loss": 0.0896,
      "step": 6261
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.562012576897571e-05,
      "loss": 0.0297,
      "step": 6262
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5612772487621798e-05,
      "loss": 0.137,
      "step": 6263
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.560542015156143e-05,
      "loss": 0.0325,
      "step": 6264
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.559806876153501e-05,
      "loss": 0.0678,
      "step": 6265
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.55907183182828e-05,
      "loss": 0.0608,
      "step": 6266
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5583368822545e-05,
      "loss": 0.0829,
      "step": 6267
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5576020275061697e-05,
      "loss": 0.0924,
      "step": 6268
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5568672676572905e-05,
      "loss": 0.2008,
      "step": 6269
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5561326027818507e-05,
      "loss": 0.1925,
      "step": 6270
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5553980329538326e-05,
      "loss": 0.1779,
      "step": 6271
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.554663558247206e-05,
      "loss": 0.108,
      "step": 6272
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5539291787359345e-05,
      "loss": 0.1086,
      "step": 6273
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5531948944939674e-05,
      "loss": 0.1453,
      "step": 6274
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5524607055952496e-05,
      "loss": 0.1258,
      "step": 6275
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.551726612113712e-05,
      "loss": 0.1188,
      "step": 6276
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5509926141232796e-05,
      "loss": 0.1476,
      "step": 6277
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5502587116978635e-05,
      "loss": 0.0774,
      "step": 6278
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5495249049113702e-05,
      "loss": 0.1099,
      "step": 6279
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5487911938376924e-05,
      "loss": 0.1325,
      "step": 6280
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.548057578550716e-05,
      "loss": 0.1694,
      "step": 6281
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.547324059124315e-05,
      "loss": 0.0571,
      "step": 6282
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5465906356323552e-05,
      "loss": 0.0589,
      "step": 6283
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5458573081486925e-05,
      "loss": 0.0569,
      "step": 6284
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.545124076747173e-05,
      "loss": 0.1265,
      "step": 6285
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5443909415016316e-05,
      "loss": 0.098,
      "step": 6286
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5436579024858977e-05,
      "loss": 0.1198,
      "step": 6287
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.542924959773786e-05,
      "loss": 0.1947,
      "step": 6288
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5421921134391053e-05,
      "loss": 0.0241,
      "step": 6289
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.541459363555652e-05,
      "loss": 0.0854,
      "step": 6290
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.540726710197215e-05,
      "loss": 0.045,
      "step": 6291
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5399941534375716e-05,
      "loss": 0.2066,
      "step": 6292
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.539261693350491e-05,
      "loss": 0.1636,
      "step": 6293
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.538529330009731e-05,
      "loss": 0.2067,
      "step": 6294
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.537797063489042e-05,
      "loss": 0.035,
      "step": 6295
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5370648938621616e-05,
      "loss": 0.1215,
      "step": 6296
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5363328212028212e-05,
      "loss": 0.1818,
      "step": 6297
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5356008455847378e-05,
      "loss": 0.2595,
      "step": 6298
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.534868967081624e-05,
      "loss": 0.059,
      "step": 6299
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5341371857671782e-05,
      "loss": 0.1736,
      "step": 6300
    },
    {
      "epoch": 0.63,
      "eval_loss": 0.6624528765678406,
      "eval_runtime": 73.0238,
      "eval_samples_per_second": 3.163,
      "eval_steps_per_second": 0.794,
      "step": 6300
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5334055017150923e-05,
      "loss": 0.1645,
      "step": 6301
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5326739149990446e-05,
      "loss": 0.0685,
      "step": 6302
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5319424256927085e-05,
      "loss": 0.1731,
      "step": 6303
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5312110338697426e-05,
      "loss": 0.1311,
      "step": 6304
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5304797396037998e-05,
      "loss": 0.2326,
      "step": 6305
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5297485429685204e-05,
      "loss": 0.3318,
      "step": 6306
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5290174440375367e-05,
      "loss": 0.1891,
      "step": 6307
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5282864428844684e-05,
      "loss": 0.1556,
      "step": 6308
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.52755553958293e-05,
      "loss": 0.1541,
      "step": 6309
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5268247342065215e-05,
      "loss": 0.0922,
      "step": 6310
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5260940268288363e-05,
      "loss": 0.0313,
      "step": 6311
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.525363417523455e-05,
      "loss": 0.2805,
      "step": 6312
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5246329063639514e-05,
      "loss": 0.0971,
      "step": 6313
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5239024934238874e-05,
      "loss": 0.0927,
      "step": 6314
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.523172178776816e-05,
      "loss": 0.2114,
      "step": 6315
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5224419624962785e-05,
      "loss": 0.2707,
      "step": 6316
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5217118446558099e-05,
      "loss": 0.3745,
      "step": 6317
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.520981825328931e-05,
      "loss": 0.1899,
      "step": 6318
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5202519045891558e-05,
      "loss": 0.2267,
      "step": 6319
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5195220825099862e-05,
      "loss": 0.0549,
      "step": 6320
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5187923591649173e-05,
      "loss": 0.1671,
      "step": 6321
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5180627346274301e-05,
      "loss": 0.2428,
      "step": 6322
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5173332089709991e-05,
      "loss": 0.1582,
      "step": 6323
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5166037822690865e-05,
      "loss": 0.1464,
      "step": 6324
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5158744545951467e-05,
      "loss": 0.1128,
      "step": 6325
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5151452260226224e-05,
      "loss": 0.1353,
      "step": 6326
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5144160966249469e-05,
      "loss": 0.174,
      "step": 6327
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5136870664755427e-05,
      "loss": 0.1637,
      "step": 6328
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5129581356478247e-05,
      "loss": 0.1046,
      "step": 6329
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5122293042151953e-05,
      "loss": 0.1127,
      "step": 6330
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5115005722510483e-05,
      "loss": 0.1383,
      "step": 6331
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5107719398287665e-05,
      "loss": 0.1491,
      "step": 6332
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5100434070217224e-05,
      "loss": 0.1219,
      "step": 6333
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5093149739032816e-05,
      "loss": 0.0905,
      "step": 6334
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5085866405467944e-05,
      "loss": 0.1175,
      "step": 6335
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5078584070256063e-05,
      "loss": 0.1342,
      "step": 6336
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5071302734130489e-05,
      "loss": 0.0995,
      "step": 6337
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5064022397824462e-05,
      "loss": 0.0968,
      "step": 6338
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.50567430620711e-05,
      "loss": 0.1025,
      "step": 6339
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5049464727603452e-05,
      "loss": 0.1028,
      "step": 6340
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5042187395154422e-05,
      "loss": 0.1891,
      "step": 6341
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5034911065456859e-05,
      "loss": 0.0985,
      "step": 6342
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5027635739243467e-05,
      "loss": 0.1636,
      "step": 6343
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5020361417246894e-05,
      "loss": 0.0973,
      "step": 6344
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5013088100199648e-05,
      "loss": 0.0885,
      "step": 6345
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.5005815788834163e-05,
      "loss": 0.0735,
      "step": 6346
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.4998544483882742e-05,
      "loss": 0.0822,
      "step": 6347
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.4991274186077632e-05,
      "loss": 0.09,
      "step": 6348
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.4984004896150928e-05,
      "loss": 0.0718,
      "step": 6349
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4976736614834664e-05,
      "loss": 0.0958,
      "step": 6350
    },
    {
      "epoch": 0.64,
      "eval_loss": 0.6693230271339417,
      "eval_runtime": 73.0945,
      "eval_samples_per_second": 3.16,
      "eval_steps_per_second": 0.793,
      "step": 6350
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.496946934286074e-05,
      "loss": 0.2135,
      "step": 6351
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4962203080960985e-05,
      "loss": 0.0469,
      "step": 6352
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4954937829867106e-05,
      "loss": 0.0783,
      "step": 6353
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4947673590310712e-05,
      "loss": 0.119,
      "step": 6354
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4940410363023306e-05,
      "loss": 0.093,
      "step": 6355
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.493314814873631e-05,
      "loss": 0.0783,
      "step": 6356
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4925886948181011e-05,
      "loss": 0.1648,
      "step": 6357
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.491862676208863e-05,
      "loss": 0.1616,
      "step": 6358
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4911367591190248e-05,
      "loss": 0.1313,
      "step": 6359
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4904109436216884e-05,
      "loss": 0.1677,
      "step": 6360
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4896852297899416e-05,
      "loss": 0.0611,
      "step": 6361
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.488959617696865e-05,
      "loss": 0.2299,
      "step": 6362
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4882341074155265e-05,
      "loss": 0.1094,
      "step": 6363
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4875086990189868e-05,
      "loss": 0.1546,
      "step": 6364
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4867833925802926e-05,
      "loss": 0.0807,
      "step": 6365
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.486058188172484e-05,
      "loss": 0.1143,
      "step": 6366
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4853330858685872e-05,
      "loss": 0.1072,
      "step": 6367
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4846080857416211e-05,
      "loss": 0.1802,
      "step": 6368
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4838831878645925e-05,
      "loss": 0.1488,
      "step": 6369
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4831583923104999e-05,
      "loss": 0.1138,
      "step": 6370
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4824336991523288e-05,
      "loss": 0.0918,
      "step": 6371
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4817091084630568e-05,
      "loss": 0.0741,
      "step": 6372
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4809846203156491e-05,
      "loss": 0.1086,
      "step": 6373
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4802602347830629e-05,
      "loss": 0.1286,
      "step": 6374
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.479535951938243e-05,
      "loss": 0.1206,
      "step": 6375
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.478811771854125e-05,
      "loss": 0.1101,
      "step": 6376
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4780876946036327e-05,
      "loss": 0.1727,
      "step": 6377
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4773637202596823e-05,
      "loss": 0.2191,
      "step": 6378
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4766398488951772e-05,
      "loss": 0.2156,
      "step": 6379
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4759160805830119e-05,
      "loss": 0.1916,
      "step": 6380
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.475192415396068e-05,
      "loss": 0.1407,
      "step": 6381
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.474468853407221e-05,
      "loss": 0.1189,
      "step": 6382
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4737453946893318e-05,
      "loss": 0.1063,
      "step": 6383
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4730220393152538e-05,
      "loss": 0.0643,
      "step": 6384
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4722987873578273e-05,
      "loss": 0.051,
      "step": 6385
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4715756388898857e-05,
      "loss": 0.0883,
      "step": 6386
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4708525939842488e-05,
      "loss": 0.1023,
      "step": 6387
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4701296527137279e-05,
      "loss": 0.0848,
      "step": 6388
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.469406815151122e-05,
      "loss": 0.1133,
      "step": 6389
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4686840813692224e-05,
      "loss": 0.0821,
      "step": 6390
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4679614514408072e-05,
      "loss": 0.123,
      "step": 6391
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.467238925438646e-05,
      "loss": 0.0547,
      "step": 6392
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4665165034354957e-05,
      "loss": 0.0525,
      "step": 6393
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4657941855041062e-05,
      "loss": 0.0533,
      "step": 6394
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4650719717172138e-05,
      "loss": 0.059,
      "step": 6395
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4643498621475457e-05,
      "loss": 0.0287,
      "step": 6396
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4636278568678174e-05,
      "loss": 0.0257,
      "step": 6397
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4629059559507369e-05,
      "loss": 0.0648,
      "step": 6398
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4621841594689967e-05,
      "loss": 0.1305,
      "step": 6399
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4614624674952842e-05,
      "loss": 0.1167,
      "step": 6400
    },
    {
      "epoch": 0.64,
      "eval_loss": 0.6857312917709351,
      "eval_runtime": 73.1966,
      "eval_samples_per_second": 3.156,
      "eval_steps_per_second": 0.792,
      "step": 6400
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4607408801022726e-05,
      "loss": 0.1216,
      "step": 6401
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4600193973626262e-05,
      "loss": 0.1607,
      "step": 6402
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4592980193489975e-05,
      "loss": 0.135,
      "step": 6403
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.45857674613403e-05,
      "loss": 0.1646,
      "step": 6404
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4578555777903553e-05,
      "loss": 0.2025,
      "step": 6405
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4571345143905956e-05,
      "loss": 0.0813,
      "step": 6406
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4564135560073617e-05,
      "loss": 0.1547,
      "step": 6407
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4556927027132556e-05,
      "loss": 0.1152,
      "step": 6408
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4549719545808632e-05,
      "loss": 0.1303,
      "step": 6409
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4542513116827682e-05,
      "loss": 0.1627,
      "step": 6410
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.453530774091537e-05,
      "loss": 0.1751,
      "step": 6411
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4528103418797284e-05,
      "loss": 0.1191,
      "step": 6412
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4520900151198893e-05,
      "loss": 0.1345,
      "step": 6413
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4513697938845572e-05,
      "loss": 0.2261,
      "step": 6414
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.450649678246258e-05,
      "loss": 0.2038,
      "step": 6415
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4499296682775088e-05,
      "loss": 0.5466,
      "step": 6416
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4492097640508117e-05,
      "loss": 0.4585,
      "step": 6417
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.448489965638663e-05,
      "loss": 0.243,
      "step": 6418
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4477702731135461e-05,
      "loss": 0.8691,
      "step": 6419
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4470506865479336e-05,
      "loss": 0.7785,
      "step": 6420
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4463312060142892e-05,
      "loss": 0.3717,
      "step": 6421
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4456118315850617e-05,
      "loss": 0.0932,
      "step": 6422
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.444892563332696e-05,
      "loss": 0.1437,
      "step": 6423
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.444173401329619e-05,
      "loss": 0.1329,
      "step": 6424
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.443454345648252e-05,
      "loss": 0.0779,
      "step": 6425
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4427353963610029e-05,
      "loss": 0.2295,
      "step": 6426
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4420165535402718e-05,
      "loss": 0.0363,
      "step": 6427
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4412978172584429e-05,
      "loss": 0.0883,
      "step": 6428
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4405791875878965e-05,
      "loss": 0.12,
      "step": 6429
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4398606646009963e-05,
      "loss": 0.1357,
      "step": 6430
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4391422483700978e-05,
      "loss": 0.0582,
      "step": 6431
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4384239389675463e-05,
      "loss": 0.0637,
      "step": 6432
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.437705736465675e-05,
      "loss": 0.0577,
      "step": 6433
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4369876409368066e-05,
      "loss": 0.0712,
      "step": 6434
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4362696524532548e-05,
      "loss": 0.0435,
      "step": 6435
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4355517710873184e-05,
      "loss": 0.0366,
      "step": 6436
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4348339969112909e-05,
      "loss": 0.0781,
      "step": 6437
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.43411632999745e-05,
      "loss": 0.1,
      "step": 6438
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4333987704180657e-05,
      "loss": 0.0376,
      "step": 6439
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4326813182453958e-05,
      "loss": 0.1234,
      "step": 6440
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.431963973551688e-05,
      "loss": 0.1736,
      "step": 6441
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4312467364091787e-05,
      "loss": 0.1134,
      "step": 6442
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4305296068900947e-05,
      "loss": 0.1413,
      "step": 6443
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4298125850666486e-05,
      "loss": 0.1622,
      "step": 6444
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4290956710110475e-05,
      "loss": 0.1145,
      "step": 6445
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4283788647954822e-05,
      "loss": 0.1555,
      "step": 6446
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4276621664921357e-05,
      "loss": 0.1735,
      "step": 6447
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4269455761731798e-05,
      "loss": 0.1148,
      "step": 6448
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.4262290939107748e-05,
      "loss": 0.1123,
      "step": 6449
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.425512719777071e-05,
      "loss": 0.0729,
      "step": 6450
    },
    {
      "epoch": 0.65,
      "eval_loss": 0.6782993674278259,
      "eval_runtime": 72.7271,
      "eval_samples_per_second": 3.176,
      "eval_steps_per_second": 0.798,
      "step": 6450
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.4247964538442076e-05,
      "loss": 0.1161,
      "step": 6451
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.4240802961843103e-05,
      "loss": 0.0735,
      "step": 6452
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.423364246869499e-05,
      "loss": 0.0864,
      "step": 6453
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.4226483059718781e-05,
      "loss": 0.1239,
      "step": 6454
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.4219324735635437e-05,
      "loss": 0.159,
      "step": 6455
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.421216749716579e-05,
      "loss": 0.2056,
      "step": 6456
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.4205011345030582e-05,
      "loss": 0.1556,
      "step": 6457
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.4197856279950438e-05,
      "loss": 0.155,
      "step": 6458
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.4190702302645883e-05,
      "loss": 0.1342,
      "step": 6459
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.4183549413837289e-05,
      "loss": 0.123,
      "step": 6460
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.417639761424499e-05,
      "loss": 0.129,
      "step": 6461
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.416924690458915e-05,
      "loss": 0.1374,
      "step": 6462
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.4162097285589848e-05,
      "loss": 0.1458,
      "step": 6463
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.4154948757967052e-05,
      "loss": 0.1888,
      "step": 6464
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.414780132244063e-05,
      "loss": 0.1188,
      "step": 6465
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.41406549797303e-05,
      "loss": 0.1786,
      "step": 6466
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.4133509730555733e-05,
      "loss": 0.1953,
      "step": 6467
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.412636557563643e-05,
      "loss": 0.078,
      "step": 6468
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.4119222515691816e-05,
      "loss": 0.1073,
      "step": 6469
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.4112080551441199e-05,
      "loss": 0.058,
      "step": 6470
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.4104939683603769e-05,
      "loss": 0.1022,
      "step": 6471
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.4097799912898615e-05,
      "loss": 0.2206,
      "step": 6472
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.4090661240044723e-05,
      "loss": 0.2453,
      "step": 6473
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.4083523665760925e-05,
      "loss": 0.177,
      "step": 6474
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.4076387190766017e-05,
      "loss": 0.2893,
      "step": 6475
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.4069251815778609e-05,
      "loss": 0.3093,
      "step": 6476
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.4062117541517245e-05,
      "loss": 0.1523,
      "step": 6477
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.4054984368700341e-05,
      "loss": 0.137,
      "step": 6478
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.4047852298046215e-05,
      "loss": 0.1627,
      "step": 6479
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.4040721330273062e-05,
      "loss": 0.185,
      "step": 6480
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.4033591466098983e-05,
      "loss": 0.1583,
      "step": 6481
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.4026462706241922e-05,
      "loss": 0.1534,
      "step": 6482
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.4019335051419784e-05,
      "loss": 0.1694,
      "step": 6483
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.4012208502350299e-05,
      "loss": 0.135,
      "step": 6484
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.4005083059751118e-05,
      "loss": 0.1158,
      "step": 6485
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3997958724339768e-05,
      "loss": 0.1494,
      "step": 6486
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3990835496833676e-05,
      "loss": 0.1433,
      "step": 6487
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3983713377950147e-05,
      "loss": 0.1909,
      "step": 6488
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3976592368406393e-05,
      "loss": 0.136,
      "step": 6489
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3969472468919461e-05,
      "loss": 0.146,
      "step": 6490
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3962353680206373e-05,
      "loss": 0.1092,
      "step": 6491
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3955236002983956e-05,
      "loss": 0.1488,
      "step": 6492
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3948119437968971e-05,
      "loss": 0.1587,
      "step": 6493
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3941003985878057e-05,
      "loss": 0.161,
      "step": 6494
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.393388964742775e-05,
      "loss": 0.1795,
      "step": 6495
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.392677642333443e-05,
      "loss": 0.2187,
      "step": 6496
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3919664314314443e-05,
      "loss": 0.1094,
      "step": 6497
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3912553321083945e-05,
      "loss": 0.1633,
      "step": 6498
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3905443444359025e-05,
      "loss": 0.1574,
      "step": 6499
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3898334684855647e-05,
      "loss": 0.1706,
      "step": 6500
    },
    {
      "epoch": 0.65,
      "eval_loss": 0.6854264736175537,
      "eval_runtime": 72.7953,
      "eval_samples_per_second": 3.173,
      "eval_steps_per_second": 0.797,
      "step": 6500
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3891227043289662e-05,
      "loss": 0.1108,
      "step": 6501
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.388412052037682e-05,
      "loss": 0.132,
      "step": 6502
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3877015116832729e-05,
      "loss": 0.1451,
      "step": 6503
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.386991083337291e-05,
      "loss": 0.1471,
      "step": 6504
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3862807670712763e-05,
      "loss": 0.1569,
      "step": 6505
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3855705629567584e-05,
      "loss": 0.1494,
      "step": 6506
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.384860471065254e-05,
      "loss": 0.1297,
      "step": 6507
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3841504914682706e-05,
      "loss": 0.1177,
      "step": 6508
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3834406242373002e-05,
      "loss": 0.1332,
      "step": 6509
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3827308694438308e-05,
      "loss": 0.1266,
      "step": 6510
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3820212271593308e-05,
      "loss": 0.153,
      "step": 6511
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3813116974552626e-05,
      "loss": 0.1574,
      "step": 6512
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.380602280403076e-05,
      "loss": 0.2156,
      "step": 6513
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3798929760742091e-05,
      "loss": 0.1285,
      "step": 6514
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.379183784540089e-05,
      "loss": 0.1723,
      "step": 6515
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.378474705872132e-05,
      "loss": 0.1744,
      "step": 6516
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3777657401417393e-05,
      "loss": 0.1046,
      "step": 6517
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3770568874203083e-05,
      "loss": 0.2325,
      "step": 6518
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3763481477792167e-05,
      "loss": 0.1589,
      "step": 6519
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3756395212898359e-05,
      "loss": 0.1319,
      "step": 6520
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3749310080235245e-05,
      "loss": 0.0852,
      "step": 6521
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.374222608051631e-05,
      "loss": 0.131,
      "step": 6522
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3735143214454879e-05,
      "loss": 0.1585,
      "step": 6523
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3728061482764238e-05,
      "loss": 0.1453,
      "step": 6524
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3720980886157489e-05,
      "loss": 0.1415,
      "step": 6525
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3713901425347652e-05,
      "loss": 0.137,
      "step": 6526
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.370682310104764e-05,
      "loss": 0.11,
      "step": 6527
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3699745913970224e-05,
      "loss": 0.045,
      "step": 6528
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3692669864828092e-05,
      "loss": 0.1262,
      "step": 6529
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3685594954333802e-05,
      "loss": 0.2157,
      "step": 6530
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3678521183199771e-05,
      "loss": 0.1502,
      "step": 6531
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3671448552138366e-05,
      "loss": 0.2133,
      "step": 6532
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3664377061861777e-05,
      "loss": 0.1554,
      "step": 6533
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3657306713082102e-05,
      "loss": 0.0978,
      "step": 6534
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3650237506511331e-05,
      "loss": 0.0691,
      "step": 6535
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3643169442861336e-05,
      "loss": 0.1548,
      "step": 6536
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3636102522843864e-05,
      "loss": 0.109,
      "step": 6537
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3629036747170571e-05,
      "loss": 0.1549,
      "step": 6538
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3621972116552944e-05,
      "loss": 0.1054,
      "step": 6539
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3614908631702433e-05,
      "loss": 0.219,
      "step": 6540
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3607846293330301e-05,
      "loss": 0.1152,
      "step": 6541
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3600785102147734e-05,
      "loss": 0.192,
      "step": 6542
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.35937250588658e-05,
      "loss": 0.2654,
      "step": 6543
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3586666164195438e-05,
      "loss": 0.1523,
      "step": 6544
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.357960841884748e-05,
      "loss": 0.139,
      "step": 6545
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3572551823532654e-05,
      "loss": 0.1551,
      "step": 6546
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3565496378961522e-05,
      "loss": 0.2068,
      "step": 6547
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.355844208584462e-05,
      "loss": 0.1481,
      "step": 6548
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3551388944892269e-05,
      "loss": 0.122,
      "step": 6549
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.354433695681474e-05,
      "loss": 0.1192,
      "step": 6550
    },
    {
      "epoch": 0.66,
      "eval_loss": 0.6803857088088989,
      "eval_runtime": 65.9675,
      "eval_samples_per_second": 3.502,
      "eval_steps_per_second": 0.879,
      "step": 6550
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3537286122322168e-05,
      "loss": 0.0851,
      "step": 6551
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3530236442124573e-05,
      "loss": 0.1497,
      "step": 6552
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3523187916931845e-05,
      "loss": 0.0791,
      "step": 6553
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3516140547453798e-05,
      "loss": 0.0825,
      "step": 6554
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.350909433440006e-05,
      "loss": 0.1551,
      "step": 6555
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3502049278480228e-05,
      "loss": 0.1804,
      "step": 6556
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.349500538040371e-05,
      "loss": 0.1832,
      "step": 6557
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3487962640879837e-05,
      "loss": 0.1635,
      "step": 6558
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3480921060617807e-05,
      "loss": 0.1639,
      "step": 6559
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3473880640326725e-05,
      "loss": 0.1247,
      "step": 6560
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3466841380715524e-05,
      "loss": 0.0771,
      "step": 6561
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3459803282493105e-05,
      "loss": 0.1579,
      "step": 6562
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3452766346368165e-05,
      "loss": 0.1174,
      "step": 6563
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3445730573049339e-05,
      "loss": 0.1032,
      "step": 6564
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.343869596324513e-05,
      "loss": 0.1119,
      "step": 6565
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3431662517663918e-05,
      "loss": 0.1712,
      "step": 6566
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3424630237013977e-05,
      "loss": 0.1835,
      "step": 6567
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3417599122003464e-05,
      "loss": 0.1016,
      "step": 6568
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3410569173340382e-05,
      "loss": 0.1499,
      "step": 6569
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3403540391732688e-05,
      "loss": 0.1529,
      "step": 6570
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3396512777888148e-05,
      "loss": 0.0815,
      "step": 6571
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3389486332514453e-05,
      "loss": 0.0749,
      "step": 6572
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3382461056319167e-05,
      "loss": 0.1324,
      "step": 6573
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3375436950009734e-05,
      "loss": 0.1552,
      "step": 6574
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3368414014293485e-05,
      "loss": 0.1312,
      "step": 6575
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3361392249877635e-05,
      "loss": 0.1736,
      "step": 6576
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3354371657469246e-05,
      "loss": 0.0998,
      "step": 6577
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3347352237775334e-05,
      "loss": 0.1102,
      "step": 6578
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3340333991502724e-05,
      "loss": 0.0654,
      "step": 6579
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3333316919358157e-05,
      "loss": 0.1085,
      "step": 6580
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.332630102204826e-05,
      "loss": 0.1182,
      "step": 6581
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3319286300279532e-05,
      "loss": 0.0825,
      "step": 6582
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3312272754758353e-05,
      "loss": 0.1277,
      "step": 6583
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3305260386190998e-05,
      "loss": 0.2448,
      "step": 6584
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.329824919528358e-05,
      "loss": 0.1058,
      "step": 6585
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3291239182742172e-05,
      "loss": 0.1798,
      "step": 6586
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3284230349272653e-05,
      "loss": 0.1242,
      "step": 6587
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.32772226955808e-05,
      "loss": 0.209,
      "step": 6588
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3270216222372323e-05,
      "loss": 0.1959,
      "step": 6589
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3263210930352737e-05,
      "loss": 0.1779,
      "step": 6590
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.325620682022749e-05,
      "loss": 0.1378,
      "step": 6591
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3249203892701898e-05,
      "loss": 0.1348,
      "step": 6592
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3242202148481151e-05,
      "loss": 0.1224,
      "step": 6593
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3235201588270324e-05,
      "loss": 0.1691,
      "step": 6594
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3228202212774387e-05,
      "loss": 0.1964,
      "step": 6595
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3221204022698148e-05,
      "loss": 0.1102,
      "step": 6596
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3214207018746356e-05,
      "loss": 0.2094,
      "step": 6597
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3207211201623587e-05,
      "loss": 0.1409,
      "step": 6598
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3200216572034328e-05,
      "loss": 0.128,
      "step": 6599
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3193223130682936e-05,
      "loss": 0.1364,
      "step": 6600
    },
    {
      "epoch": 0.66,
      "eval_loss": 0.683012843132019,
      "eval_runtime": 66.4068,
      "eval_samples_per_second": 3.479,
      "eval_steps_per_second": 0.873,
      "step": 6600
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3186230878273653e-05,
      "loss": 0.0274,
      "step": 6601
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3179239815510597e-05,
      "loss": 0.0725,
      "step": 6602
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3172249943097776e-05,
      "loss": 0.1143,
      "step": 6603
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3165261261739043e-05,
      "loss": 0.0775,
      "step": 6604
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.31582737721382e-05,
      "loss": 0.0804,
      "step": 6605
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3151287474998852e-05,
      "loss": 0.1769,
      "step": 6606
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.314430237102453e-05,
      "loss": 0.14,
      "step": 6607
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3137318460918634e-05,
      "loss": 0.3188,
      "step": 6608
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3130335745384448e-05,
      "loss": 0.1361,
      "step": 6609
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3123354225125128e-05,
      "loss": 0.1512,
      "step": 6610
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.311637390084372e-05,
      "loss": 0.0524,
      "step": 6611
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3109394773243117e-05,
      "loss": 0.175,
      "step": 6612
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3102416843026152e-05,
      "loss": 0.0794,
      "step": 6613
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3095440110895479e-05,
      "loss": 0.1144,
      "step": 6614
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3088464577553659e-05,
      "loss": 0.212,
      "step": 6615
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3081490243703128e-05,
      "loss": 0.1439,
      "step": 6616
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3074517110046217e-05,
      "loss": 0.1819,
      "step": 6617
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3067545177285085e-05,
      "loss": 0.1354,
      "step": 6618
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3060574446121849e-05,
      "loss": 0.1131,
      "step": 6619
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3053604917258427e-05,
      "loss": 0.0905,
      "step": 6620
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3046636591396666e-05,
      "loss": 0.1361,
      "step": 6621
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3039669469238269e-05,
      "loss": 0.054,
      "step": 6622
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3032703551484832e-05,
      "loss": 0.1022,
      "step": 6623
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3025738838837819e-05,
      "loss": 0.2231,
      "step": 6624
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.301877533199859e-05,
      "loss": 0.1181,
      "step": 6625
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3011813031668334e-05,
      "loss": 0.0393,
      "step": 6626
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.3004851938548195e-05,
      "loss": 0.0687,
      "step": 6627
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.2997892053339133e-05,
      "loss": 0.0624,
      "step": 6628
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.2990933376742011e-05,
      "loss": 0.0267,
      "step": 6629
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.298397590945757e-05,
      "loss": 0.0258,
      "step": 6630
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.2977019652186426e-05,
      "loss": 0.0821,
      "step": 6631
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.2970064605629074e-05,
      "loss": 0.1499,
      "step": 6632
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.2963110770485896e-05,
      "loss": 0.1151,
      "step": 6633
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.2956158147457115e-05,
      "loss": 0.1142,
      "step": 6634
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.2949206737242898e-05,
      "loss": 0.1048,
      "step": 6635
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.2942256540543224e-05,
      "loss": 0.1259,
      "step": 6636
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.2935307558057985e-05,
      "loss": 0.0699,
      "step": 6637
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.2928359790486946e-05,
      "loss": 0.1149,
      "step": 6638
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.2921413238529745e-05,
      "loss": 0.1578,
      "step": 6639
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.2914467902885901e-05,
      "loss": 0.1032,
      "step": 6640
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.2907523784254822e-05,
      "loss": 0.2126,
      "step": 6641
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.2900580883335741e-05,
      "loss": 0.1799,
      "step": 6642
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.2893639200827856e-05,
      "loss": 0.2163,
      "step": 6643
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.2886698737430165e-05,
      "loss": 0.1312,
      "step": 6644
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.2879759493841575e-05,
      "loss": 0.1737,
      "step": 6645
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.2872821470760877e-05,
      "loss": 0.2589,
      "step": 6646
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.286588466888672e-05,
      "loss": 0.2674,
      "step": 6647
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.2858949088917648e-05,
      "loss": 0.1415,
      "step": 6648
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.2852014731552082e-05,
      "loss": 0.1332,
      "step": 6649
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2845081597488287e-05,
      "loss": 0.137,
      "step": 6650
    },
    {
      "epoch": 0.67,
      "eval_loss": 0.6690604090690613,
      "eval_runtime": 66.2608,
      "eval_samples_per_second": 3.486,
      "eval_steps_per_second": 0.875,
      "step": 6650
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2838149687424444e-05,
      "loss": 0.1838,
      "step": 6651
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2831219002058595e-05,
      "loss": 0.1152,
      "step": 6652
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2824289542088657e-05,
      "loss": 0.1168,
      "step": 6653
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2817361308212433e-05,
      "loss": 0.0644,
      "step": 6654
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2810434301127599e-05,
      "loss": 0.0788,
      "step": 6655
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.280350852153168e-05,
      "loss": 0.1064,
      "step": 6656
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2796583970122136e-05,
      "loss": 0.085,
      "step": 6657
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2789660647596246e-05,
      "loss": 0.0994,
      "step": 6658
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2782738554651192e-05,
      "loss": 0.1366,
      "step": 6659
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2775817691984033e-05,
      "loss": 0.1167,
      "step": 6660
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2768898060291695e-05,
      "loss": 0.1117,
      "step": 6661
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.276197966027099e-05,
      "loss": 0.1814,
      "step": 6662
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2755062492618608e-05,
      "loss": 0.1413,
      "step": 6663
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2748146558031077e-05,
      "loss": 0.2637,
      "step": 6664
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2741231857204872e-05,
      "loss": 0.2795,
      "step": 6665
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2734318390836276e-05,
      "loss": 0.1639,
      "step": 6666
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.272740615962148e-05,
      "loss": 0.1335,
      "step": 6667
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2720495164256549e-05,
      "loss": 0.1712,
      "step": 6668
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.271358540543742e-05,
      "loss": 0.1474,
      "step": 6669
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2706676883859903e-05,
      "loss": 0.1995,
      "step": 6670
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2699769600219696e-05,
      "loss": 0.1628,
      "step": 6671
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2692863555212347e-05,
      "loss": 0.1674,
      "step": 6672
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2685958749533299e-05,
      "loss": 0.1324,
      "step": 6673
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.267905518387787e-05,
      "loss": 0.1295,
      "step": 6674
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2672152858941244e-05,
      "loss": 0.127,
      "step": 6675
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2665251775418502e-05,
      "loss": 0.0885,
      "step": 6676
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2658351934004545e-05,
      "loss": 0.1488,
      "step": 6677
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2651453335394231e-05,
      "loss": 0.2305,
      "step": 6678
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2644555980282219e-05,
      "loss": 0.123,
      "step": 6679
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2637659869363083e-05,
      "loss": 0.1196,
      "step": 6680
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2630765003331257e-05,
      "loss": 0.0718,
      "step": 6681
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.262387138288107e-05,
      "loss": 0.1647,
      "step": 6682
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2616979008706676e-05,
      "loss": 0.2058,
      "step": 6683
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2610087881502173e-05,
      "loss": 0.0885,
      "step": 6684
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2603198001961475e-05,
      "loss": 0.1276,
      "step": 6685
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2596309370778398e-05,
      "loss": 0.0825,
      "step": 6686
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2589421988646626e-05,
      "loss": 0.1547,
      "step": 6687
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2582535856259722e-05,
      "loss": 0.1181,
      "step": 6688
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2575650974311119e-05,
      "loss": 0.0712,
      "step": 6689
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.256876734349413e-05,
      "loss": 0.0914,
      "step": 6690
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2561884964501911e-05,
      "loss": 0.1029,
      "step": 6691
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2555003838027555e-05,
      "loss": 0.1367,
      "step": 6692
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2548123964763963e-05,
      "loss": 0.1374,
      "step": 6693
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2541245345403947e-05,
      "loss": 0.0886,
      "step": 6694
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2534367980640183e-05,
      "loss": 0.1119,
      "step": 6695
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.252749187116522e-05,
      "loss": 0.099,
      "step": 6696
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2520617017671487e-05,
      "loss": 0.1352,
      "step": 6697
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.251374342085129e-05,
      "loss": 0.0541,
      "step": 6698
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2506871081396767e-05,
      "loss": 0.1324,
      "step": 6699
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2500000000000006e-05,
      "loss": 0.189,
      "step": 6700
    },
    {
      "epoch": 0.67,
      "eval_loss": 0.6662441492080688,
      "eval_runtime": 66.2059,
      "eval_samples_per_second": 3.489,
      "eval_steps_per_second": 0.876,
      "step": 6700
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2493130177352891e-05,
      "loss": 0.0991,
      "step": 6701
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2486261614147226e-05,
      "loss": 0.2137,
      "step": 6702
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2479394311074674e-05,
      "loss": 0.1464,
      "step": 6703
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2472528268826771e-05,
      "loss": 0.0931,
      "step": 6704
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.246566348809493e-05,
      "loss": 0.092,
      "step": 6705
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2458799969570441e-05,
      "loss": 0.1454,
      "step": 6706
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2451937713944437e-05,
      "loss": 0.1128,
      "step": 6707
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2445076721907978e-05,
      "loss": 0.0494,
      "step": 6708
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2438216994151938e-05,
      "loss": 0.1163,
      "step": 6709
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2431358531367105e-05,
      "loss": 0.0713,
      "step": 6710
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2424501334244123e-05,
      "loss": 0.0704,
      "step": 6711
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2417645403473524e-05,
      "loss": 0.0496,
      "step": 6712
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.241079073974567e-05,
      "loss": 0.0798,
      "step": 6713
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.240393734375086e-05,
      "loss": 0.0906,
      "step": 6714
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2397085216179208e-05,
      "loss": 0.1756,
      "step": 6715
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2390234357720728e-05,
      "loss": 0.1951,
      "step": 6716
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2383384769065305e-05,
      "loss": 0.1859,
      "step": 6717
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.237653645090269e-05,
      "loss": 0.091,
      "step": 6718
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2369689403922507e-05,
      "loss": 0.1058,
      "step": 6719
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2362843628814267e-05,
      "loss": 0.1588,
      "step": 6720
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2355999126267307e-05,
      "loss": 0.1112,
      "step": 6721
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.234915589697091e-05,
      "loss": 0.1051,
      "step": 6722
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2342313941614158e-05,
      "loss": 0.1528,
      "step": 6723
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2335473260886046e-05,
      "loss": 0.0986,
      "step": 6724
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2328633855475429e-05,
      "loss": 0.0866,
      "step": 6725
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2321795726071036e-05,
      "loss": 0.1381,
      "step": 6726
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2314958873361467e-05,
      "loss": 0.1562,
      "step": 6727
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2308123298035201e-05,
      "loss": 0.0641,
      "step": 6728
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2301289000780555e-05,
      "loss": 0.0561,
      "step": 6729
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2294455982285777e-05,
      "loss": 0.0699,
      "step": 6730
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2287624243238924e-05,
      "loss": 0.1091,
      "step": 6731
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2280793784327962e-05,
      "loss": 0.0967,
      "step": 6732
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2273964606240718e-05,
      "loss": 0.1266,
      "step": 6733
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.226713670966489e-05,
      "loss": 0.1726,
      "step": 6734
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2260310095288046e-05,
      "loss": 0.032,
      "step": 6735
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2253484763797637e-05,
      "loss": 0.0982,
      "step": 6736
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2246660715880945e-05,
      "loss": 0.0448,
      "step": 6737
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2239837952225189e-05,
      "loss": 0.1767,
      "step": 6738
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2233016473517393e-05,
      "loss": 0.177,
      "step": 6739
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2226196280444488e-05,
      "loss": 0.208,
      "step": 6740
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2219377373693266e-05,
      "loss": 0.0701,
      "step": 6741
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2212559753950406e-05,
      "loss": 0.0998,
      "step": 6742
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2205743421902408e-05,
      "loss": 0.1576,
      "step": 6743
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2198928378235716e-05,
      "loss": 0.2493,
      "step": 6744
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2192114623636577e-05,
      "loss": 0.058,
      "step": 6745
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2185302158791146e-05,
      "loss": 0.1258,
      "step": 6746
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2178490984385435e-05,
      "loss": 0.1449,
      "step": 6747
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2171681101105334e-05,
      "loss": 0.0449,
      "step": 6748
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.2164872509636593e-05,
      "loss": 0.1582,
      "step": 6749
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.2158065210664848e-05,
      "loss": 0.1622,
      "step": 6750
    },
    {
      "epoch": 0.68,
      "eval_loss": 0.6685489416122437,
      "eval_runtime": 66.3722,
      "eval_samples_per_second": 3.48,
      "eval_steps_per_second": 0.874,
      "step": 6750
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.2151259204875567e-05,
      "loss": 0.1787,
      "step": 6751
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.2144454492954152e-05,
      "loss": 0.3131,
      "step": 6752
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.2137651075585807e-05,
      "loss": 0.1842,
      "step": 6753
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.2130848953455644e-05,
      "loss": 0.1658,
      "step": 6754
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.2124048127248644e-05,
      "loss": 0.1331,
      "step": 6755
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.2117248597649644e-05,
      "loss": 0.1172,
      "step": 6756
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.2110450365343367e-05,
      "loss": 0.026,
      "step": 6757
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.2103653431014378e-05,
      "loss": 0.2619,
      "step": 6758
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.2096857795347132e-05,
      "loss": 0.1022,
      "step": 6759
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.2090063459025955e-05,
      "loss": 0.0985,
      "step": 6760
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.2083270422735035e-05,
      "loss": 0.1852,
      "step": 6761
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.207647868715843e-05,
      "loss": 0.2169,
      "step": 6762
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.2069688252980074e-05,
      "loss": 0.3245,
      "step": 6763
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.2062899120883741e-05,
      "loss": 0.1905,
      "step": 6764
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.205611129155313e-05,
      "loss": 0.2017,
      "step": 6765
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.2049324765671749e-05,
      "loss": 0.0726,
      "step": 6766
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.2042539543923009e-05,
      "loss": 0.119,
      "step": 6767
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.2035755626990184e-05,
      "loss": 0.2424,
      "step": 6768
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.2028973015556413e-05,
      "loss": 0.1421,
      "step": 6769
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.2022191710304703e-05,
      "loss": 0.1406,
      "step": 6770
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.2015411711917943e-05,
      "loss": 0.0913,
      "step": 6771
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.200863302107885e-05,
      "loss": 0.1283,
      "step": 6772
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.2001855638470072e-05,
      "loss": 0.1695,
      "step": 6773
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1995079564774067e-05,
      "loss": 0.1463,
      "step": 6774
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1988304800673197e-05,
      "loss": 0.1038,
      "step": 6775
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1981531346849675e-05,
      "loss": 0.1095,
      "step": 6776
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.19747592039856e-05,
      "loss": 0.1212,
      "step": 6777
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1967988372762898e-05,
      "loss": 0.1571,
      "step": 6778
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1961218853863429e-05,
      "loss": 0.113,
      "step": 6779
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1954450647968856e-05,
      "loss": 0.0955,
      "step": 6780
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1947683755760747e-05,
      "loss": 0.1323,
      "step": 6781
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1940918177920523e-05,
      "loss": 0.1182,
      "step": 6782
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1934153915129483e-05,
      "loss": 0.1112,
      "step": 6783
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1927390968068788e-05,
      "loss": 0.0764,
      "step": 6784
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1920629337419473e-05,
      "loss": 0.1127,
      "step": 6785
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1913869023862407e-05,
      "loss": 0.1188,
      "step": 6786
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1907110028078389e-05,
      "loss": 0.1539,
      "step": 6787
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1900352350748026e-05,
      "loss": 0.1032,
      "step": 6788
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1893595992551822e-05,
      "loss": 0.1532,
      "step": 6789
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1886840954170142e-05,
      "loss": 0.0963,
      "step": 6790
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1880087236283221e-05,
      "loss": 0.0896,
      "step": 6791
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1873334839571156e-05,
      "loss": 0.075,
      "step": 6792
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1866583764713923e-05,
      "loss": 0.0778,
      "step": 6793
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1859834012391324e-05,
      "loss": 0.0814,
      "step": 6794
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1853085583283102e-05,
      "loss": 0.0699,
      "step": 6795
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1846338478068791e-05,
      "loss": 0.0659,
      "step": 6796
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1839592697427837e-05,
      "loss": 0.1781,
      "step": 6797
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1832848242039537e-05,
      "loss": 0.0713,
      "step": 6798
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1826105112583061e-05,
      "loss": 0.0738,
      "step": 6799
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.181936330973744e-05,
      "loss": 0.1125,
      "step": 6800
    },
    {
      "epoch": 0.68,
      "eval_loss": 0.6748372912406921,
      "eval_runtime": 66.6014,
      "eval_samples_per_second": 3.468,
      "eval_steps_per_second": 0.871,
      "step": 6800
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1812622834181578e-05,
      "loss": 0.0989,
      "step": 6801
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1805883686594221e-05,
      "loss": 0.0719,
      "step": 6802
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1799145867654032e-05,
      "loss": 0.1645,
      "step": 6803
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1792409378039485e-05,
      "loss": 0.148,
      "step": 6804
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1785674218428952e-05,
      "loss": 0.1253,
      "step": 6805
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1778940389500662e-05,
      "loss": 0.177,
      "step": 6806
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1772207891932724e-05,
      "loss": 0.1028,
      "step": 6807
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.176547672640307e-05,
      "loss": 0.2037,
      "step": 6808
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1758746893589567e-05,
      "loss": 0.0906,
      "step": 6809
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.175201839416988e-05,
      "loss": 0.1484,
      "step": 6810
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1745291228821578e-05,
      "loss": 0.1059,
      "step": 6811
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1738565398222087e-05,
      "loss": 0.0938,
      "step": 6812
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1731840903048696e-05,
      "loss": 0.091,
      "step": 6813
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1725117743978567e-05,
      "loss": 0.1239,
      "step": 6814
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1718395921688724e-05,
      "loss": 0.1629,
      "step": 6815
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.171167543685603e-05,
      "loss": 0.1366,
      "step": 6816
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1704956290157274e-05,
      "loss": 0.0835,
      "step": 6817
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1698238482269047e-05,
      "loss": 0.0671,
      "step": 6818
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1691522013867842e-05,
      "loss": 0.1081,
      "step": 6819
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1684806885630004e-05,
      "loss": 0.1139,
      "step": 6820
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.167809309823175e-05,
      "loss": 0.1202,
      "step": 6821
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1671380652349157e-05,
      "loss": 0.099,
      "step": 6822
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1664669548658175e-05,
      "loss": 0.1374,
      "step": 6823
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1657959787834586e-05,
      "loss": 0.223,
      "step": 6824
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1651251370554101e-05,
      "loss": 0.2046,
      "step": 6825
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1644544297492227e-05,
      "loss": 0.1556,
      "step": 6826
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.163783856932438e-05,
      "loss": 0.1327,
      "step": 6827
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.163113418672582e-05,
      "loss": 0.1239,
      "step": 6828
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1624431150371684e-05,
      "loss": 0.0808,
      "step": 6829
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1617729460936963e-05,
      "loss": 0.0736,
      "step": 6830
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1611029119096531e-05,
      "loss": 0.0507,
      "step": 6831
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1604330125525079e-05,
      "loss": 0.0804,
      "step": 6832
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1597632480897236e-05,
      "loss": 0.0912,
      "step": 6833
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1590936185887428e-05,
      "loss": 0.0884,
      "step": 6834
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1584241241169977e-05,
      "loss": 0.1356,
      "step": 6835
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1577547647419068e-05,
      "loss": 0.0749,
      "step": 6836
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1570855405308753e-05,
      "loss": 0.1148,
      "step": 6837
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.156416451551291e-05,
      "loss": 0.057,
      "step": 6838
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1557474978705354e-05,
      "loss": 0.0594,
      "step": 6839
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.155078679555969e-05,
      "loss": 0.0413,
      "step": 6840
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1544099966749427e-05,
      "loss": 0.062,
      "step": 6841
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.153741449294793e-05,
      "loss": 0.0413,
      "step": 6842
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1530730374828422e-05,
      "loss": 0.026,
      "step": 6843
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.152404761306401e-05,
      "loss": 0.0465,
      "step": 6844
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1517366208327624e-05,
      "loss": 0.1208,
      "step": 6845
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1510686161292092e-05,
      "loss": 0.1066,
      "step": 6846
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1504007472630093e-05,
      "loss": 0.1123,
      "step": 6847
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1497330143014174e-05,
      "loss": 0.1515,
      "step": 6848
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.1490654173116739e-05,
      "loss": 0.1307,
      "step": 6849
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.148397956361007e-05,
      "loss": 0.181,
      "step": 6850
    },
    {
      "epoch": 0.69,
      "eval_loss": 0.6940001845359802,
      "eval_runtime": 67.1006,
      "eval_samples_per_second": 3.443,
      "eval_steps_per_second": 0.864,
      "step": 6850
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.147730631516627e-05,
      "loss": 0.19,
      "step": 6851
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1470634428457372e-05,
      "loss": 0.0912,
      "step": 6852
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1463963904155205e-05,
      "loss": 0.1246,
      "step": 6853
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1457294742931507e-05,
      "loss": 0.1124,
      "step": 6854
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1450626945457857e-05,
      "loss": 0.1131,
      "step": 6855
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1443960512405702e-05,
      "loss": 0.1513,
      "step": 6856
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1437295444446352e-05,
      "loss": 0.1459,
      "step": 6857
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1430631742250989e-05,
      "loss": 0.1469,
      "step": 6858
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.142396940649062e-05,
      "loss": 0.1004,
      "step": 6859
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.141730843783618e-05,
      "loss": 0.2159,
      "step": 6860
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1410648836958398e-05,
      "loss": 0.1789,
      "step": 6861
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1403990604527906e-05,
      "loss": 0.4202,
      "step": 6862
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1397333741215188e-05,
      "loss": 0.5021,
      "step": 6863
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1390678247690591e-05,
      "loss": 0.2188,
      "step": 6864
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1384024124624324e-05,
      "loss": 0.836,
      "step": 6865
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.137737137268646e-05,
      "loss": 0.7838,
      "step": 6866
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.137071999254691e-05,
      "loss": 0.365,
      "step": 6867
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1364069984875503e-05,
      "loss": 0.1013,
      "step": 6868
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1357421350341865e-05,
      "loss": 0.1352,
      "step": 6869
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1350774089615524e-05,
      "loss": 0.135,
      "step": 6870
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1344128203365858e-05,
      "loss": 0.0806,
      "step": 6871
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.133748369226212e-05,
      "loss": 0.1769,
      "step": 6872
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.133084055697338e-05,
      "loss": 0.0511,
      "step": 6873
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.132419879816864e-05,
      "loss": 0.0805,
      "step": 6874
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1317558416516697e-05,
      "loss": 0.1264,
      "step": 6875
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1310919412686247e-05,
      "loss": 0.1291,
      "step": 6876
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1304281787345838e-05,
      "loss": 0.0642,
      "step": 6877
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1297645541163881e-05,
      "loss": 0.0509,
      "step": 6878
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1291010674808642e-05,
      "loss": 0.063,
      "step": 6879
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1284377188948258e-05,
      "loss": 0.0672,
      "step": 6880
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1277745084250702e-05,
      "loss": 0.0424,
      "step": 6881
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1271114361383859e-05,
      "loss": 0.0361,
      "step": 6882
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1264485021015412e-05,
      "loss": 0.0728,
      "step": 6883
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1257857063812948e-05,
      "loss": 0.0968,
      "step": 6884
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1251230490443903e-05,
      "loss": 0.0402,
      "step": 6885
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1244605301575572e-05,
      "loss": 0.108,
      "step": 6886
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.123798149787511e-05,
      "loss": 0.131,
      "step": 6887
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1231359080009543e-05,
      "loss": 0.1192,
      "step": 6888
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1224738048645722e-05,
      "loss": 0.1589,
      "step": 6889
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1218118404450422e-05,
      "loss": 0.1235,
      "step": 6890
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1211500148090212e-05,
      "loss": 0.1134,
      "step": 6891
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1204883280231559e-05,
      "loss": 0.1454,
      "step": 6892
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1198267801540782e-05,
      "loss": 0.1596,
      "step": 6893
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.119165371268406e-05,
      "loss": 0.0845,
      "step": 6894
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1185041014327433e-05,
      "loss": 0.111,
      "step": 6895
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1178429707136807e-05,
      "loss": 0.0829,
      "step": 6896
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.117181979177791e-05,
      "loss": 0.0982,
      "step": 6897
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.11652112689164e-05,
      "loss": 0.09,
      "step": 6898
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.115860413921773e-05,
      "loss": 0.083,
      "step": 6899
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1151998403347244e-05,
      "loss": 0.13,
      "step": 6900
    },
    {
      "epoch": 0.69,
      "eval_loss": 0.6856905221939087,
      "eval_runtime": 65.8959,
      "eval_samples_per_second": 3.506,
      "eval_steps_per_second": 0.88,
      "step": 6900
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.114539406197014e-05,
      "loss": 0.1729,
      "step": 6901
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1138791115751482e-05,
      "loss": 0.1923,
      "step": 6902
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1132189565356164e-05,
      "loss": 0.1785,
      "step": 6903
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1125589411448994e-05,
      "loss": 0.168,
      "step": 6904
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.111899065469458e-05,
      "loss": 0.1222,
      "step": 6905
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1112393295757432e-05,
      "loss": 0.1379,
      "step": 6906
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1105797335301895e-05,
      "loss": 0.1023,
      "step": 6907
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1099202773992187e-05,
      "loss": 0.1215,
      "step": 6908
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.109260961249238e-05,
      "loss": 0.1269,
      "step": 6909
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1086017851466413e-05,
      "loss": 0.214,
      "step": 6910
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1079427491578048e-05,
      "loss": 0.12,
      "step": 6911
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1072838533490973e-05,
      "loss": 0.1677,
      "step": 6912
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.106625097786867e-05,
      "loss": 0.1684,
      "step": 6913
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1059664825374511e-05,
      "loss": 0.1107,
      "step": 6914
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1053080076671721e-05,
      "loss": 0.0788,
      "step": 6915
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1046496732423386e-05,
      "loss": 0.0586,
      "step": 6916
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.103991479329245e-05,
      "loss": 0.0935,
      "step": 6917
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1033334259941719e-05,
      "loss": 0.1601,
      "step": 6918
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1026755133033829e-05,
      "loss": 0.2133,
      "step": 6919
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1020177413231334e-05,
      "loss": 0.1514,
      "step": 6920
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.101360110119658e-05,
      "loss": 0.2553,
      "step": 6921
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1007026197591813e-05,
      "loss": 0.2647,
      "step": 6922
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.1000452703079125e-05,
      "loss": 0.1929,
      "step": 6923
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.0993880618320469e-05,
      "loss": 0.1046,
      "step": 6924
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.0987309943977647e-05,
      "loss": 0.1492,
      "step": 6925
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.0980740680712342e-05,
      "loss": 0.1558,
      "step": 6926
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.0974172829186047e-05,
      "loss": 0.1578,
      "step": 6927
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.0967606390060185e-05,
      "loss": 0.1633,
      "step": 6928
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.0961041363995974e-05,
      "loss": 0.1467,
      "step": 6929
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.0954477751654497e-05,
      "loss": 0.1336,
      "step": 6930
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.0947915553696742e-05,
      "loss": 0.0987,
      "step": 6931
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.09413547707835e-05,
      "loss": 0.1064,
      "step": 6932
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.0934795403575447e-05,
      "loss": 0.1185,
      "step": 6933
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.092823745273311e-05,
      "loss": 0.1637,
      "step": 6934
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.0921680918916877e-05,
      "loss": 0.1219,
      "step": 6935
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.091512580278699e-05,
      "loss": 0.113,
      "step": 6936
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.0908572105003562e-05,
      "loss": 0.1015,
      "step": 6937
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.0902019826226515e-05,
      "loss": 0.1375,
      "step": 6938
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.0895468967115704e-05,
      "loss": 0.1417,
      "step": 6939
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.0888919528330777e-05,
      "loss": 0.1601,
      "step": 6940
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.0882371510531264e-05,
      "loss": 0.1678,
      "step": 6941
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.0875824914376553e-05,
      "loss": 0.2119,
      "step": 6942
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.086927974052589e-05,
      "loss": 0.1074,
      "step": 6943
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.0862735989638367e-05,
      "loss": 0.1422,
      "step": 6944
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.0856193662372955e-05,
      "loss": 0.1395,
      "step": 6945
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.0849652759388435e-05,
      "loss": 0.1608,
      "step": 6946
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.0843113281343511e-05,
      "loss": 0.1081,
      "step": 6947
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.0836575228896687e-05,
      "loss": 0.1064,
      "step": 6948
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.0830038602706346e-05,
      "loss": 0.1207,
      "step": 6949
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.0823503403430734e-05,
      "loss": 0.1263,
      "step": 6950
    },
    {
      "epoch": 0.69,
      "eval_loss": 0.6945862770080566,
      "eval_runtime": 66.0573,
      "eval_samples_per_second": 3.497,
      "eval_steps_per_second": 0.878,
      "step": 6950
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0816969631727938e-05,
      "loss": 0.1507,
      "step": 6951
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0810437288255915e-05,
      "loss": 0.146,
      "step": 6952
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0803906373672476e-05,
      "loss": 0.1263,
      "step": 6953
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0797376888635257e-05,
      "loss": 0.0927,
      "step": 6954
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0790848833801816e-05,
      "loss": 0.1155,
      "step": 6955
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0784322209829503e-05,
      "loss": 0.1113,
      "step": 6956
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0777797017375552e-05,
      "loss": 0.1348,
      "step": 6957
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.077127325709705e-05,
      "loss": 0.1431,
      "step": 6958
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0764750929650944e-05,
      "loss": 0.2113,
      "step": 6959
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0758230035694031e-05,
      "loss": 0.1302,
      "step": 6960
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.075171057588297e-05,
      "loss": 0.1591,
      "step": 6961
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0745192550874259e-05,
      "loss": 0.1591,
      "step": 6962
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0738675961324263e-05,
      "loss": 0.0924,
      "step": 6963
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0732160807889211e-05,
      "loss": 0.2117,
      "step": 6964
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0725647091225174e-05,
      "loss": 0.1473,
      "step": 6965
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0719134811988086e-05,
      "loss": 0.1121,
      "step": 6966
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0712623970833737e-05,
      "loss": 0.0761,
      "step": 6967
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.070611456841775e-05,
      "loss": 0.1173,
      "step": 6968
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0699606605395648e-05,
      "loss": 0.1532,
      "step": 6969
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0693100082422763e-05,
      "loss": 0.1395,
      "step": 6970
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0686595000154309e-05,
      "loss": 0.1315,
      "step": 6971
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0680091359245345e-05,
      "loss": 0.147,
      "step": 6972
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0673589160350791e-05,
      "loss": 0.1033,
      "step": 6973
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0667088404125417e-05,
      "loss": 0.0702,
      "step": 6974
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0660589091223855e-05,
      "loss": 0.1216,
      "step": 6975
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0654091222300564e-05,
      "loss": 0.192,
      "step": 6976
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.064759479800991e-05,
      "loss": 0.1347,
      "step": 6977
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.064109981900606e-05,
      "loss": 0.1997,
      "step": 6978
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0634606285943064e-05,
      "loss": 0.1333,
      "step": 6979
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.062811419947482e-05,
      "loss": 0.0795,
      "step": 6980
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0621623560255087e-05,
      "loss": 0.0689,
      "step": 6981
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0615134368937466e-05,
      "loss": 0.1407,
      "step": 6982
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0608646626175428e-05,
      "loss": 0.0926,
      "step": 6983
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0602160332622266e-05,
      "loss": 0.1601,
      "step": 6984
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.059567548893118e-05,
      "loss": 0.0927,
      "step": 6985
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.058919209575517e-05,
      "loss": 0.185,
      "step": 6986
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0582710153747124e-05,
      "loss": 0.1091,
      "step": 6987
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.057622966355977e-05,
      "loss": 0.1781,
      "step": 6988
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0569750625845692e-05,
      "loss": 0.2238,
      "step": 6989
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0563273041257332e-05,
      "loss": 0.1343,
      "step": 6990
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0556796910446991e-05,
      "loss": 0.1208,
      "step": 6991
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0550322234066787e-05,
      "loss": 0.1553,
      "step": 6992
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0543849012768759e-05,
      "loss": 0.1951,
      "step": 6993
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.053737724720473e-05,
      "loss": 0.1437,
      "step": 6994
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0530906938026416e-05,
      "loss": 0.117,
      "step": 6995
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0524438085885378e-05,
      "loss": 0.1016,
      "step": 6996
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0517970691433035e-05,
      "loss": 0.0851,
      "step": 6997
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0511504755320633e-05,
      "loss": 0.1298,
      "step": 6998
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0505040278199321e-05,
      "loss": 0.0782,
      "step": 6999
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.049857726072005e-05,
      "loss": 0.0753,
      "step": 7000
    },
    {
      "epoch": 0.7,
      "eval_loss": 0.6881042718887329,
      "eval_runtime": 66.3052,
      "eval_samples_per_second": 3.484,
      "eval_steps_per_second": 0.875,
      "step": 7000
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.049211570353365e-05,
      "loss": 0.1377,
      "step": 7001
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.04856556072908e-05,
      "loss": 0.1682,
      "step": 7002
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0479196972642037e-05,
      "loss": 0.1681,
      "step": 7003
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.047273980023774e-05,
      "loss": 0.1415,
      "step": 7004
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0466284090728157e-05,
      "loss": 0.1285,
      "step": 7005
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.045982984476335e-05,
      "loss": 0.1243,
      "step": 7006
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0453377062993297e-05,
      "loss": 0.076,
      "step": 7007
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0446925746067768e-05,
      "loss": 0.1451,
      "step": 7008
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0440475894636417e-05,
      "loss": 0.1093,
      "step": 7009
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0434027509348746e-05,
      "loss": 0.0939,
      "step": 7010
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0427580590854106e-05,
      "loss": 0.1087,
      "step": 7011
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0421135139801702e-05,
      "loss": 0.1563,
      "step": 7012
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0414691156840597e-05,
      "loss": 0.1701,
      "step": 7013
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0408248642619687e-05,
      "loss": 0.0987,
      "step": 7014
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0401807597787738e-05,
      "loss": 0.1379,
      "step": 7015
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0395368022993368e-05,
      "loss": 0.1511,
      "step": 7016
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0388929918885035e-05,
      "loss": 0.0588,
      "step": 7017
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.038249328611107e-05,
      "loss": 0.0662,
      "step": 7018
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0376058125319613e-05,
      "loss": 0.1158,
      "step": 7019
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.036962443715872e-05,
      "loss": 0.1308,
      "step": 7020
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0363192222276235e-05,
      "loss": 0.1108,
      "step": 7021
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0356761481319896e-05,
      "loss": 0.1611,
      "step": 7022
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0350332214937276e-05,
      "loss": 0.0887,
      "step": 7023
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0343904423775805e-05,
      "loss": 0.0814,
      "step": 7024
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0337478108482742e-05,
      "loss": 0.0587,
      "step": 7025
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0331053269705251e-05,
      "loss": 0.1067,
      "step": 7026
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0324629908090286e-05,
      "loss": 0.1096,
      "step": 7027
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0318208024284686e-05,
      "loss": 0.083,
      "step": 7028
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0311787618935138e-05,
      "loss": 0.115,
      "step": 7029
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0305368692688174e-05,
      "loss": 0.24,
      "step": 7030
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.029895124619018e-05,
      "loss": 0.0904,
      "step": 7031
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0292535280087403e-05,
      "loss": 0.165,
      "step": 7032
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0286120795025903e-05,
      "loss": 0.1176,
      "step": 7033
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0279707791651655e-05,
      "loss": 0.1773,
      "step": 7034
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0273296270610419e-05,
      "loss": 0.1713,
      "step": 7035
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0266886232547846e-05,
      "loss": 0.1586,
      "step": 7036
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0260477678109426e-05,
      "loss": 0.1031,
      "step": 7037
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0254070607940502e-05,
      "loss": 0.095,
      "step": 7038
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0247665022686262e-05,
      "loss": 0.1263,
      "step": 7039
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.024126092299176e-05,
      "loss": 0.1442,
      "step": 7040
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0234858309501862e-05,
      "loss": 0.198,
      "step": 7041
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0228457182861348e-05,
      "loss": 0.1049,
      "step": 7042
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.022205754371478e-05,
      "loss": 0.1837,
      "step": 7043
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0215659392706615e-05,
      "loss": 0.145,
      "step": 7044
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0209262730481143e-05,
      "loss": 0.1266,
      "step": 7045
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0202867557682511e-05,
      "loss": 0.1246,
      "step": 7046
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.019647387495471e-05,
      "loss": 0.0334,
      "step": 7047
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0190081682941593e-05,
      "loss": 0.0603,
      "step": 7048
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0183690982286827e-05,
      "loss": 0.0977,
      "step": 7049
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.0177301773633993e-05,
      "loss": 0.0699,
      "step": 7050
    },
    {
      "epoch": 0.7,
      "eval_loss": 0.6942818760871887,
      "eval_runtime": 72.6452,
      "eval_samples_per_second": 3.18,
      "eval_steps_per_second": 0.798,
      "step": 7050
    },
    {
      "epoch": 0.71,
      "learning_rate": 1.0170914057626455e-05,
      "loss": 0.0728,
      "step": 7051
    },
    {
      "epoch": 0.71,
      "learning_rate": 1.0164527834907467e-05,
      "loss": 0.15,
      "step": 7052
    },
    {
      "epoch": 0.71,
      "learning_rate": 1.0158143106120119e-05,
      "loss": 0.1188,
      "step": 7053
    },
    {
      "epoch": 0.71,
      "learning_rate": 1.0151759871907362e-05,
      "loss": 0.2784,
      "step": 7054
    },
    {
      "epoch": 0.71,
      "learning_rate": 1.0145378132911964e-05,
      "loss": 0.1244,
      "step": 7055
    },
    {
      "epoch": 0.71,
      "learning_rate": 1.0138997889776597e-05,
      "loss": 0.1359,
      "step": 7056
    },
    {
      "epoch": 0.71,
      "learning_rate": 1.0132619143143729e-05,
      "loss": 0.0632,
      "step": 7057
    },
    {
      "epoch": 0.71,
      "learning_rate": 1.0126241893655706e-05,
      "loss": 0.1569,
      "step": 7058
    },
    {
      "epoch": 0.71,
      "learning_rate": 1.0119866141954717e-05,
      "loss": 0.0827,
      "step": 7059
    },
    {
      "epoch": 0.71,
      "learning_rate": 1.0113491888682802e-05,
      "loss": 0.1014,
      "step": 7060
    },
    {
      "epoch": 0.71,
      "learning_rate": 1.0107119134481843e-05,
      "loss": 0.1923,
      "step": 7061
    },
    {
      "epoch": 0.71,
      "learning_rate": 1.0100747879993591e-05,
      "loss": 0.123,
      "step": 7062
    },
    {
      "epoch": 0.71,
      "learning_rate": 1.0094378125859602e-05,
      "loss": 0.1691,
      "step": 7063
    },
    {
      "epoch": 0.71,
      "learning_rate": 1.0088009872721346e-05,
      "loss": 0.1364,
      "step": 7064
    },
    {
      "epoch": 0.71,
      "learning_rate": 1.0081643121220077e-05,
      "loss": 0.0983,
      "step": 7065
    },
    {
      "epoch": 0.71,
      "learning_rate": 1.0075277871996938e-05,
      "loss": 0.0803,
      "step": 7066
    },
    {
      "epoch": 0.71,
      "learning_rate": 1.006891412569291e-05,
      "loss": 0.1038,
      "step": 7067
    },
    {
      "epoch": 0.71,
      "learning_rate": 1.006255188294882e-05,
      "loss": 0.0561,
      "step": 7068
    },
    {
      "epoch": 0.71,
      "learning_rate": 1.0056191144405349e-05,
      "loss": 0.0801,
      "step": 7069
    },
    {
      "epoch": 0.71,
      "learning_rate": 1.0049831910703028e-05,
      "loss": 0.1905,
      "step": 7070
    },
    {
      "epoch": 0.71,
      "learning_rate": 1.0043474182482207e-05,
      "loss": 0.121,
      "step": 7071
    },
    {
      "epoch": 0.71,
      "learning_rate": 1.0037117960383144e-05,
      "loss": 0.0354,
      "step": 7072
    },
    {
      "epoch": 0.71,
      "learning_rate": 1.0030763245045886e-05,
      "loss": 0.0612,
      "step": 7073
    },
    {
      "epoch": 0.71,
      "learning_rate": 1.0024410037110357e-05,
      "loss": 0.0595,
      "step": 7074
    },
    {
      "epoch": 0.71,
      "learning_rate": 1.0018058337216327e-05,
      "loss": 0.0312,
      "step": 7075
    },
    {
      "epoch": 0.71,
      "learning_rate": 1.0011708146003414e-05,
      "loss": 0.0267,
      "step": 7076
    },
    {
      "epoch": 0.71,
      "learning_rate": 1.000535946411108e-05,
      "loss": 0.074,
      "step": 7077
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.999012292178646e-06,
      "loss": 0.1334,
      "step": 7078
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.992666630845249e-06,
      "loss": 0.1037,
      "step": 7079
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.986322480749927e-06,
      "loss": 0.0885,
      "step": 7080
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.979979842531511e-06,
      "loss": 0.0949,
      "step": 7081
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.973638716828714e-06,
      "loss": 0.1199,
      "step": 7082
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.967299104280089e-06,
      "loss": 0.0799,
      "step": 7083
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.960961005524034e-06,
      "loss": 0.096,
      "step": 7084
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.954624421198792e-06,
      "loss": 0.1452,
      "step": 7085
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.948289351942467e-06,
      "loss": 0.091,
      "step": 7086
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.941955798392974e-06,
      "loss": 0.1835,
      "step": 7087
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.93562376118814e-06,
      "loss": 0.1782,
      "step": 7088
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.929293240965574e-06,
      "loss": 0.1733,
      "step": 7089
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.922964238362762e-06,
      "loss": 0.1122,
      "step": 7090
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.916636754017042e-06,
      "loss": 0.1392,
      "step": 7091
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.910310788565593e-06,
      "loss": 0.2459,
      "step": 7092
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.903986342645422e-06,
      "loss": 0.226,
      "step": 7093
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.897663416893427e-06,
      "loss": 0.1267,
      "step": 7094
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.891342011946305e-06,
      "loss": 0.1254,
      "step": 7095
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.88502212844063e-06,
      "loss": 0.1025,
      "step": 7096
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.878703767012812e-06,
      "loss": 0.161,
      "step": 7097
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.872386928299113e-06,
      "loss": 0.0956,
      "step": 7098
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.866071612935642e-06,
      "loss": 0.1143,
      "step": 7099
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.859757821558337e-06,
      "loss": 0.0628,
      "step": 7100
    },
    {
      "epoch": 0.71,
      "eval_loss": 0.6850395798683167,
      "eval_runtime": 72.8483,
      "eval_samples_per_second": 3.171,
      "eval_steps_per_second": 0.796,
      "step": 7100
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.853445554803009e-06,
      "loss": 0.0815,
      "step": 7101
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.847134813305295e-06,
      "loss": 0.0997,
      "step": 7102
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.840825597700692e-06,
      "loss": 0.0723,
      "step": 7103
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.834517908624538e-06,
      "loss": 0.0885,
      "step": 7104
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.828211746712024e-06,
      "loss": 0.115,
      "step": 7105
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.821907112598152e-06,
      "loss": 0.1008,
      "step": 7106
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.815604006917839e-06,
      "loss": 0.0988,
      "step": 7107
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.809302430305778e-06,
      "loss": 0.1601,
      "step": 7108
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.803002383396544e-06,
      "loss": 0.1262,
      "step": 7109
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.796703866824555e-06,
      "loss": 0.2346,
      "step": 7110
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.790406881224074e-06,
      "loss": 0.2485,
      "step": 7111
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.7841114272292e-06,
      "loss": 0.1548,
      "step": 7112
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.777817505473899e-06,
      "loss": 0.1206,
      "step": 7113
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.77152511659194e-06,
      "loss": 0.1509,
      "step": 7114
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.765234261217005e-06,
      "loss": 0.1525,
      "step": 7115
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.758944939982553e-06,
      "loss": 0.1657,
      "step": 7116
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.752657153521926e-06,
      "loss": 0.1477,
      "step": 7117
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.746370902468311e-06,
      "loss": 0.1558,
      "step": 7118
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.740086187454736e-06,
      "loss": 0.1257,
      "step": 7119
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.733803009114045e-06,
      "loss": 0.1262,
      "step": 7120
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.727521368078993e-06,
      "loss": 0.1251,
      "step": 7121
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.721241264982111e-06,
      "loss": 0.0853,
      "step": 7122
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.714962700455817e-06,
      "loss": 0.1528,
      "step": 7123
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.708685675132359e-06,
      "loss": 0.2,
      "step": 7124
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.702410189643837e-06,
      "loss": 0.115,
      "step": 7125
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.696136244622189e-06,
      "loss": 0.1077,
      "step": 7126
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.689863840699212e-06,
      "loss": 0.0739,
      "step": 7127
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.683592978506511e-06,
      "loss": 0.1401,
      "step": 7128
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.677323658675594e-06,
      "loss": 0.1687,
      "step": 7129
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.671055881837756e-06,
      "loss": 0.0879,
      "step": 7130
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.664789648624173e-06,
      "loss": 0.1136,
      "step": 7131
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.658524959665852e-06,
      "loss": 0.0637,
      "step": 7132
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.652261815593646e-06,
      "loss": 0.1302,
      "step": 7133
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.646000217038256e-06,
      "loss": 0.1125,
      "step": 7134
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.639740164630235e-06,
      "loss": 0.0584,
      "step": 7135
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.63348165899994e-06,
      "loss": 0.0749,
      "step": 7136
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.627224700777637e-06,
      "loss": 0.0835,
      "step": 7137
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.620969290593382e-06,
      "loss": 0.1235,
      "step": 7138
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.614715429077095e-06,
      "loss": 0.1305,
      "step": 7139
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.608463116858542e-06,
      "loss": 0.0864,
      "step": 7140
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.602212354567337e-06,
      "loss": 0.0913,
      "step": 7141
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.595963142832923e-06,
      "loss": 0.0937,
      "step": 7142
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.589715482284609e-06,
      "loss": 0.1548,
      "step": 7143
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.583469373551507e-06,
      "loss": 0.0561,
      "step": 7144
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.577224817262634e-06,
      "loss": 0.0918,
      "step": 7145
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.570981814046792e-06,
      "loss": 0.206,
      "step": 7146
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.564740364532656e-06,
      "loss": 0.1266,
      "step": 7147
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.558500469348747e-06,
      "loss": 0.2259,
      "step": 7148
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.552262129123426e-06,
      "loss": 0.1454,
      "step": 7149
    },
    {
      "epoch": 0.71,
      "learning_rate": 9.546025344484869e-06,
      "loss": 0.0858,
      "step": 7150
    },
    {
      "epoch": 0.71,
      "eval_loss": 0.6807611584663391,
      "eval_runtime": 72.5835,
      "eval_samples_per_second": 3.183,
      "eval_steps_per_second": 0.799,
      "step": 7150
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.539790116061151e-06,
      "loss": 0.0956,
      "step": 7151
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.53355644448014e-06,
      "loss": 0.1497,
      "step": 7152
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.527324330369572e-06,
      "loss": 0.1208,
      "step": 7153
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.521093774357017e-06,
      "loss": 0.0479,
      "step": 7154
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.514864777069899e-06,
      "loss": 0.0673,
      "step": 7155
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.508637339135474e-06,
      "loss": 0.0922,
      "step": 7156
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.502411461180852e-06,
      "loss": 0.0536,
      "step": 7157
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.496187143832956e-06,
      "loss": 0.0555,
      "step": 7158
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.489964387718605e-06,
      "loss": 0.0691,
      "step": 7159
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.483743193464408e-06,
      "loss": 0.0759,
      "step": 7160
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.47752356169685e-06,
      "loss": 0.1622,
      "step": 7161
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.471305493042243e-06,
      "loss": 0.1844,
      "step": 7162
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.465088988126746e-06,
      "loss": 0.165,
      "step": 7163
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.458874047576366e-06,
      "loss": 0.093,
      "step": 7164
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.452660672016949e-06,
      "loss": 0.0973,
      "step": 7165
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.446448862074161e-06,
      "loss": 0.1385,
      "step": 7166
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.440238618373568e-06,
      "loss": 0.1102,
      "step": 7167
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.434029941540507e-06,
      "loss": 0.1006,
      "step": 7168
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.427822832200206e-06,
      "loss": 0.1478,
      "step": 7169
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.421617290977721e-06,
      "loss": 0.0778,
      "step": 7170
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.415413318497948e-06,
      "loss": 0.0853,
      "step": 7171
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.409210915385627e-06,
      "loss": 0.1127,
      "step": 7172
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.403010082265351e-06,
      "loss": 0.1452,
      "step": 7173
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.396810819761514e-06,
      "loss": 0.056,
      "step": 7174
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.390613128498418e-06,
      "loss": 0.0533,
      "step": 7175
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.384417009100144e-06,
      "loss": 0.0555,
      "step": 7176
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.37822246219065e-06,
      "loss": 0.0997,
      "step": 7177
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.372029488393728e-06,
      "loss": 0.0905,
      "step": 7178
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.365838088333007e-06,
      "loss": 0.1082,
      "step": 7179
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.359648262631961e-06,
      "loss": 0.1571,
      "step": 7180
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.353460011913917e-06,
      "loss": 0.0166,
      "step": 7181
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.347273336802006e-06,
      "loss": 0.0899,
      "step": 7182
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.34108823791926e-06,
      "loss": 0.0374,
      "step": 7183
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.334904715888495e-06,
      "loss": 0.1559,
      "step": 7184
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.328722771332386e-06,
      "loss": 0.1497,
      "step": 7185
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.322542404873478e-06,
      "loss": 0.1883,
      "step": 7186
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.316363617134114e-06,
      "loss": 0.0742,
      "step": 7187
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.310186408736502e-06,
      "loss": 0.1044,
      "step": 7188
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.30401078030269e-06,
      "loss": 0.1401,
      "step": 7189
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.297836732454564e-06,
      "loss": 0.2248,
      "step": 7190
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.29166426581385e-06,
      "loss": 0.0677,
      "step": 7191
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.285493381002122e-06,
      "loss": 0.1265,
      "step": 7192
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.279324078640763e-06,
      "loss": 0.1312,
      "step": 7193
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.273156359351059e-06,
      "loss": 0.0521,
      "step": 7194
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.266990223754069e-06,
      "loss": 0.1554,
      "step": 7195
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.260825672470732e-06,
      "loss": 0.1502,
      "step": 7196
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.254662706121819e-06,
      "loss": 0.1635,
      "step": 7197
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.248501325327944e-06,
      "loss": 0.2861,
      "step": 7198
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.242341530709554e-06,
      "loss": 0.1695,
      "step": 7199
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.236183322886945e-06,
      "loss": 0.1514,
      "step": 7200
    },
    {
      "epoch": 0.72,
      "eval_loss": 0.6834983825683594,
      "eval_runtime": 72.635,
      "eval_samples_per_second": 3.18,
      "eval_steps_per_second": 0.799,
      "step": 7200
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.23002670248023e-06,
      "loss": 0.1465,
      "step": 7201
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.22387167010941e-06,
      "loss": 0.0932,
      "step": 7202
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.217718226394276e-06,
      "loss": 0.0284,
      "step": 7203
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.21156637195448e-06,
      "loss": 0.2332,
      "step": 7204
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.205416107409523e-06,
      "loss": 0.1002,
      "step": 7205
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.199267433378727e-06,
      "loss": 0.0852,
      "step": 7206
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.193120350481274e-06,
      "loss": 0.1709,
      "step": 7207
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.186974859336173e-06,
      "loss": 0.1959,
      "step": 7208
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.180830960562256e-06,
      "loss": 0.2888,
      "step": 7209
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.174688654778243e-06,
      "loss": 0.1656,
      "step": 7210
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.168547942602645e-06,
      "loss": 0.1886,
      "step": 7211
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.162408824653834e-06,
      "loss": 0.0681,
      "step": 7212
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.15627130155002e-06,
      "loss": 0.1129,
      "step": 7213
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.150135373909264e-06,
      "loss": 0.2113,
      "step": 7214
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.14400104234942e-06,
      "loss": 0.1226,
      "step": 7215
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.137868307488259e-06,
      "loss": 0.1239,
      "step": 7216
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.131737169943314e-06,
      "loss": 0.0799,
      "step": 7217
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.125607630332002e-06,
      "loss": 0.1086,
      "step": 7218
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.11947968927157e-06,
      "loss": 0.1509,
      "step": 7219
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.113353347379097e-06,
      "loss": 0.1258,
      "step": 7220
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.107228605271506e-06,
      "loss": 0.0902,
      "step": 7221
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.10110546356557e-06,
      "loss": 0.1007,
      "step": 7222
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.094983922877862e-06,
      "loss": 0.1135,
      "step": 7223
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.088863983824852e-06,
      "loss": 0.1277,
      "step": 7224
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.082745647022797e-06,
      "loss": 0.0979,
      "step": 7225
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.07662891308782e-06,
      "loss": 0.0839,
      "step": 7226
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.070513782635876e-06,
      "loss": 0.1173,
      "step": 7227
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.064400256282757e-06,
      "loss": 0.0985,
      "step": 7228
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.058288334644096e-06,
      "loss": 0.1083,
      "step": 7229
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.052178018335374e-06,
      "loss": 0.0681,
      "step": 7230
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.046069307971872e-06,
      "loss": 0.0984,
      "step": 7231
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.03996220416877e-06,
      "loss": 0.0908,
      "step": 7232
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.033856707541027e-06,
      "loss": 0.1479,
      "step": 7233
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.02775281870348e-06,
      "loss": 0.0788,
      "step": 7234
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.021650538270787e-06,
      "loss": 0.1238,
      "step": 7235
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.015549866857444e-06,
      "loss": 0.0828,
      "step": 7236
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.009450805077797e-06,
      "loss": 0.0855,
      "step": 7237
    },
    {
      "epoch": 0.72,
      "learning_rate": 9.00335335354602e-06,
      "loss": 0.0726,
      "step": 7238
    },
    {
      "epoch": 0.72,
      "learning_rate": 8.997257512876108e-06,
      "loss": 0.0733,
      "step": 7239
    },
    {
      "epoch": 0.72,
      "learning_rate": 8.991163283681944e-06,
      "loss": 0.075,
      "step": 7240
    },
    {
      "epoch": 0.72,
      "learning_rate": 8.985070666577192e-06,
      "loss": 0.069,
      "step": 7241
    },
    {
      "epoch": 0.72,
      "learning_rate": 8.978979662175382e-06,
      "loss": 0.063,
      "step": 7242
    },
    {
      "epoch": 0.72,
      "learning_rate": 8.972890271089884e-06,
      "loss": 0.1711,
      "step": 7243
    },
    {
      "epoch": 0.72,
      "learning_rate": 8.966802493933906e-06,
      "loss": 0.0586,
      "step": 7244
    },
    {
      "epoch": 0.72,
      "learning_rate": 8.96071633132046e-06,
      "loss": 0.063,
      "step": 7245
    },
    {
      "epoch": 0.72,
      "learning_rate": 8.954631783862457e-06,
      "loss": 0.0961,
      "step": 7246
    },
    {
      "epoch": 0.72,
      "learning_rate": 8.94854885217259e-06,
      "loss": 0.0962,
      "step": 7247
    },
    {
      "epoch": 0.72,
      "learning_rate": 8.942467536863412e-06,
      "loss": 0.0676,
      "step": 7248
    },
    {
      "epoch": 0.72,
      "learning_rate": 8.936387838547311e-06,
      "loss": 0.141,
      "step": 7249
    },
    {
      "epoch": 0.72,
      "learning_rate": 8.930309757836517e-06,
      "loss": 0.1368,
      "step": 7250
    },
    {
      "epoch": 0.72,
      "eval_loss": 0.6925221681594849,
      "eval_runtime": 73.0231,
      "eval_samples_per_second": 3.163,
      "eval_steps_per_second": 0.794,
      "step": 7250
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.924233295343091e-06,
      "loss": 0.1129,
      "step": 7251
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.91815845167894e-06,
      "loss": 0.1473,
      "step": 7252
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.912085227455776e-06,
      "loss": 0.0648,
      "step": 7253
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.90601362328521e-06,
      "loss": 0.1786,
      "step": 7254
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.899943639778619e-06,
      "loss": 0.0799,
      "step": 7255
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.893875277547265e-06,
      "loss": 0.1498,
      "step": 7256
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.887808537202227e-06,
      "loss": 0.0851,
      "step": 7257
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.88174341935443e-06,
      "loss": 0.0998,
      "step": 7258
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.875679924614629e-06,
      "loss": 0.0781,
      "step": 7259
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.86961805359343e-06,
      "loss": 0.1243,
      "step": 7260
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.863557806901233e-06,
      "loss": 0.1472,
      "step": 7261
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.857499185148338e-06,
      "loss": 0.1033,
      "step": 7262
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.851442188944829e-06,
      "loss": 0.0728,
      "step": 7263
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.845386818900647e-06,
      "loss": 0.0813,
      "step": 7264
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.839333075625569e-06,
      "loss": 0.0908,
      "step": 7265
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.833280959729211e-06,
      "loss": 0.107,
      "step": 7266
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.827230471821016e-06,
      "loss": 0.1085,
      "step": 7267
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.821181612510279e-06,
      "loss": 0.0987,
      "step": 7268
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.815134382406103e-06,
      "loss": 0.137,
      "step": 7269
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.809088782117452e-06,
      "loss": 0.2017,
      "step": 7270
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.80304481225312e-06,
      "loss": 0.1757,
      "step": 7271
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.797002473421728e-06,
      "loss": 0.1379,
      "step": 7272
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.790961766231753e-06,
      "loss": 0.1209,
      "step": 7273
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.784922691291469e-06,
      "loss": 0.1146,
      "step": 7274
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.778885249209044e-06,
      "loss": 0.0668,
      "step": 7275
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.772849440592418e-06,
      "loss": 0.0633,
      "step": 7276
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.766815266049413e-06,
      "loss": 0.042,
      "step": 7277
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.760782726187666e-06,
      "loss": 0.0644,
      "step": 7278
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.754751821614663e-06,
      "loss": 0.078,
      "step": 7279
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.748722552937689e-06,
      "loss": 0.0782,
      "step": 7280
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.742694920763925e-06,
      "loss": 0.1088,
      "step": 7281
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.73666892570033e-06,
      "loss": 0.0582,
      "step": 7282
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.73064456835373e-06,
      "loss": 0.0981,
      "step": 7283
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.724621849330777e-06,
      "loss": 0.0524,
      "step": 7284
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.718600769237958e-06,
      "loss": 0.0486,
      "step": 7285
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.712581328681596e-06,
      "loss": 0.0349,
      "step": 7286
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.706563528267859e-06,
      "loss": 0.0532,
      "step": 7287
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.700547368602707e-06,
      "loss": 0.0409,
      "step": 7288
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.694532850292012e-06,
      "loss": 0.0286,
      "step": 7289
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.6885199739414e-06,
      "loss": 0.0396,
      "step": 7290
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.68250874015638e-06,
      "loss": 0.1172,
      "step": 7291
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.676499149542286e-06,
      "loss": 0.0954,
      "step": 7292
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.670491202704281e-06,
      "loss": 0.1047,
      "step": 7293
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.664484900247363e-06,
      "loss": 0.1267,
      "step": 7294
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.658480242776379e-06,
      "loss": 0.1135,
      "step": 7295
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.65247723089597e-06,
      "loss": 0.1559,
      "step": 7296
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.646475865210673e-06,
      "loss": 0.1538,
      "step": 7297
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.6404761463248e-06,
      "loss": 0.0744,
      "step": 7298
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.634478074842533e-06,
      "loss": 0.1199,
      "step": 7299
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.628481651367876e-06,
      "loss": 0.0924,
      "step": 7300
    },
    {
      "epoch": 0.73,
      "eval_loss": 0.7090064287185669,
      "eval_runtime": 72.8959,
      "eval_samples_per_second": 3.169,
      "eval_steps_per_second": 0.796,
      "step": 7300
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.622486876504668e-06,
      "loss": 0.0959,
      "step": 7301
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.616493750856583e-06,
      "loss": 0.1332,
      "step": 7302
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.610502275027135e-06,
      "loss": 0.1243,
      "step": 7303
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.604512449619647e-06,
      "loss": 0.1106,
      "step": 7304
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.598524275237322e-06,
      "loss": 0.0976,
      "step": 7305
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.592537752483146e-06,
      "loss": 0.1866,
      "step": 7306
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.586552881959967e-06,
      "loss": 0.1642,
      "step": 7307
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.580569664270467e-06,
      "loss": 0.3908,
      "step": 7308
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.574588100017159e-06,
      "loss": 0.4562,
      "step": 7309
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.568608189802363e-06,
      "loss": 0.1938,
      "step": 7310
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.562629934228288e-06,
      "loss": 0.7965,
      "step": 7311
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.556653333896924e-06,
      "loss": 0.7506,
      "step": 7312
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.550678389410117e-06,
      "loss": 0.3396,
      "step": 7313
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.544705101369546e-06,
      "loss": 0.0851,
      "step": 7314
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.538733470376722e-06,
      "loss": 0.1128,
      "step": 7315
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.532763497032987e-06,
      "loss": 0.1153,
      "step": 7316
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.526795181939525e-06,
      "loss": 0.0673,
      "step": 7317
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.520828525697322e-06,
      "loss": 0.1535,
      "step": 7318
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.514863528907251e-06,
      "loss": 0.0498,
      "step": 7319
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.508900192169964e-06,
      "loss": 0.0662,
      "step": 7320
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.502938516085975e-06,
      "loss": 0.0895,
      "step": 7321
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.496978501255628e-06,
      "loss": 0.12,
      "step": 7322
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.491020148279094e-06,
      "loss": 0.0471,
      "step": 7323
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.48506345775638e-06,
      "loss": 0.0457,
      "step": 7324
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.47910843028733e-06,
      "loss": 0.0477,
      "step": 7325
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.473155066471594e-06,
      "loss": 0.0603,
      "step": 7326
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.467203366908707e-06,
      "loss": 0.039,
      "step": 7327
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.46125333219798e-06,
      "loss": 0.0263,
      "step": 7328
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.45530496293859e-06,
      "loss": 0.0655,
      "step": 7329
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.449358259729537e-06,
      "loss": 0.0874,
      "step": 7330
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.443413223169654e-06,
      "loss": 0.0266,
      "step": 7331
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.437469853857607e-06,
      "loss": 0.0954,
      "step": 7332
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.431528152391902e-06,
      "loss": 0.112,
      "step": 7333
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.425588119370842e-06,
      "loss": 0.113,
      "step": 7334
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.41964975539262e-06,
      "loss": 0.153,
      "step": 7335
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.413713061055206e-06,
      "loss": 0.1157,
      "step": 7336
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.407778036956435e-06,
      "loss": 0.0983,
      "step": 7337
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.40184468369396e-06,
      "loss": 0.1473,
      "step": 7338
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.39591300186528e-06,
      "loss": 0.1431,
      "step": 7339
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.389982992067688e-06,
      "loss": 0.0837,
      "step": 7340
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.384054654898374e-06,
      "loss": 0.0993,
      "step": 7341
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.37812799095429e-06,
      "loss": 0.0768,
      "step": 7342
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.372203000832263e-06,
      "loss": 0.099,
      "step": 7343
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.366279685128941e-06,
      "loss": 0.0725,
      "step": 7344
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.360358044440797e-06,
      "loss": 0.0852,
      "step": 7345
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.354438079364146e-06,
      "loss": 0.1218,
      "step": 7346
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.34851979049513e-06,
      "loss": 0.1566,
      "step": 7347
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.3426031784297e-06,
      "loss": 0.1747,
      "step": 7348
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.33668824376369e-06,
      "loss": 0.1528,
      "step": 7349
    },
    {
      "epoch": 0.73,
      "learning_rate": 8.330774987092712e-06,
      "loss": 0.1427,
      "step": 7350
    },
    {
      "epoch": 0.73,
      "eval_loss": 0.698430061340332,
      "eval_runtime": 73.0897,
      "eval_samples_per_second": 3.161,
      "eval_steps_per_second": 0.794,
      "step": 7350
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.324863409012235e-06,
      "loss": 0.1018,
      "step": 7351
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.318953510117558e-06,
      "loss": 0.1331,
      "step": 7352
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.313045291003805e-06,
      "loss": 0.104,
      "step": 7353
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.307138752265933e-06,
      "loss": 0.1107,
      "step": 7354
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.301233894498742e-06,
      "loss": 0.1125,
      "step": 7355
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.295330718296832e-06,
      "loss": 0.2013,
      "step": 7356
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.289429224254661e-06,
      "loss": 0.0958,
      "step": 7357
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.283529412966513e-06,
      "loss": 0.155,
      "step": 7358
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.27763128502649e-06,
      "loss": 0.1549,
      "step": 7359
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.271734841028553e-06,
      "loss": 0.1015,
      "step": 7360
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.26584008156644e-06,
      "loss": 0.0749,
      "step": 7361
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.259947007233789e-06,
      "loss": 0.0476,
      "step": 7362
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.25405561862401e-06,
      "loss": 0.0775,
      "step": 7363
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.248165916330372e-06,
      "loss": 0.1502,
      "step": 7364
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.242277900945969e-06,
      "loss": 0.2015,
      "step": 7365
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.23639157306372e-06,
      "loss": 0.132,
      "step": 7366
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.230506933276383e-06,
      "loss": 0.2268,
      "step": 7367
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.224623982176546e-06,
      "loss": 0.2405,
      "step": 7368
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.218742720356607e-06,
      "loss": 0.1827,
      "step": 7369
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.212863148408817e-06,
      "loss": 0.0935,
      "step": 7370
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.206985266925249e-06,
      "loss": 0.1433,
      "step": 7371
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.201109076497803e-06,
      "loss": 0.1272,
      "step": 7372
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.195234577718217e-06,
      "loss": 0.1462,
      "step": 7373
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.189361771178055e-06,
      "loss": 0.1469,
      "step": 7374
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.183490657468688e-06,
      "loss": 0.1294,
      "step": 7375
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.177621237181365e-06,
      "loss": 0.1099,
      "step": 7376
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.171753510907118e-06,
      "loss": 0.0894,
      "step": 7377
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.16588747923683e-06,
      "loss": 0.1051,
      "step": 7378
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.160023142761214e-06,
      "loss": 0.1492,
      "step": 7379
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.154160502070803e-06,
      "loss": 0.1469,
      "step": 7380
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.148299557755973e-06,
      "loss": 0.1376,
      "step": 7381
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.142440310406924e-06,
      "loss": 0.146,
      "step": 7382
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.136582760613657e-06,
      "loss": 0.0832,
      "step": 7383
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.130726908966061e-06,
      "loss": 0.1375,
      "step": 7384
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.124872756053795e-06,
      "loss": 0.1261,
      "step": 7385
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.11902030246638e-06,
      "loss": 0.129,
      "step": 7386
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.113169548793159e-06,
      "loss": 0.1394,
      "step": 7387
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.107320495623305e-06,
      "loss": 0.2066,
      "step": 7388
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.101473143545813e-06,
      "loss": 0.084,
      "step": 7389
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.09562749314952e-06,
      "loss": 0.1696,
      "step": 7390
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.08978354502306e-06,
      "loss": 0.1346,
      "step": 7391
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.083941299754953e-06,
      "loss": 0.157,
      "step": 7392
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.078100757933485e-06,
      "loss": 0.1262,
      "step": 7393
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.072261920146806e-06,
      "loss": 0.0989,
      "step": 7394
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.06642478698289e-06,
      "loss": 0.1206,
      "step": 7395
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.060589359029535e-06,
      "loss": 0.1303,
      "step": 7396
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.054755636874367e-06,
      "loss": 0.1397,
      "step": 7397
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.04892362110485e-06,
      "loss": 0.1362,
      "step": 7398
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.043093312308248e-06,
      "loss": 0.1095,
      "step": 7399
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.0372647110717e-06,
      "loss": 0.1002,
      "step": 7400
    },
    {
      "epoch": 0.74,
      "eval_loss": 0.6958668828010559,
      "eval_runtime": 67.9885,
      "eval_samples_per_second": 3.398,
      "eval_steps_per_second": 0.853,
      "step": 7400
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.031437817982121e-06,
      "loss": 0.1047,
      "step": 7401
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.025612633626292e-06,
      "loss": 0.1157,
      "step": 7402
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.019789158590804e-06,
      "loss": 0.1431,
      "step": 7403
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.013967393462094e-06,
      "loss": 0.1531,
      "step": 7404
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.008147338826385e-06,
      "loss": 0.1926,
      "step": 7405
    },
    {
      "epoch": 0.74,
      "learning_rate": 8.00232899526979e-06,
      "loss": 0.1403,
      "step": 7406
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.996512363378191e-06,
      "loss": 0.1139,
      "step": 7407
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.990697443737335e-06,
      "loss": 0.1499,
      "step": 7408
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.98488423693278e-06,
      "loss": 0.1045,
      "step": 7409
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.979072743549915e-06,
      "loss": 0.2055,
      "step": 7410
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.973262964173961e-06,
      "loss": 0.128,
      "step": 7411
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.967454899389967e-06,
      "loss": 0.1227,
      "step": 7412
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.961648549782782e-06,
      "loss": 0.0797,
      "step": 7413
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.95584391593714e-06,
      "loss": 0.1014,
      "step": 7414
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.950040998437542e-06,
      "loss": 0.1288,
      "step": 7415
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.944239797868347e-06,
      "loss": 0.1215,
      "step": 7416
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.938440314813737e-06,
      "loss": 0.1122,
      "step": 7417
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.932642549857722e-06,
      "loss": 0.1568,
      "step": 7418
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.926846503584134e-06,
      "loss": 0.1037,
      "step": 7419
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.921052176576644e-06,
      "loss": 0.0548,
      "step": 7420
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.915259569418717e-06,
      "loss": 0.122,
      "step": 7421
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.909468682693699e-06,
      "loss": 0.1757,
      "step": 7422
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.90367951698471e-06,
      "loss": 0.1387,
      "step": 7423
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.897892072874726e-06,
      "loss": 0.176,
      "step": 7424
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.892106350946543e-06,
      "loss": 0.1057,
      "step": 7425
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.886322351782783e-06,
      "loss": 0.0631,
      "step": 7426
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.880540075965892e-06,
      "loss": 0.0809,
      "step": 7427
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.874759524078154e-06,
      "loss": 0.1216,
      "step": 7428
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.86898069670165e-06,
      "loss": 0.0949,
      "step": 7429
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.863203594418337e-06,
      "loss": 0.1245,
      "step": 7430
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.857428217809942e-06,
      "loss": 0.0922,
      "step": 7431
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.851654567458058e-06,
      "loss": 0.1966,
      "step": 7432
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.84588264394409e-06,
      "loss": 0.1113,
      "step": 7433
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.84011244784928e-06,
      "loss": 0.1752,
      "step": 7434
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.83434397975466e-06,
      "loss": 0.2428,
      "step": 7435
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.828577240241148e-06,
      "loss": 0.1463,
      "step": 7436
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.822812229889428e-06,
      "loss": 0.1273,
      "step": 7437
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.817048949280049e-06,
      "loss": 0.1446,
      "step": 7438
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.811287398993366e-06,
      "loss": 0.1657,
      "step": 7439
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.805527579609576e-06,
      "loss": 0.1165,
      "step": 7440
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.799769491708694e-06,
      "loss": 0.1085,
      "step": 7441
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.794013135870548e-06,
      "loss": 0.1087,
      "step": 7442
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.788258512674806e-06,
      "loss": 0.0792,
      "step": 7443
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.782505622700965e-06,
      "loss": 0.124,
      "step": 7444
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.776754466528333e-06,
      "loss": 0.0819,
      "step": 7445
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.771005044736055e-06,
      "loss": 0.0728,
      "step": 7446
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.765257357903105e-06,
      "loss": 0.1282,
      "step": 7447
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.759511406608255e-06,
      "loss": 0.1543,
      "step": 7448
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.753767191430147e-06,
      "loss": 0.1509,
      "step": 7449
    },
    {
      "epoch": 0.74,
      "learning_rate": 7.748024712947205e-06,
      "loss": 0.0977,
      "step": 7450
    },
    {
      "epoch": 0.74,
      "eval_loss": 0.6908442378044128,
      "eval_runtime": 66.0412,
      "eval_samples_per_second": 3.498,
      "eval_steps_per_second": 0.878,
      "step": 7450
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.742283971737702e-06,
      "loss": 0.1299,
      "step": 7451
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.73654496837973e-06,
      "loss": 0.1088,
      "step": 7452
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.730807703451206e-06,
      "loss": 0.0763,
      "step": 7453
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.725072177529876e-06,
      "loss": 0.1542,
      "step": 7454
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.719338391193315e-06,
      "loss": 0.0781,
      "step": 7455
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.713606345018886e-06,
      "loss": 0.0886,
      "step": 7456
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.707876039583842e-06,
      "loss": 0.1163,
      "step": 7457
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.7021474754652e-06,
      "loss": 0.1492,
      "step": 7458
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.696420653239833e-06,
      "loss": 0.128,
      "step": 7459
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.690695573484433e-06,
      "loss": 0.0918,
      "step": 7460
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.684972236775523e-06,
      "loss": 0.1174,
      "step": 7461
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.67925064368942e-06,
      "loss": 0.1171,
      "step": 7462
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.673530794802316e-06,
      "loss": 0.0521,
      "step": 7463
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.667812690690182e-06,
      "loss": 0.0904,
      "step": 7464
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.662096331928837e-06,
      "loss": 0.1108,
      "step": 7465
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.656381719093914e-06,
      "loss": 0.1386,
      "step": 7466
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.650668852760879e-06,
      "loss": 0.1078,
      "step": 7467
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.644957733505014e-06,
      "loss": 0.1573,
      "step": 7468
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.639248361901441e-06,
      "loss": 0.0487,
      "step": 7469
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.633540738525066e-06,
      "loss": 0.1105,
      "step": 7470
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.627834863950681e-06,
      "loss": 0.0645,
      "step": 7471
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.622130738752839e-06,
      "loss": 0.109,
      "step": 7472
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.616428363505957e-06,
      "loss": 0.0823,
      "step": 7473
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.610727738784262e-06,
      "loss": 0.0977,
      "step": 7474
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.605028865161809e-06,
      "loss": 0.1163,
      "step": 7475
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.599331743212473e-06,
      "loss": 0.2109,
      "step": 7476
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.593636373509963e-06,
      "loss": 0.0929,
      "step": 7477
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.5879427566277805e-06,
      "loss": 0.1456,
      "step": 7478
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.582250893139298e-06,
      "loss": 0.1102,
      "step": 7479
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.576560783617668e-06,
      "loss": 0.1715,
      "step": 7480
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.570872428635889e-06,
      "loss": 0.1353,
      "step": 7481
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.56518582876678e-06,
      "loss": 0.2098,
      "step": 7482
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.559500984582982e-06,
      "loss": 0.0717,
      "step": 7483
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.553817896656956e-06,
      "loss": 0.1064,
      "step": 7484
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.548136565560998e-06,
      "loss": 0.1157,
      "step": 7485
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.542456991867197e-06,
      "loss": 0.1399,
      "step": 7486
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.536779176147513e-06,
      "loss": 0.152,
      "step": 7487
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.531103118973682e-06,
      "loss": 0.126,
      "step": 7488
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.525428820917288e-06,
      "loss": 0.1448,
      "step": 7489
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.519756282549734e-06,
      "loss": 0.1605,
      "step": 7490
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.514085504442242e-06,
      "loss": 0.0833,
      "step": 7491
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.508416487165862e-06,
      "loss": 0.0977,
      "step": 7492
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.502749231291473e-06,
      "loss": 0.0287,
      "step": 7493
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.49708373738974e-06,
      "loss": 0.0513,
      "step": 7494
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.491420006031213e-06,
      "loss": 0.1032,
      "step": 7495
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.485758037786203e-06,
      "loss": 0.0886,
      "step": 7496
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.48009783322488e-06,
      "loss": 0.0657,
      "step": 7497
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.474439392917226e-06,
      "loss": 0.1631,
      "step": 7498
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.4687827174330535e-06,
      "loss": 0.1239,
      "step": 7499
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.463127807341966e-06,
      "loss": 0.2378,
      "step": 7500
    },
    {
      "epoch": 0.75,
      "eval_loss": 0.6968475580215454,
      "eval_runtime": 66.4503,
      "eval_samples_per_second": 3.476,
      "eval_steps_per_second": 0.873,
      "step": 7500
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.457474663213443e-06,
      "loss": 0.1164,
      "step": 7501
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.451823285616735e-06,
      "loss": 0.11,
      "step": 7502
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.4461736751209405e-06,
      "loss": 0.0847,
      "step": 7503
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.440525832294978e-06,
      "loss": 0.1411,
      "step": 7504
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.434879757707583e-06,
      "loss": 0.076,
      "step": 7505
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.429235451927316e-06,
      "loss": 0.1109,
      "step": 7506
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.423592915522568e-06,
      "loss": 0.1879,
      "step": 7507
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.417952149061513e-06,
      "loss": 0.0974,
      "step": 7508
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.412313153112216e-06,
      "loss": 0.1519,
      "step": 7509
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.40667592824249e-06,
      "loss": 0.1267,
      "step": 7510
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.401040475020022e-06,
      "loss": 0.1107,
      "step": 7511
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.3954067940122915e-06,
      "loss": 0.0619,
      "step": 7512
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.3897748857866185e-06,
      "loss": 0.129,
      "step": 7513
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.384144750910133e-06,
      "loss": 0.0378,
      "step": 7514
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.378516389949794e-06,
      "loss": 0.1025,
      "step": 7515
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.372889803472358e-06,
      "loss": 0.194,
      "step": 7516
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.367264992044454e-06,
      "loss": 0.1049,
      "step": 7517
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.361641956232471e-06,
      "loss": 0.0493,
      "step": 7518
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.356020696602664e-06,
      "loss": 0.0454,
      "step": 7519
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.350401213721089e-06,
      "loss": 0.043,
      "step": 7520
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.344783508153627e-06,
      "loss": 0.0203,
      "step": 7521
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.3391675804659855e-06,
      "loss": 0.0301,
      "step": 7522
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.333553431223692e-06,
      "loss": 0.0742,
      "step": 7523
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.327941060992069e-06,
      "loss": 0.1409,
      "step": 7524
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.3223304703363135e-06,
      "loss": 0.0915,
      "step": 7525
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.316721659821396e-06,
      "loss": 0.0842,
      "step": 7526
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.3111146300121084e-06,
      "loss": 0.0962,
      "step": 7527
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.3055093814731075e-06,
      "loss": 0.0822,
      "step": 7528
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.299905914768821e-06,
      "loss": 0.0791,
      "step": 7529
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.294304230463525e-06,
      "loss": 0.1005,
      "step": 7530
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.288704329121307e-06,
      "loss": 0.1355,
      "step": 7531
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.283106211306079e-06,
      "loss": 0.078,
      "step": 7532
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.277509877581573e-06,
      "loss": 0.1837,
      "step": 7533
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.271915328511341e-06,
      "loss": 0.1553,
      "step": 7534
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.2663225646587395e-06,
      "loss": 0.1651,
      "step": 7535
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.260731586586983e-06,
      "loss": 0.1019,
      "step": 7536
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.255142394859063e-06,
      "loss": 0.1967,
      "step": 7537
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.249554990037819e-06,
      "loss": 0.2086,
      "step": 7538
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.243969372685902e-06,
      "loss": 0.2016,
      "step": 7539
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.238385543365783e-06,
      "loss": 0.1243,
      "step": 7540
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.232803502639751e-06,
      "loss": 0.1041,
      "step": 7541
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.227223251069931e-06,
      "loss": 0.1177,
      "step": 7542
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.221644789218229e-06,
      "loss": 0.1422,
      "step": 7543
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.216068117646424e-06,
      "loss": 0.0812,
      "step": 7544
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.210493236916063e-06,
      "loss": 0.1002,
      "step": 7545
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.2049201475885504e-06,
      "loss": 0.0485,
      "step": 7546
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.19934885022509e-06,
      "loss": 0.0911,
      "step": 7547
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.193779345386714e-06,
      "loss": 0.1009,
      "step": 7548
    },
    {
      "epoch": 0.75,
      "learning_rate": 7.18821163363427e-06,
      "loss": 0.0711,
      "step": 7549
    },
    {
      "epoch": 0.76,
      "learning_rate": 7.1826457155284355e-06,
      "loss": 0.0924,
      "step": 7550
    },
    {
      "epoch": 0.76,
      "eval_loss": 0.6872585415840149,
      "eval_runtime": 67.0607,
      "eval_samples_per_second": 3.445,
      "eval_steps_per_second": 0.865,
      "step": 7550
    },
    {
      "epoch": 0.76,
      "learning_rate": 7.1770815916296725e-06,
      "loss": 0.127,
      "step": 7551
    },
    {
      "epoch": 0.76,
      "learning_rate": 7.171519262498322e-06,
      "loss": 0.1004,
      "step": 7552
    },
    {
      "epoch": 0.76,
      "learning_rate": 7.165958728694488e-06,
      "loss": 0.0827,
      "step": 7553
    },
    {
      "epoch": 0.76,
      "learning_rate": 7.160399990778122e-06,
      "loss": 0.1664,
      "step": 7554
    },
    {
      "epoch": 0.76,
      "learning_rate": 7.154843049308988e-06,
      "loss": 0.1293,
      "step": 7555
    },
    {
      "epoch": 0.76,
      "learning_rate": 7.149287904846677e-06,
      "loss": 0.2199,
      "step": 7556
    },
    {
      "epoch": 0.76,
      "learning_rate": 7.143734557950571e-06,
      "loss": 0.2069,
      "step": 7557
    },
    {
      "epoch": 0.76,
      "learning_rate": 7.138183009179922e-06,
      "loss": 0.1504,
      "step": 7558
    },
    {
      "epoch": 0.76,
      "learning_rate": 7.132633259093746e-06,
      "loss": 0.1155,
      "step": 7559
    },
    {
      "epoch": 0.76,
      "learning_rate": 7.127085308250914e-06,
      "loss": 0.141,
      "step": 7560
    },
    {
      "epoch": 0.76,
      "learning_rate": 7.121539157210102e-06,
      "loss": 0.1545,
      "step": 7561
    },
    {
      "epoch": 0.76,
      "learning_rate": 7.115994806529807e-06,
      "loss": 0.1599,
      "step": 7562
    },
    {
      "epoch": 0.76,
      "learning_rate": 7.1104522567683465e-06,
      "loss": 0.1542,
      "step": 7563
    },
    {
      "epoch": 0.76,
      "learning_rate": 7.104911508483861e-06,
      "loss": 0.1281,
      "step": 7564
    },
    {
      "epoch": 0.76,
      "learning_rate": 7.099372562234283e-06,
      "loss": 0.1237,
      "step": 7565
    },
    {
      "epoch": 0.76,
      "learning_rate": 7.093835418577413e-06,
      "loss": 0.1122,
      "step": 7566
    },
    {
      "epoch": 0.76,
      "learning_rate": 7.088300078070817e-06,
      "loss": 0.1231,
      "step": 7567
    },
    {
      "epoch": 0.76,
      "learning_rate": 7.082766541271915e-06,
      "loss": 0.0738,
      "step": 7568
    },
    {
      "epoch": 0.76,
      "learning_rate": 7.0772348087379315e-06,
      "loss": 0.1449,
      "step": 7569
    },
    {
      "epoch": 0.76,
      "learning_rate": 7.071704881025915e-06,
      "loss": 0.1833,
      "step": 7570
    },
    {
      "epoch": 0.76,
      "learning_rate": 7.066176758692722e-06,
      "loss": 0.0999,
      "step": 7571
    },
    {
      "epoch": 0.76,
      "learning_rate": 7.06065044229505e-06,
      "loss": 0.1057,
      "step": 7572
    },
    {
      "epoch": 0.76,
      "learning_rate": 7.05512593238937e-06,
      "loss": 0.076,
      "step": 7573
    },
    {
      "epoch": 0.76,
      "learning_rate": 7.0496032295320315e-06,
      "loss": 0.1373,
      "step": 7574
    },
    {
      "epoch": 0.76,
      "learning_rate": 7.04408233427915e-06,
      "loss": 0.1628,
      "step": 7575
    },
    {
      "epoch": 0.76,
      "learning_rate": 7.038563247186689e-06,
      "loss": 0.0671,
      "step": 7576
    },
    {
      "epoch": 0.76,
      "learning_rate": 7.033045968810414e-06,
      "loss": 0.1256,
      "step": 7577
    },
    {
      "epoch": 0.76,
      "learning_rate": 7.02753049970592e-06,
      "loss": 0.073,
      "step": 7578
    },
    {
      "epoch": 0.76,
      "learning_rate": 7.022016840428614e-06,
      "loss": 0.1489,
      "step": 7579
    },
    {
      "epoch": 0.76,
      "learning_rate": 7.016504991533726e-06,
      "loss": 0.0763,
      "step": 7580
    },
    {
      "epoch": 0.76,
      "learning_rate": 7.010994953576281e-06,
      "loss": 0.0507,
      "step": 7581
    },
    {
      "epoch": 0.76,
      "learning_rate": 7.005486727111163e-06,
      "loss": 0.0725,
      "step": 7582
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.999980312693033e-06,
      "loss": 0.077,
      "step": 7583
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.994475710876394e-06,
      "loss": 0.1219,
      "step": 7584
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.988972922215559e-06,
      "loss": 0.111,
      "step": 7585
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.9834719472646556e-06,
      "loss": 0.0767,
      "step": 7586
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.977972786577636e-06,
      "loss": 0.0901,
      "step": 7587
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.972475440708271e-06,
      "loss": 0.0818,
      "step": 7588
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.96697991021012e-06,
      "loss": 0.1203,
      "step": 7589
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.961486195636613e-06,
      "loss": 0.0417,
      "step": 7590
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.9559942975409465e-06,
      "loss": 0.1107,
      "step": 7591
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.950504216476161e-06,
      "loss": 0.1723,
      "step": 7592
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.945015952995104e-06,
      "loss": 0.0764,
      "step": 7593
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.9395295076504576e-06,
      "loss": 0.1791,
      "step": 7594
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.934044880994678e-06,
      "loss": 0.1358,
      "step": 7595
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.928562073580102e-06,
      "loss": 0.0844,
      "step": 7596
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.9230810859588215e-06,
      "loss": 0.0815,
      "step": 7597
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.9176019186827814e-06,
      "loss": 0.1307,
      "step": 7598
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.9121245723037325e-06,
      "loss": 0.0907,
      "step": 7599
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.906649047373246e-06,
      "loss": 0.0404,
      "step": 7600
    },
    {
      "epoch": 0.76,
      "eval_loss": 0.6901081204414368,
      "eval_runtime": 67.5228,
      "eval_samples_per_second": 3.421,
      "eval_steps_per_second": 0.859,
      "step": 7600
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.901175344442704e-06,
      "loss": 0.1045,
      "step": 7601
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.895703464063319e-06,
      "loss": 0.0695,
      "step": 7602
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.890233406786081e-06,
      "loss": 0.0705,
      "step": 7603
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.8847651731618615e-06,
      "loss": 0.0457,
      "step": 7604
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.8792987637412845e-06,
      "loss": 0.0711,
      "step": 7605
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.873834179074828e-06,
      "loss": 0.0804,
      "step": 7606
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.868371419712771e-06,
      "loss": 0.1458,
      "step": 7607
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.8629104862052176e-06,
      "loss": 0.1645,
      "step": 7608
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.857451379102084e-06,
      "loss": 0.1586,
      "step": 7609
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.8519940989531045e-06,
      "loss": 0.079,
      "step": 7610
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.846538646307815e-06,
      "loss": 0.0891,
      "step": 7611
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.841085021715587e-06,
      "loss": 0.1302,
      "step": 7612
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.835633225725605e-06,
      "loss": 0.1038,
      "step": 7613
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.830183258886855e-06,
      "loss": 0.0916,
      "step": 7614
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.824735121748163e-06,
      "loss": 0.1298,
      "step": 7615
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.819288814858133e-06,
      "loss": 0.0804,
      "step": 7616
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.813844338765235e-06,
      "loss": 0.0727,
      "step": 7617
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.8084016940177076e-06,
      "loss": 0.1145,
      "step": 7618
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.802960881163634e-06,
      "loss": 0.1248,
      "step": 7619
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.797521900750897e-06,
      "loss": 0.0632,
      "step": 7620
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.792084753327219e-06,
      "loss": 0.0618,
      "step": 7621
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.78664943944009e-06,
      "loss": 0.0648,
      "step": 7622
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.78121595963688e-06,
      "loss": 0.0958,
      "step": 7623
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.775784314464717e-06,
      "loss": 0.0924,
      "step": 7624
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.770354504470575e-06,
      "loss": 0.1078,
      "step": 7625
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.764926530201235e-06,
      "loss": 0.108,
      "step": 7626
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.759500392203294e-06,
      "loss": 0.0263,
      "step": 7627
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.754076091023167e-06,
      "loss": 0.0826,
      "step": 7628
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.7486536272070825e-06,
      "loss": 0.0401,
      "step": 7629
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.743233001301067e-06,
      "loss": 0.1911,
      "step": 7630
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.737814213851001e-06,
      "loss": 0.1507,
      "step": 7631
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.732397265402538e-06,
      "loss": 0.1585,
      "step": 7632
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.7269821565011684e-06,
      "loss": 0.0394,
      "step": 7633
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.7215688876921975e-06,
      "loss": 0.1288,
      "step": 7634
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.716157459520739e-06,
      "loss": 0.1621,
      "step": 7635
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.710747872531725e-06,
      "loss": 0.2317,
      "step": 7636
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.705340127269905e-06,
      "loss": 0.0564,
      "step": 7637
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.6999342242798195e-06,
      "loss": 0.153,
      "step": 7638
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.694530164105872e-06,
      "loss": 0.1484,
      "step": 7639
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.689127947292231e-06,
      "loss": 0.0755,
      "step": 7640
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.683727574382903e-06,
      "loss": 0.1416,
      "step": 7641
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.678329045921705e-06,
      "loss": 0.1268,
      "step": 7642
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.672932362452272e-06,
      "loss": 0.2115,
      "step": 7643
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.66753752451805e-06,
      "loss": 0.2772,
      "step": 7644
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.662144532662304e-06,
      "loss": 0.1571,
      "step": 7645
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.656753387428089e-06,
      "loss": 0.1728,
      "step": 7646
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.651364089358317e-06,
      "loss": 0.1363,
      "step": 7647
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.645976638995674e-06,
      "loss": 0.0731,
      "step": 7648
    },
    {
      "epoch": 0.76,
      "learning_rate": 6.640591036882682e-06,
      "loss": 0.0315,
      "step": 7649
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.63520728356167e-06,
      "loss": 0.25,
      "step": 7650
    },
    {
      "epoch": 0.77,
      "eval_loss": 0.6907244920730591,
      "eval_runtime": 67.8618,
      "eval_samples_per_second": 3.404,
      "eval_steps_per_second": 0.855,
      "step": 7650
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.629825379574789e-06,
      "loss": 0.0949,
      "step": 7651
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.624445325463974e-06,
      "loss": 0.071,
      "step": 7652
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.619067121771027e-06,
      "loss": 0.2055,
      "step": 7653
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.6136907690375115e-06,
      "loss": 0.2193,
      "step": 7654
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.608316267804832e-06,
      "loss": 0.3026,
      "step": 7655
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.602943618614199e-06,
      "loss": 0.1616,
      "step": 7656
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.5975728220066425e-06,
      "loss": 0.2193,
      "step": 7657
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.592203878522998e-06,
      "loss": 0.0313,
      "step": 7658
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.586836788703929e-06,
      "loss": 0.1599,
      "step": 7659
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.5814715530898745e-06,
      "loss": 0.2016,
      "step": 7660
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.576108172221146e-06,
      "loss": 0.1433,
      "step": 7661
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.5707466466378154e-06,
      "loss": 0.1343,
      "step": 7662
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.5653869768797894e-06,
      "loss": 0.1257,
      "step": 7663
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.560029163486791e-06,
      "loss": 0.1428,
      "step": 7664
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.554673206998354e-06,
      "loss": 0.1394,
      "step": 7665
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.549319107953819e-06,
      "loss": 0.1201,
      "step": 7666
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.543966866892351e-06,
      "loss": 0.0927,
      "step": 7667
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.538616484352902e-06,
      "loss": 0.0928,
      "step": 7668
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.533267960874282e-06,
      "loss": 0.1396,
      "step": 7669
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.5279212969950655e-06,
      "loss": 0.1419,
      "step": 7670
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.522576493253668e-06,
      "loss": 0.1214,
      "step": 7671
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.517233550188312e-06,
      "loss": 0.0842,
      "step": 7672
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.511892468337033e-06,
      "loss": 0.1122,
      "step": 7673
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.506553248237676e-06,
      "loss": 0.1527,
      "step": 7674
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.501215890427909e-06,
      "loss": 0.0878,
      "step": 7675
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.495880395445181e-06,
      "loss": 0.0923,
      "step": 7676
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.490546763826804e-06,
      "loss": 0.0996,
      "step": 7677
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.485214996109856e-06,
      "loss": 0.104,
      "step": 7678
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.47988509283125e-06,
      "loss": 0.1763,
      "step": 7679
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.4745570545277075e-06,
      "loss": 0.0919,
      "step": 7680
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.469230881735764e-06,
      "loss": 0.1132,
      "step": 7681
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.4639065749917625e-06,
      "loss": 0.0875,
      "step": 7682
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.458584134831872e-06,
      "loss": 0.0845,
      "step": 7683
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.453263561792042e-06,
      "loss": 0.0786,
      "step": 7684
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.447944856408064e-06,
      "loss": 0.0749,
      "step": 7685
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.442628019215533e-06,
      "loss": 0.0869,
      "step": 7686
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.437313050749852e-06,
      "loss": 0.0695,
      "step": 7687
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.431999951546236e-06,
      "loss": 0.0909,
      "step": 7688
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.4266887221397284e-06,
      "loss": 0.1744,
      "step": 7689
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.421379363065142e-06,
      "loss": 0.043,
      "step": 7690
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.416071874857161e-06,
      "loss": 0.0792,
      "step": 7691
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.410766258050224e-06,
      "loss": 0.0986,
      "step": 7692
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.405462513178617e-06,
      "loss": 0.0815,
      "step": 7693
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.400160640776426e-06,
      "loss": 0.0889,
      "step": 7694
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.394860641377551e-06,
      "loss": 0.1522,
      "step": 7695
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.389562515515707e-06,
      "loss": 0.1534,
      "step": 7696
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.3842662637244005e-06,
      "loss": 0.1239,
      "step": 7697
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.378971886536972e-06,
      "loss": 0.1479,
      "step": 7698
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.373679384486564e-06,
      "loss": 0.0578,
      "step": 7699
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.368388758106133e-06,
      "loss": 0.1911,
      "step": 7700
    },
    {
      "epoch": 0.77,
      "eval_loss": 0.6956965923309326,
      "eval_runtime": 55.1054,
      "eval_samples_per_second": 4.192,
      "eval_steps_per_second": 1.053,
      "step": 7700
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.363100007928446e-06,
      "loss": 0.1079,
      "step": 7701
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.357813134486085e-06,
      "loss": 0.1429,
      "step": 7702
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.352528138311414e-06,
      "loss": 0.0838,
      "step": 7703
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.347245019936668e-06,
      "loss": 0.1072,
      "step": 7704
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.341963779893828e-06,
      "loss": 0.0888,
      "step": 7705
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.336684418714725e-06,
      "loss": 0.1444,
      "step": 7706
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.331406936930992e-06,
      "loss": 0.1397,
      "step": 7707
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.326131335074067e-06,
      "loss": 0.1132,
      "step": 7708
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.3208576136752074e-06,
      "loss": 0.0777,
      "step": 7709
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.315585773265484e-06,
      "loss": 0.0692,
      "step": 7710
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.310315814375744e-06,
      "loss": 0.0901,
      "step": 7711
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.305047737536707e-06,
      "loss": 0.1196,
      "step": 7712
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.299781543278843e-06,
      "loss": 0.0823,
      "step": 7713
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.294517232132466e-06,
      "loss": 0.1195,
      "step": 7714
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.289254804627692e-06,
      "loss": 0.132,
      "step": 7715
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.283994261294454e-06,
      "loss": 0.1779,
      "step": 7716
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.2787356026624694e-06,
      "loss": 0.1744,
      "step": 7717
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.273478829261309e-06,
      "loss": 0.1623,
      "step": 7718
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.2682239416203135e-06,
      "loss": 0.1114,
      "step": 7719
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.2629709402686535e-06,
      "loss": 0.1196,
      "step": 7720
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.2577198257353055e-06,
      "loss": 0.0946,
      "step": 7721
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.25247059854906e-06,
      "loss": 0.0613,
      "step": 7722
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.247223259238511e-06,
      "loss": 0.0406,
      "step": 7723
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.2419778083320755e-06,
      "loss": 0.0813,
      "step": 7724
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.2367342463579475e-06,
      "loss": 0.083,
      "step": 7725
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.231492573844181e-06,
      "loss": 0.08,
      "step": 7726
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.226252791318591e-06,
      "loss": 0.1157,
      "step": 7727
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.22101489930883e-06,
      "loss": 0.0761,
      "step": 7728
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.215778898342356e-06,
      "loss": 0.0946,
      "step": 7729
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.210544788946434e-06,
      "loss": 0.0665,
      "step": 7730
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.2053125716481366e-06,
      "loss": 0.0444,
      "step": 7731
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.200082246974357e-06,
      "loss": 0.0582,
      "step": 7732
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.194853815451765e-06,
      "loss": 0.0455,
      "step": 7733
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.189627277606894e-06,
      "loss": 0.0316,
      "step": 7734
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.184402633966035e-06,
      "loss": 0.0341,
      "step": 7735
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.179179885055317e-06,
      "loss": 0.0548,
      "step": 7736
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.173959031400667e-06,
      "loss": 0.1162,
      "step": 7737
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.1687400735278285e-06,
      "loss": 0.0891,
      "step": 7738
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.16352301196235e-06,
      "loss": 0.1317,
      "step": 7739
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.158307847229594e-06,
      "loss": 0.13,
      "step": 7740
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.15309457985471e-06,
      "loss": 0.1339,
      "step": 7741
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.147883210362701e-06,
      "loss": 0.1575,
      "step": 7742
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.142673739278326e-06,
      "loss": 0.1822,
      "step": 7743
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.137466167126193e-06,
      "loss": 0.0654,
      "step": 7744
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.1322604944307e-06,
      "loss": 0.133,
      "step": 7745
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.127056721716065e-06,
      "loss": 0.1324,
      "step": 7746
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.121854849506289e-06,
      "loss": 0.1009,
      "step": 7747
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.116654878325229e-06,
      "loss": 0.1436,
      "step": 7748
    },
    {
      "epoch": 0.77,
      "learning_rate": 6.111456808696495e-06,
      "loss": 0.1407,
      "step": 7749
    },
    {
      "epoch": 0.78,
      "learning_rate": 6.106260641143546e-06,
      "loss": 0.1039,
      "step": 7750
    },
    {
      "epoch": 0.78,
      "eval_loss": 0.7056126594543457,
      "eval_runtime": 72.6423,
      "eval_samples_per_second": 3.18,
      "eval_steps_per_second": 0.798,
      "step": 7750
    },
    {
      "epoch": 0.78,
      "learning_rate": 6.101066376189632e-06,
      "loss": 0.1274,
      "step": 7751
    },
    {
      "epoch": 0.78,
      "learning_rate": 6.095874014357817e-06,
      "loss": 0.1956,
      "step": 7752
    },
    {
      "epoch": 0.78,
      "learning_rate": 6.090683556170973e-06,
      "loss": 0.1558,
      "step": 7753
    },
    {
      "epoch": 0.78,
      "learning_rate": 6.085495002151784e-06,
      "loss": 0.4717,
      "step": 7754
    },
    {
      "epoch": 0.78,
      "learning_rate": 6.080308352822717e-06,
      "loss": 0.3688,
      "step": 7755
    },
    {
      "epoch": 0.78,
      "learning_rate": 6.075123608706093e-06,
      "loss": 0.2207,
      "step": 7756
    },
    {
      "epoch": 0.78,
      "learning_rate": 6.069940770323998e-06,
      "loss": 0.8983,
      "step": 7757
    },
    {
      "epoch": 0.78,
      "learning_rate": 6.06475983819835e-06,
      "loss": 0.7477,
      "step": 7758
    },
    {
      "epoch": 0.78,
      "learning_rate": 6.059580812850868e-06,
      "loss": 0.2891,
      "step": 7759
    },
    {
      "epoch": 0.78,
      "learning_rate": 6.054403694803079e-06,
      "loss": 0.1119,
      "step": 7760
    },
    {
      "epoch": 0.78,
      "learning_rate": 6.049228484576322e-06,
      "loss": 0.1023,
      "step": 7761
    },
    {
      "epoch": 0.78,
      "learning_rate": 6.0440551826917436e-06,
      "loss": 0.1201,
      "step": 7762
    },
    {
      "epoch": 0.78,
      "learning_rate": 6.038883789670274e-06,
      "loss": 0.0838,
      "step": 7763
    },
    {
      "epoch": 0.78,
      "learning_rate": 6.0337143060327035e-06,
      "loss": 0.1728,
      "step": 7764
    },
    {
      "epoch": 0.78,
      "learning_rate": 6.028546732299578e-06,
      "loss": 0.0152,
      "step": 7765
    },
    {
      "epoch": 0.78,
      "learning_rate": 6.023381068991274e-06,
      "loss": 0.1045,
      "step": 7766
    },
    {
      "epoch": 0.78,
      "learning_rate": 6.01821731662798e-06,
      "loss": 0.109,
      "step": 7767
    },
    {
      "epoch": 0.78,
      "learning_rate": 6.013055475729681e-06,
      "loss": 0.132,
      "step": 7768
    },
    {
      "epoch": 0.78,
      "learning_rate": 6.007895546816178e-06,
      "loss": 0.0565,
      "step": 7769
    },
    {
      "epoch": 0.78,
      "learning_rate": 6.0027375304070795e-06,
      "loss": 0.0401,
      "step": 7770
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.9975814270217785e-06,
      "loss": 0.0634,
      "step": 7771
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.992427237179521e-06,
      "loss": 0.0644,
      "step": 7772
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.987274961399314e-06,
      "loss": 0.034,
      "step": 7773
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.982124600199998e-06,
      "loss": 0.0306,
      "step": 7774
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.9769761541002135e-06,
      "loss": 0.0875,
      "step": 7775
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.971829623618419e-06,
      "loss": 0.0825,
      "step": 7776
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.966685009272846e-06,
      "loss": 0.036,
      "step": 7777
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.961542311581586e-06,
      "loss": 0.0915,
      "step": 7778
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.956401531062486e-06,
      "loss": 0.1316,
      "step": 7779
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.951262668233232e-06,
      "loss": 0.1244,
      "step": 7780
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.946125723611304e-06,
      "loss": 0.1184,
      "step": 7781
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.940990697713997e-06,
      "loss": 0.1511,
      "step": 7782
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.935857591058411e-06,
      "loss": 0.0818,
      "step": 7783
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.930726404161438e-06,
      "loss": 0.1355,
      "step": 7784
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.925597137539793e-06,
      "loss": 0.1359,
      "step": 7785
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.920469791709993e-06,
      "loss": 0.074,
      "step": 7786
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.915344367188366e-06,
      "loss": 0.1172,
      "step": 7787
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.910220864491037e-06,
      "loss": 0.0694,
      "step": 7788
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.905099284133952e-06,
      "loss": 0.1007,
      "step": 7789
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.899979626632834e-06,
      "loss": 0.0869,
      "step": 7790
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.8948618925032565e-06,
      "loss": 0.0925,
      "step": 7791
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.889746082260558e-06,
      "loss": 0.118,
      "step": 7792
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.884632196419906e-06,
      "loss": 0.1547,
      "step": 7793
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.879520235496269e-06,
      "loss": 0.2066,
      "step": 7794
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.874410200004421e-06,
      "loss": 0.1252,
      "step": 7795
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.869302090458945e-06,
      "loss": 0.1241,
      "step": 7796
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.864195907374229e-06,
      "loss": 0.112,
      "step": 7797
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.859091651264448e-06,
      "loss": 0.0907,
      "step": 7798
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.8539893226436275e-06,
      "loss": 0.1179,
      "step": 7799
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.848888922025553e-06,
      "loss": 0.1199,
      "step": 7800
    },
    {
      "epoch": 0.78,
      "eval_loss": 0.7010852098464966,
      "eval_runtime": 72.6028,
      "eval_samples_per_second": 3.182,
      "eval_steps_per_second": 0.799,
      "step": 7800
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.843790449923839e-06,
      "loss": 0.1163,
      "step": 7801
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.838693906851903e-06,
      "loss": 0.1962,
      "step": 7802
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.833599293322964e-06,
      "loss": 0.1198,
      "step": 7803
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.828506609850054e-06,
      "loss": 0.1521,
      "step": 7804
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.82341585694601e-06,
      "loss": 0.1572,
      "step": 7805
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.818327035123452e-06,
      "loss": 0.0788,
      "step": 7806
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.813240144894849e-06,
      "loss": 0.0911,
      "step": 7807
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.808155186772432e-06,
      "loss": 0.0508,
      "step": 7808
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.8030721612682635e-06,
      "loss": 0.0875,
      "step": 7809
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.797991068894201e-06,
      "loss": 0.1846,
      "step": 7810
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.792911910161922e-06,
      "loss": 0.1919,
      "step": 7811
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.787834685582874e-06,
      "loss": 0.1357,
      "step": 7812
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.782759395668361e-06,
      "loss": 0.2292,
      "step": 7813
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.7776860409294416e-06,
      "loss": 0.2369,
      "step": 7814
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.772614621877015e-06,
      "loss": 0.1184,
      "step": 7815
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.7675451390217685e-06,
      "loss": 0.1016,
      "step": 7816
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.762477592874199e-06,
      "loss": 0.1419,
      "step": 7817
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.75741198394461e-06,
      "loss": 0.1523,
      "step": 7818
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.752348312743116e-06,
      "loss": 0.128,
      "step": 7819
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.747286579779606e-06,
      "loss": 0.1393,
      "step": 7820
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.742226785563826e-06,
      "loss": 0.147,
      "step": 7821
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.737168930605272e-06,
      "loss": 0.1145,
      "step": 7822
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.732113015413282e-06,
      "loss": 0.0912,
      "step": 7823
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.7270590404969824e-06,
      "loss": 0.1223,
      "step": 7824
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.72200700636531e-06,
      "loss": 0.121,
      "step": 7825
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.716956913527005e-06,
      "loss": 0.1502,
      "step": 7826
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.71190876249062e-06,
      "loss": 0.1189,
      "step": 7827
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.706862553764477e-06,
      "loss": 0.1082,
      "step": 7828
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.701818287856764e-06,
      "loss": 0.0878,
      "step": 7829
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.696775965275414e-06,
      "loss": 0.1241,
      "step": 7830
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.691735586528196e-06,
      "loss": 0.1153,
      "step": 7831
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.686697152122675e-06,
      "loss": 0.1283,
      "step": 7832
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.681660662566224e-06,
      "loss": 0.1475,
      "step": 7833
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.676626118366016e-06,
      "loss": 0.1936,
      "step": 7834
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.671593520029034e-06,
      "loss": 0.0935,
      "step": 7835
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.666562868062042e-06,
      "loss": 0.1275,
      "step": 7836
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.661534162971654e-06,
      "loss": 0.1252,
      "step": 7837
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.656507405264242e-06,
      "loss": 0.1417,
      "step": 7838
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.651482595446003e-06,
      "loss": 0.1046,
      "step": 7839
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.646459734022938e-06,
      "loss": 0.1083,
      "step": 7840
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.641438821500855e-06,
      "loss": 0.1297,
      "step": 7841
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.636419858385339e-06,
      "loss": 0.1093,
      "step": 7842
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.631402845181827e-06,
      "loss": 0.1161,
      "step": 7843
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.626387782395512e-06,
      "loss": 0.1266,
      "step": 7844
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.621374670531418e-06,
      "loss": 0.121,
      "step": 7845
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.616363510094364e-06,
      "loss": 0.0888,
      "step": 7846
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.611354301588975e-06,
      "loss": 0.1027,
      "step": 7847
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.6063470455196745e-06,
      "loss": 0.1142,
      "step": 7848
    },
    {
      "epoch": 0.78,
      "learning_rate": 5.601341742390706e-06,
      "loss": 0.1129,
      "step": 7849
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.596338392706077e-06,
      "loss": 0.1219,
      "step": 7850
    },
    {
      "epoch": 0.79,
      "eval_loss": 0.7040825486183167,
      "eval_runtime": 72.71,
      "eval_samples_per_second": 3.177,
      "eval_steps_per_second": 0.798,
      "step": 7850
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.591336996969656e-06,
      "loss": 0.1954,
      "step": 7851
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.586337555685062e-06,
      "loss": 0.1009,
      "step": 7852
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.581340069355742e-06,
      "loss": 0.1211,
      "step": 7853
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.576344538484948e-06,
      "loss": 0.1302,
      "step": 7854
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.571350963575728e-06,
      "loss": 0.0863,
      "step": 7855
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.5663593451309335e-06,
      "loss": 0.1839,
      "step": 7856
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.5613696836532285e-06,
      "loss": 0.1148,
      "step": 7857
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.556381979645051e-06,
      "loss": 0.0987,
      "step": 7858
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.551396233608688e-06,
      "loss": 0.0645,
      "step": 7859
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.546412446046187e-06,
      "loss": 0.1058,
      "step": 7860
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.54143061745942e-06,
      "loss": 0.1056,
      "step": 7861
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.536450748350056e-06,
      "loss": 0.1187,
      "step": 7862
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.53147283921957e-06,
      "loss": 0.1112,
      "step": 7863
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.526496890569238e-06,
      "loss": 0.1269,
      "step": 7864
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.521522902900142e-06,
      "loss": 0.0902,
      "step": 7865
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.5165508767131415e-06,
      "loss": 0.0449,
      "step": 7866
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.511580812508951e-06,
      "loss": 0.1518,
      "step": 7867
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.506612710788039e-06,
      "loss": 0.1417,
      "step": 7868
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.501646572050678e-06,
      "loss": 0.1241,
      "step": 7869
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.49668239679699e-06,
      "loss": 0.1766,
      "step": 7870
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.491720185526841e-06,
      "loss": 0.0997,
      "step": 7871
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.486759938739938e-06,
      "loss": 0.0528,
      "step": 7872
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.481801656935776e-06,
      "loss": 0.0776,
      "step": 7873
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.476845340613651e-06,
      "loss": 0.0934,
      "step": 7874
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.471890990272666e-06,
      "loss": 0.099,
      "step": 7875
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.4669386064117315e-06,
      "loss": 0.1394,
      "step": 7876
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.461988189529529e-06,
      "loss": 0.1134,
      "step": 7877
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.457039740124598e-06,
      "loss": 0.1895,
      "step": 7878
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.452093258695223e-06,
      "loss": 0.1023,
      "step": 7879
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.4471487457395225e-06,
      "loss": 0.1642,
      "step": 7880
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.442206201755406e-06,
      "loss": 0.2111,
      "step": 7881
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.4372656272405925e-06,
      "loss": 0.1049,
      "step": 7882
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.432327022692593e-06,
      "loss": 0.1346,
      "step": 7883
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.427390388608733e-06,
      "loss": 0.1156,
      "step": 7884
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.422455725486114e-06,
      "loss": 0.1552,
      "step": 7885
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.417523033821681e-06,
      "loss": 0.1208,
      "step": 7886
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.412592314112136e-06,
      "loss": 0.0931,
      "step": 7887
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.4076635668540075e-06,
      "loss": 0.1,
      "step": 7888
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.402736792543622e-06,
      "loss": 0.0974,
      "step": 7889
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.397811991677107e-06,
      "loss": 0.1383,
      "step": 7890
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.392889164750386e-06,
      "loss": 0.0946,
      "step": 7891
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.387968312259198e-06,
      "loss": 0.0697,
      "step": 7892
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.38304943469905e-06,
      "loss": 0.1448,
      "step": 7893
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.378132532565302e-06,
      "loss": 0.1682,
      "step": 7894
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.373217606353062e-06,
      "loss": 0.1515,
      "step": 7895
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.368304656557274e-06,
      "loss": 0.1138,
      "step": 7896
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.363393683672668e-06,
      "loss": 0.1125,
      "step": 7897
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.3584846881937825e-06,
      "loss": 0.0922,
      "step": 7898
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.3535776706149505e-06,
      "loss": 0.0952,
      "step": 7899
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.348672631430318e-06,
      "loss": 0.1703,
      "step": 7900
    },
    {
      "epoch": 0.79,
      "eval_loss": 0.6988670825958252,
      "eval_runtime": 73.0688,
      "eval_samples_per_second": 3.161,
      "eval_steps_per_second": 0.794,
      "step": 7900
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.3437695711338e-06,
      "loss": 0.0595,
      "step": 7901
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.338868490219159e-06,
      "loss": 0.0967,
      "step": 7902
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.333969389179919e-06,
      "loss": 0.1171,
      "step": 7903
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.329072268509422e-06,
      "loss": 0.1417,
      "step": 7904
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.324177128700811e-06,
      "loss": 0.1191,
      "step": 7905
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.31928397024703e-06,
      "loss": 0.0802,
      "step": 7906
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.3143927936408015e-06,
      "loss": 0.1279,
      "step": 7907
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.309503599374693e-06,
      "loss": 0.1198,
      "step": 7908
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.304616387941028e-06,
      "loss": 0.0261,
      "step": 7909
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.299731159831953e-06,
      "loss": 0.0796,
      "step": 7910
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.294847915539411e-06,
      "loss": 0.0918,
      "step": 7911
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.289966655555145e-06,
      "loss": 0.1179,
      "step": 7912
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.285087380370699e-06,
      "loss": 0.109,
      "step": 7913
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.280210090477419e-06,
      "loss": 0.1403,
      "step": 7914
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.2753347863664314e-06,
      "loss": 0.0401,
      "step": 7915
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.270461468528704e-06,
      "loss": 0.097,
      "step": 7916
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.265590137454959e-06,
      "loss": 0.056,
      "step": 7917
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.260720793635748e-06,
      "loss": 0.1367,
      "step": 7918
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.255853437561411e-06,
      "loss": 0.0749,
      "step": 7919
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.250988069722096e-06,
      "loss": 0.0805,
      "step": 7920
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.24612469060774e-06,
      "loss": 0.1412,
      "step": 7921
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.241263300708094e-06,
      "loss": 0.1748,
      "step": 7922
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.236403900512679e-06,
      "loss": 0.0784,
      "step": 7923
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.231546490510866e-06,
      "loss": 0.1548,
      "step": 7924
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.226691071191772e-06,
      "loss": 0.1212,
      "step": 7925
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.221837643044347e-06,
      "loss": 0.1682,
      "step": 7926
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.216986206557331e-06,
      "loss": 0.1448,
      "step": 7927
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.212136762219261e-06,
      "loss": 0.1694,
      "step": 7928
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.207289310518479e-06,
      "loss": 0.0631,
      "step": 7929
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.202443851943126e-06,
      "loss": 0.112,
      "step": 7930
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.1976003869811245e-06,
      "loss": 0.1201,
      "step": 7931
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.192758916120236e-06,
      "loss": 0.1252,
      "step": 7932
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.187919439847974e-06,
      "loss": 0.1712,
      "step": 7933
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.183081958651684e-06,
      "loss": 0.116,
      "step": 7934
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.178246473018497e-06,
      "loss": 0.1454,
      "step": 7935
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.173412983435355e-06,
      "loss": 0.1715,
      "step": 7936
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.168581490388968e-06,
      "loss": 0.0864,
      "step": 7937
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.163751994365898e-06,
      "loss": 0.1056,
      "step": 7938
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.158924495852454e-06,
      "loss": 0.0329,
      "step": 7939
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.154098995334769e-06,
      "loss": 0.0614,
      "step": 7940
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.149275493298772e-06,
      "loss": 0.1005,
      "step": 7941
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.144453990230189e-06,
      "loss": 0.0675,
      "step": 7942
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.139634486614544e-06,
      "loss": 0.0728,
      "step": 7943
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.134816982937174e-06,
      "loss": 0.142,
      "step": 7944
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.130001479683174e-06,
      "loss": 0.1204,
      "step": 7945
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.125187977337495e-06,
      "loss": 0.233,
      "step": 7946
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.120376476384839e-06,
      "loss": 0.1303,
      "step": 7947
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.115566977309724e-06,
      "loss": 0.0961,
      "step": 7948
    },
    {
      "epoch": 0.79,
      "learning_rate": 5.110759480596472e-06,
      "loss": 0.0846,
      "step": 7949
    },
    {
      "epoch": 0.8,
      "learning_rate": 5.105953986729195e-06,
      "loss": 0.1441,
      "step": 7950
    },
    {
      "epoch": 0.8,
      "eval_loss": 0.7036786675453186,
      "eval_runtime": 72.8856,
      "eval_samples_per_second": 3.169,
      "eval_steps_per_second": 0.796,
      "step": 7950
    },
    {
      "epoch": 0.8,
      "learning_rate": 5.1011504961918085e-06,
      "loss": 0.0801,
      "step": 7951
    },
    {
      "epoch": 0.8,
      "learning_rate": 5.09634900946803e-06,
      "loss": 0.133,
      "step": 7952
    },
    {
      "epoch": 0.8,
      "learning_rate": 5.091549527041353e-06,
      "loss": 0.1457,
      "step": 7953
    },
    {
      "epoch": 0.8,
      "learning_rate": 5.086752049395094e-06,
      "loss": 0.1146,
      "step": 7954
    },
    {
      "epoch": 0.8,
      "learning_rate": 5.081956577012362e-06,
      "loss": 0.1438,
      "step": 7955
    },
    {
      "epoch": 0.8,
      "learning_rate": 5.077163110376054e-06,
      "loss": 0.1134,
      "step": 7956
    },
    {
      "epoch": 0.8,
      "learning_rate": 5.072371649968882e-06,
      "loss": 0.1162,
      "step": 7957
    },
    {
      "epoch": 0.8,
      "learning_rate": 5.06758219627333e-06,
      "loss": 0.065,
      "step": 7958
    },
    {
      "epoch": 0.8,
      "learning_rate": 5.062794749771715e-06,
      "loss": 0.1235,
      "step": 7959
    },
    {
      "epoch": 0.8,
      "learning_rate": 5.058009310946119e-06,
      "loss": 0.038,
      "step": 7960
    },
    {
      "epoch": 0.8,
      "learning_rate": 5.053225880278439e-06,
      "loss": 0.1071,
      "step": 7961
    },
    {
      "epoch": 0.8,
      "learning_rate": 5.048444458250368e-06,
      "loss": 0.171,
      "step": 7962
    },
    {
      "epoch": 0.8,
      "learning_rate": 5.043665045343399e-06,
      "loss": 0.0956,
      "step": 7963
    },
    {
      "epoch": 0.8,
      "learning_rate": 5.0388876420388e-06,
      "loss": 0.0327,
      "step": 7964
    },
    {
      "epoch": 0.8,
      "learning_rate": 5.034112248817685e-06,
      "loss": 0.0588,
      "step": 7965
    },
    {
      "epoch": 0.8,
      "learning_rate": 5.029338866160912e-06,
      "loss": 0.0517,
      "step": 7966
    },
    {
      "epoch": 0.8,
      "learning_rate": 5.024567494549168e-06,
      "loss": 0.0257,
      "step": 7967
    },
    {
      "epoch": 0.8,
      "learning_rate": 5.019798134462933e-06,
      "loss": 0.0261,
      "step": 7968
    },
    {
      "epoch": 0.8,
      "learning_rate": 5.015030786382477e-06,
      "loss": 0.0837,
      "step": 7969
    },
    {
      "epoch": 0.8,
      "learning_rate": 5.010265450787877e-06,
      "loss": 0.1306,
      "step": 7970
    },
    {
      "epoch": 0.8,
      "learning_rate": 5.005502128159004e-06,
      "loss": 0.091,
      "step": 7971
    },
    {
      "epoch": 0.8,
      "learning_rate": 5.000740818975505e-06,
      "loss": 0.0852,
      "step": 7972
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.995981523716872e-06,
      "loss": 0.1062,
      "step": 7973
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.991224242862347e-06,
      "loss": 0.0819,
      "step": 7974
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.986468976890993e-06,
      "loss": 0.0769,
      "step": 7975
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.981715726281666e-06,
      "loss": 0.0705,
      "step": 7976
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.976964491513014e-06,
      "loss": 0.1335,
      "step": 7977
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.972215273063494e-06,
      "loss": 0.0915,
      "step": 7978
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.967468071411352e-06,
      "loss": 0.1815,
      "step": 7979
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.962722887034615e-06,
      "loss": 0.1409,
      "step": 7980
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.957979720411149e-06,
      "loss": 0.1473,
      "step": 7981
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.95323857201857e-06,
      "loss": 0.0973,
      "step": 7982
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.9484994423343176e-06,
      "loss": 0.1553,
      "step": 7983
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.9437623318356216e-06,
      "loss": 0.2029,
      "step": 7984
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.9390272409995135e-06,
      "loss": 0.1985,
      "step": 7985
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.934294170302811e-06,
      "loss": 0.1313,
      "step": 7986
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.929563120222141e-06,
      "loss": 0.0967,
      "step": 7987
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.924834091233904e-06,
      "loss": 0.1388,
      "step": 7988
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.92010708381434e-06,
      "loss": 0.1351,
      "step": 7989
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.915382098439436e-06,
      "loss": 0.0781,
      "step": 7990
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.910659135585002e-06,
      "loss": 0.0919,
      "step": 7991
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.905938195726647e-06,
      "loss": 0.0481,
      "step": 7992
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.9012192793397635e-06,
      "loss": 0.0647,
      "step": 7993
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.896502386899551e-06,
      "loss": 0.1048,
      "step": 7994
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.8917875188810025e-06,
      "loss": 0.0759,
      "step": 7995
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.887074675758887e-06,
      "loss": 0.1049,
      "step": 7996
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.882363858007818e-06,
      "loss": 0.1153,
      "step": 7997
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.877655066102149e-06,
      "loss": 0.0779,
      "step": 7998
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.872948300516064e-06,
      "loss": 0.0865,
      "step": 7999
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.868243561723535e-06,
      "loss": 0.1452,
      "step": 8000
    },
    {
      "epoch": 0.8,
      "eval_loss": 0.6975703835487366,
      "eval_runtime": 73.0703,
      "eval_samples_per_second": 3.161,
      "eval_steps_per_second": 0.794,
      "step": 8000
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.8635408501983335e-06,
      "loss": 0.1357,
      "step": 8001
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.858840166414008e-06,
      "loss": 0.1883,
      "step": 8002
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.854141510843938e-06,
      "loss": 0.2123,
      "step": 8003
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.849444883961257e-06,
      "loss": 0.1494,
      "step": 8004
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.844750286238928e-06,
      "loss": 0.1065,
      "step": 8005
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.840057718149693e-06,
      "loss": 0.1624,
      "step": 8006
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.835367180166095e-06,
      "loss": 0.1392,
      "step": 8007
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.8306786727604695e-06,
      "loss": 0.139,
      "step": 8008
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.825992196404957e-06,
      "loss": 0.1495,
      "step": 8009
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.821307751571463e-06,
      "loss": 0.1282,
      "step": 8010
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.8166253387317424e-06,
      "loss": 0.1184,
      "step": 8011
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.81194495835729e-06,
      "loss": 0.1176,
      "step": 8012
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.807266610919428e-06,
      "loss": 0.1073,
      "step": 8013
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.802590296889264e-06,
      "loss": 0.0763,
      "step": 8014
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.797916016737708e-06,
      "loss": 0.1675,
      "step": 8015
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.793243770935454e-06,
      "loss": 0.1989,
      "step": 8016
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.788573559953005e-06,
      "loss": 0.1067,
      "step": 8017
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.783905384260634e-06,
      "loss": 0.0916,
      "step": 8018
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.779239244328451e-06,
      "loss": 0.0874,
      "step": 8019
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.7745751406263165e-06,
      "loss": 0.1474,
      "step": 8020
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.76991307362391e-06,
      "loss": 0.1582,
      "step": 8021
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.765253043790704e-06,
      "loss": 0.0764,
      "step": 8022
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.7605950515959645e-06,
      "loss": 0.1104,
      "step": 8023
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.7559390975087495e-06,
      "loss": 0.0645,
      "step": 8024
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.751285181997919e-06,
      "loss": 0.1477,
      "step": 8025
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.746633305532103e-06,
      "loss": 0.102,
      "step": 8026
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.741983468579772e-06,
      "loss": 0.066,
      "step": 8027
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.737335671609147e-06,
      "loss": 0.093,
      "step": 8028
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.732689915088262e-06,
      "loss": 0.0907,
      "step": 8029
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.728046199484951e-06,
      "loss": 0.1112,
      "step": 8030
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.723404525266839e-06,
      "loss": 0.1005,
      "step": 8031
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.718764892901323e-06,
      "loss": 0.0859,
      "step": 8032
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.714127302855639e-06,
      "loss": 0.1076,
      "step": 8033
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.709491755596776e-06,
      "loss": 0.0982,
      "step": 8034
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.704858251591537e-06,
      "loss": 0.1541,
      "step": 8035
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.7002267913065164e-06,
      "loss": 0.064,
      "step": 8036
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.695597375208105e-06,
      "loss": 0.0985,
      "step": 8037
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.690970003762487e-06,
      "loss": 0.188,
      "step": 8038
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.686344677435628e-06,
      "loss": 0.1076,
      "step": 8039
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.681721396693303e-06,
      "loss": 0.1921,
      "step": 8040
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.6771001620010775e-06,
      "loss": 0.1137,
      "step": 8041
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.672480973824311e-06,
      "loss": 0.0874,
      "step": 8042
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.667863832628153e-06,
      "loss": 0.0883,
      "step": 8043
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.663248738877557e-06,
      "loss": 0.1803,
      "step": 8044
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.658635693037244e-06,
      "loss": 0.0784,
      "step": 8045
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.654024695571774e-06,
      "loss": 0.0365,
      "step": 8046
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.649415746945454e-06,
      "loss": 0.1083,
      "step": 8047
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.644808847622409e-06,
      "loss": 0.0715,
      "step": 8048
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.6402039980665585e-06,
      "loss": 0.0409,
      "step": 8049
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.6356011987416075e-06,
      "loss": 0.0557,
      "step": 8050
    },
    {
      "epoch": 0.81,
      "eval_loss": 0.6920173764228821,
      "eval_runtime": 69.1207,
      "eval_samples_per_second": 3.342,
      "eval_steps_per_second": 0.839,
      "step": 8050
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.631000450111059e-06,
      "loss": 0.0741,
      "step": 8051
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.6264017526382155e-06,
      "loss": 0.0756,
      "step": 8052
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.621805106786142e-06,
      "loss": 0.1714,
      "step": 8053
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.617210513017753e-06,
      "loss": 0.1727,
      "step": 8054
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.612617971795699e-06,
      "loss": 0.1558,
      "step": 8055
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.6080274835824584e-06,
      "loss": 0.0952,
      "step": 8056
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.6034390488402914e-06,
      "loss": 0.0869,
      "step": 8057
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.598852668031259e-06,
      "loss": 0.1448,
      "step": 8058
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.594268341617194e-06,
      "loss": 0.1268,
      "step": 8059
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.589686070059762e-06,
      "loss": 0.1024,
      "step": 8060
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.585105853820376e-06,
      "loss": 0.1357,
      "step": 8061
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.580527693360273e-06,
      "loss": 0.0813,
      "step": 8062
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.575951589140473e-06,
      "loss": 0.0837,
      "step": 8063
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.571377541621788e-06,
      "loss": 0.1153,
      "step": 8064
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.566805551264827e-06,
      "loss": 0.113,
      "step": 8065
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.562235618529995e-06,
      "loss": 0.0586,
      "step": 8066
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.557667743877461e-06,
      "loss": 0.0731,
      "step": 8067
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.5531019277672395e-06,
      "loss": 0.054,
      "step": 8068
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.548538170659089e-06,
      "loss": 0.1,
      "step": 8069
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.5439764730125875e-06,
      "loss": 0.0872,
      "step": 8070
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.539416835287091e-06,
      "loss": 0.12,
      "step": 8071
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.534859257941762e-06,
      "loss": 0.1684,
      "step": 8072
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.530303741435546e-06,
      "loss": 0.0241,
      "step": 8073
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.525750286227187e-06,
      "loss": 0.0869,
      "step": 8074
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.521198892775203e-06,
      "loss": 0.0388,
      "step": 8075
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.516649561537942e-06,
      "loss": 0.141,
      "step": 8076
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.512102292973505e-06,
      "loss": 0.1316,
      "step": 8077
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.507557087539807e-06,
      "loss": 0.175,
      "step": 8078
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.503013945694548e-06,
      "loss": 0.0535,
      "step": 8079
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.498472867895223e-06,
      "loss": 0.1148,
      "step": 8080
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.49393385459912e-06,
      "loss": 0.1493,
      "step": 8081
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.489396906263324e-06,
      "loss": 0.2195,
      "step": 8082
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.484862023344686e-06,
      "loss": 0.0636,
      "step": 8083
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.480329206299891e-06,
      "loss": 0.1301,
      "step": 8084
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.475798455585378e-06,
      "loss": 0.133,
      "step": 8085
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.4712697716574e-06,
      "loss": 0.0485,
      "step": 8086
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.4667431549719944e-06,
      "loss": 0.141,
      "step": 8087
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.462218605984992e-06,
      "loss": 0.1701,
      "step": 8088
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.457696125152011e-06,
      "loss": 0.1751,
      "step": 8089
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.453175712928476e-06,
      "loss": 0.2781,
      "step": 8090
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.4486573697695795e-06,
      "loss": 0.1784,
      "step": 8091
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.444141096130322e-06,
      "loss": 0.1298,
      "step": 8092
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.439626892465496e-06,
      "loss": 0.13,
      "step": 8093
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.435114759229675e-06,
      "loss": 0.0833,
      "step": 8094
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.430604696877239e-06,
      "loss": 0.0294,
      "step": 8095
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.426096705862351e-06,
      "loss": 0.2445,
      "step": 8096
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.421590786638951e-06,
      "loss": 0.0881,
      "step": 8097
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.417086939660808e-06,
      "loss": 0.0884,
      "step": 8098
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.412585165381439e-06,
      "loss": 0.1537,
      "step": 8099
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.408085464254183e-06,
      "loss": 0.2071,
      "step": 8100
    },
    {
      "epoch": 0.81,
      "eval_loss": 0.6966042518615723,
      "eval_runtime": 73.183,
      "eval_samples_per_second": 3.156,
      "eval_steps_per_second": 0.793,
      "step": 8100
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.403587836732157e-06,
      "loss": 0.2876,
      "step": 8101
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.399092283268269e-06,
      "loss": 0.153,
      "step": 8102
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.394598804315228e-06,
      "loss": 0.1814,
      "step": 8103
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.39010740032553e-06,
      "loss": 0.0686,
      "step": 8104
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.385618071751438e-06,
      "loss": 0.1187,
      "step": 8105
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.381130819045057e-06,
      "loss": 0.188,
      "step": 8106
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.376645642658228e-06,
      "loss": 0.1455,
      "step": 8107
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.372162543042624e-06,
      "loss": 0.127,
      "step": 8108
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.367681520649683e-06,
      "loss": 0.1111,
      "step": 8109
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.36320257593065e-06,
      "loss": 0.1152,
      "step": 8110
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.358725709336553e-06,
      "loss": 0.1461,
      "step": 8111
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.35425092131822e-06,
      "loss": 0.1309,
      "step": 8112
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.3497782123262386e-06,
      "loss": 0.0984,
      "step": 8113
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.345307582811042e-06,
      "loss": 0.099,
      "step": 8114
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.340839033222799e-06,
      "loss": 0.1032,
      "step": 8115
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.336372564011498e-06,
      "loss": 0.1178,
      "step": 8116
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.331908175626917e-06,
      "loss": 0.1096,
      "step": 8117
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.327445868518617e-06,
      "loss": 0.0803,
      "step": 8118
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.322985643135952e-06,
      "loss": 0.1034,
      "step": 8119
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.318527499928074e-06,
      "loss": 0.1032,
      "step": 8120
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.314071439343897e-06,
      "loss": 0.0971,
      "step": 8121
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.309617461832174e-06,
      "loss": 0.0774,
      "step": 8122
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.3051655678414044e-06,
      "loss": 0.0897,
      "step": 8123
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.300715757819884e-06,
      "loss": 0.073,
      "step": 8124
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.296268032215733e-06,
      "loss": 0.1662,
      "step": 8125
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.291822391476822e-06,
      "loss": 0.0931,
      "step": 8126
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.287378836050826e-06,
      "loss": 0.1402,
      "step": 8127
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.282937366385215e-06,
      "loss": 0.088,
      "step": 8128
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.278497982927243e-06,
      "loss": 0.0811,
      "step": 8129
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.274060686123959e-06,
      "loss": 0.0621,
      "step": 8130
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.269625476422201e-06,
      "loss": 0.0638,
      "step": 8131
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.265192354268579e-06,
      "loss": 0.0756,
      "step": 8132
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.260761320109533e-06,
      "loss": 0.0805,
      "step": 8133
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.256332374391247e-06,
      "loss": 0.066,
      "step": 8134
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.2519055175597265e-06,
      "loss": 0.1612,
      "step": 8135
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.24748075006075e-06,
      "loss": 0.0447,
      "step": 8136
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.243058072339895e-06,
      "loss": 0.0623,
      "step": 8137
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.238637484842523e-06,
      "loss": 0.1019,
      "step": 8138
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.234218988013794e-06,
      "loss": 0.0799,
      "step": 8139
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.229802582298633e-06,
      "loss": 0.0852,
      "step": 8140
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.225388268141797e-06,
      "loss": 0.1511,
      "step": 8141
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.220976045987787e-06,
      "loss": 0.1355,
      "step": 8142
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.216565916280921e-06,
      "loss": 0.1023,
      "step": 8143
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.2121578794652975e-06,
      "loss": 0.1546,
      "step": 8144
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.2077519359848075e-06,
      "loss": 0.0922,
      "step": 8145
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.2033480862831294e-06,
      "loss": 0.1942,
      "step": 8146
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.198946330803735e-06,
      "loss": 0.0913,
      "step": 8147
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.194546669989863e-06,
      "loss": 0.141,
      "step": 8148
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.1901491042845854e-06,
      "loss": 0.0666,
      "step": 8149
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.185753634130718e-06,
      "loss": 0.0888,
      "step": 8150
    },
    {
      "epoch": 0.81,
      "eval_loss": 0.6985019445419312,
      "eval_runtime": 73.4653,
      "eval_samples_per_second": 3.144,
      "eval_steps_per_second": 0.789,
      "step": 8150
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.18136025997089e-06,
      "loss": 0.0817,
      "step": 8151
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.176968982247514e-06,
      "loss": 0.1214,
      "step": 8152
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.1725798014027984e-06,
      "loss": 0.143,
      "step": 8153
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.168192717878714e-06,
      "loss": 0.0916,
      "step": 8154
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.1638077321170646e-06,
      "loss": 0.0775,
      "step": 8155
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.159424844559401e-06,
      "loss": 0.0748,
      "step": 8156
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.1550440556470835e-06,
      "loss": 0.0925,
      "step": 8157
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.15066536582126e-06,
      "loss": 0.1038,
      "step": 8158
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.146288775522867e-06,
      "loss": 0.1096,
      "step": 8159
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.141914285192619e-06,
      "loss": 0.0914,
      "step": 8160
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.137541895271041e-06,
      "loss": 0.1254,
      "step": 8161
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.133171606198411e-06,
      "loss": 0.1767,
      "step": 8162
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.128803418414839e-06,
      "loss": 0.1764,
      "step": 8163
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.124437332360187e-06,
      "loss": 0.1458,
      "step": 8164
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.120073348474127e-06,
      "loss": 0.1199,
      "step": 8165
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.115711467196106e-06,
      "loss": 0.1078,
      "step": 8166
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.1113516889653705e-06,
      "loss": 0.0969,
      "step": 8167
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.106994014220947e-06,
      "loss": 0.046,
      "step": 8168
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.102638443401663e-06,
      "loss": 0.0434,
      "step": 8169
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.098284976946101e-06,
      "loss": 0.0643,
      "step": 8170
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.093933615292683e-06,
      "loss": 0.0878,
      "step": 8171
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.0895843588795726e-06,
      "loss": 0.0749,
      "step": 8172
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.085237208144746e-06,
      "loss": 0.0915,
      "step": 8173
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.08089216352596e-06,
      "loss": 0.069,
      "step": 8174
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.076549225460757e-06,
      "loss": 0.102,
      "step": 8175
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.072208394386479e-06,
      "loss": 0.0477,
      "step": 8176
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.067869670740248e-06,
      "loss": 0.0438,
      "step": 8177
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.063533054958954e-06,
      "loss": 0.0395,
      "step": 8178
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.059198547479323e-06,
      "loss": 0.0566,
      "step": 8179
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.054866148737818e-06,
      "loss": 0.0326,
      "step": 8180
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.0505358591707205e-06,
      "loss": 0.0253,
      "step": 8181
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.046207679214087e-06,
      "loss": 0.0458,
      "step": 8182
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.041881609303774e-06,
      "loss": 0.1009,
      "step": 8183
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.0375576498753985e-06,
      "loss": 0.1024,
      "step": 8184
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.0332358013644016e-06,
      "loss": 0.0836,
      "step": 8185
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.028916064205984e-06,
      "loss": 0.1437,
      "step": 8186
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.024598438835145e-06,
      "loss": 0.1265,
      "step": 8187
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.020282925686667e-06,
      "loss": 0.1524,
      "step": 8188
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.015969525195126e-06,
      "loss": 0.1532,
      "step": 8189
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.011658237794877e-06,
      "loss": 0.0783,
      "step": 8190
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.007349063920076e-06,
      "loss": 0.1259,
      "step": 8191
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.0030420040046425e-06,
      "loss": 0.0763,
      "step": 8192
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.998737058482313e-06,
      "loss": 0.1027,
      "step": 8193
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.994434227786581e-06,
      "loss": 0.1027,
      "step": 8194
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.990133512350747e-06,
      "loss": 0.1319,
      "step": 8195
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.985834912607894e-06,
      "loss": 0.0875,
      "step": 8196
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.981538428990891e-06,
      "loss": 0.1061,
      "step": 8197
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.977244061932392e-06,
      "loss": 0.1881,
      "step": 8198
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.9729518118648474e-06,
      "loss": 0.177,
      "step": 8199
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.968661679220468e-06,
      "loss": 0.3835,
      "step": 8200
    },
    {
      "epoch": 0.82,
      "eval_loss": 0.7073343992233276,
      "eval_runtime": 73.8428,
      "eval_samples_per_second": 3.128,
      "eval_steps_per_second": 0.785,
      "step": 8200
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.9643736644312955e-06,
      "loss": 0.4019,
      "step": 8201
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.96008776792911e-06,
      "loss": 0.185,
      "step": 8202
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.955803990145512e-06,
      "loss": 0.752,
      "step": 8203
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.951522331511878e-06,
      "loss": 0.6907,
      "step": 8204
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.947242792459368e-06,
      "loss": 0.36,
      "step": 8205
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.942965373418933e-06,
      "loss": 0.1023,
      "step": 8206
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.938690074821313e-06,
      "loss": 0.1112,
      "step": 8207
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.934416897097023e-06,
      "loss": 0.1202,
      "step": 8208
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.9301458406763746e-06,
      "loss": 0.0832,
      "step": 8209
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.925876905989462e-06,
      "loss": 0.1635,
      "step": 8210
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.921610093466169e-06,
      "loss": 0.029,
      "step": 8211
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.917345403536171e-06,
      "loss": 0.0878,
      "step": 8212
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.913082836628898e-06,
      "loss": 0.11,
      "step": 8213
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.908822393173622e-06,
      "loss": 0.1123,
      "step": 8214
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.9045640735993456e-06,
      "loss": 0.0506,
      "step": 8215
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.900307878334891e-06,
      "loss": 0.0496,
      "step": 8216
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.896053807808855e-06,
      "loss": 0.0475,
      "step": 8217
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.891801862449629e-06,
      "loss": 0.0811,
      "step": 8218
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.887552042685366e-06,
      "loss": 0.0401,
      "step": 8219
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.883304348944048e-06,
      "loss": 0.0304,
      "step": 8220
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.879058781653397e-06,
      "loss": 0.0766,
      "step": 8221
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.874815341240948e-06,
      "loss": 0.1092,
      "step": 8222
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.870574028134017e-06,
      "loss": 0.0338,
      "step": 8223
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.866334842759703e-06,
      "loss": 0.0867,
      "step": 8224
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.8620977855448935e-06,
      "loss": 0.1293,
      "step": 8225
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.857862856916264e-06,
      "loss": 0.1045,
      "step": 8226
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.853630057300253e-06,
      "loss": 0.137,
      "step": 8227
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.8493993871231285e-06,
      "loss": 0.1258,
      "step": 8228
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.845170846810902e-06,
      "loss": 0.0936,
      "step": 8229
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.840944436789393e-06,
      "loss": 0.1311,
      "step": 8230
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.8367201574842e-06,
      "loss": 0.144,
      "step": 8231
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.832498009320706e-06,
      "loss": 0.0921,
      "step": 8232
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.828277992724086e-06,
      "loss": 0.0948,
      "step": 8233
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.824060108119299e-06,
      "loss": 0.078,
      "step": 8234
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.819844355931066e-06,
      "loss": 0.0908,
      "step": 8235
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.815630736583939e-06,
      "loss": 0.0579,
      "step": 8236
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.81141925050221e-06,
      "loss": 0.0743,
      "step": 8237
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.8072098981099867e-06,
      "loss": 0.105,
      "step": 8238
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.8030026798311442e-06,
      "loss": 0.1366,
      "step": 8239
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.798797596089351e-06,
      "loss": 0.1576,
      "step": 8240
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.7945946473080615e-06,
      "loss": 0.1333,
      "step": 8241
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.790393833910516e-06,
      "loss": 0.1211,
      "step": 8242
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.786195156319719e-06,
      "loss": 0.1081,
      "step": 8243
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.7819986149585014e-06,
      "loss": 0.1197,
      "step": 8244
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.777804210249436e-06,
      "loss": 0.0977,
      "step": 8245
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.7736119426149075e-06,
      "loss": 0.1002,
      "step": 8246
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.7694218124770754e-06,
      "loss": 0.1337,
      "step": 8247
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.765233820257891e-06,
      "loss": 0.1575,
      "step": 8248
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.7610479663790665e-06,
      "loss": 0.097,
      "step": 8249
    },
    {
      "epoch": 0.82,
      "learning_rate": 3.756864251262143e-06,
      "loss": 0.1616,
      "step": 8250
    },
    {
      "epoch": 0.82,
      "eval_loss": 0.7035391926765442,
      "eval_runtime": 73.7074,
      "eval_samples_per_second": 3.134,
      "eval_steps_per_second": 0.787,
      "step": 8250
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.752682675328406e-06,
      "loss": 0.1501,
      "step": 8251
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.7485032389989376e-06,
      "loss": 0.0683,
      "step": 8252
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.7443259426946155e-06,
      "loss": 0.0723,
      "step": 8253
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.7401507868360857e-06,
      "loss": 0.0434,
      "step": 8254
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.7359777718437933e-06,
      "loss": 0.0573,
      "step": 8255
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.73180689813796e-06,
      "loss": 0.1311,
      "step": 8256
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.727638166138581e-06,
      "loss": 0.1834,
      "step": 8257
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.7234715762654663e-06,
      "loss": 0.1298,
      "step": 8258
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.7193071289381793e-06,
      "loss": 0.2132,
      "step": 8259
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.715144824576078e-06,
      "loss": 0.2226,
      "step": 8260
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.7109846635983132e-06,
      "loss": 0.1477,
      "step": 8261
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.7068266464238084e-06,
      "loss": 0.1036,
      "step": 8262
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.7026707734712814e-06,
      "loss": 0.1164,
      "step": 8263
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.6985170451592275e-06,
      "loss": 0.1374,
      "step": 8264
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.6943654619059133e-06,
      "loss": 0.1482,
      "step": 8265
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.6902160241294253e-06,
      "loss": 0.1492,
      "step": 8266
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.686068732247594e-06,
      "loss": 0.1169,
      "step": 8267
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.68192358667806e-06,
      "loss": 0.1022,
      "step": 8268
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.6777805878382367e-06,
      "loss": 0.0933,
      "step": 8269
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.6736397361453233e-06,
      "loss": 0.0935,
      "step": 8270
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.6695010320163064e-06,
      "loss": 0.122,
      "step": 8271
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.6653644758679577e-06,
      "loss": 0.141,
      "step": 8272
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.661230068116811e-06,
      "loss": 0.1116,
      "step": 8273
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.6570978091792246e-06,
      "loss": 0.131,
      "step": 8274
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.652967699471299e-06,
      "loss": 0.0914,
      "step": 8275
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.6488397394089407e-06,
      "loss": 0.1233,
      "step": 8276
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.644713929407839e-06,
      "loss": 0.1121,
      "step": 8277
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.6405902698834622e-06,
      "loss": 0.1036,
      "step": 8278
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.6364687612510524e-06,
      "loss": 0.1318,
      "step": 8279
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.632349403925664e-06,
      "loss": 0.1923,
      "step": 8280
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.628232198322101e-06,
      "loss": 0.0948,
      "step": 8281
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.6241171448549714e-06,
      "loss": 0.1478,
      "step": 8282
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.6200042439386572e-06,
      "loss": 0.1202,
      "step": 8283
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.6158934959873353e-06,
      "loss": 0.1395,
      "step": 8284
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.6117849014149496e-06,
      "loss": 0.1006,
      "step": 8285
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.607678460635247e-06,
      "loss": 0.0961,
      "step": 8286
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.603574174061725e-06,
      "loss": 0.1162,
      "step": 8287
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.59947204210771e-06,
      "loss": 0.1153,
      "step": 8288
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.59537206518627e-06,
      "loss": 0.1187,
      "step": 8289
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.591274243710277e-06,
      "loss": 0.1211,
      "step": 8290
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.587178578092382e-06,
      "loss": 0.1175,
      "step": 8291
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.583085068745018e-06,
      "loss": 0.1056,
      "step": 8292
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.5789937160804004e-06,
      "loss": 0.1161,
      "step": 8293
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.5749045205105357e-06,
      "loss": 0.101,
      "step": 8294
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.5708174824471947e-06,
      "loss": 0.1278,
      "step": 8295
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.5667326023019477e-06,
      "loss": 0.1414,
      "step": 8296
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.5626498804861407e-06,
      "loss": 0.1998,
      "step": 8297
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.5585693174109034e-06,
      "loss": 0.1629,
      "step": 8298
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.5544909134871545e-06,
      "loss": 0.1519,
      "step": 8299
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.5504146691255736e-06,
      "loss": 0.0997,
      "step": 8300
    },
    {
      "epoch": 0.83,
      "eval_loss": 0.7009122967720032,
      "eval_runtime": 73.4941,
      "eval_samples_per_second": 3.143,
      "eval_steps_per_second": 0.789,
      "step": 8300
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.54634058473666e-06,
      "loss": 0.1026,
      "step": 8301
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.542268660730655e-06,
      "loss": 0.1757,
      "step": 8302
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.5381988975176112e-06,
      "loss": 0.1397,
      "step": 8303
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.534131295507348e-06,
      "loss": 0.1189,
      "step": 8304
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.5300658551094796e-06,
      "loss": 0.066,
      "step": 8305
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.5260025767333893e-06,
      "loss": 0.0888,
      "step": 8306
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.5219414607882583e-06,
      "loss": 0.1424,
      "step": 8307
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.5178825076830236e-06,
      "loss": 0.083,
      "step": 8308
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.513825717826444e-06,
      "loss": 0.1164,
      "step": 8309
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.509771091627023e-06,
      "loss": 0.1524,
      "step": 8310
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.505718629493063e-06,
      "loss": 0.0946,
      "step": 8311
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.5016683318326472e-06,
      "loss": 0.0637,
      "step": 8312
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.49762019905365e-06,
      "loss": 0.0853,
      "step": 8313
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.4935742315636984e-06,
      "loss": 0.1619,
      "step": 8314
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.4895304297702464e-06,
      "loss": 0.1133,
      "step": 8315
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.4854887940804827e-06,
      "loss": 0.1696,
      "step": 8316
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.4814493249014116e-06,
      "loss": 0.1187,
      "step": 8317
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.477412022639803e-06,
      "loss": 0.0699,
      "step": 8318
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.473376887702215e-06,
      "loss": 0.05,
      "step": 8319
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.4693439204949858e-06,
      "loss": 0.1142,
      "step": 8320
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.465313121424241e-06,
      "loss": 0.0848,
      "step": 8321
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.4612844908958636e-06,
      "loss": 0.1314,
      "step": 8322
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.4572580293155605e-06,
      "loss": 0.0824,
      "step": 8323
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.453233737088779e-06,
      "loss": 0.1533,
      "step": 8324
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.4492116146207675e-06,
      "loss": 0.1189,
      "step": 8325
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.4451916623165605e-06,
      "loss": 0.1475,
      "step": 8326
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.441173880580961e-06,
      "loss": 0.1903,
      "step": 8327
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.4371582698185633e-06,
      "loss": 0.1251,
      "step": 8328
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.433144830433743e-06,
      "loss": 0.1195,
      "step": 8329
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.429133562830636e-06,
      "loss": 0.1183,
      "step": 8330
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.4251244674132017e-06,
      "loss": 0.1548,
      "step": 8331
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.421117544585137e-06,
      "loss": 0.1044,
      "step": 8332
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.417112794749944e-06,
      "loss": 0.1114,
      "step": 8333
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.4131102183109056e-06,
      "loss": 0.1037,
      "step": 8334
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.4091098156710744e-06,
      "loss": 0.0834,
      "step": 8335
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.405111587233295e-06,
      "loss": 0.128,
      "step": 8336
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.4011155334001924e-06,
      "loss": 0.089,
      "step": 8337
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.3971216545741537e-06,
      "loss": 0.0661,
      "step": 8338
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.393129951157384e-06,
      "loss": 0.1422,
      "step": 8339
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.3891404235518344e-06,
      "loss": 0.1339,
      "step": 8340
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.38515307215925e-06,
      "loss": 0.1573,
      "step": 8341
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.38116789738116e-06,
      "loss": 0.1161,
      "step": 8342
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.3771848996188766e-06,
      "loss": 0.1126,
      "step": 8343
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.3732040792734733e-06,
      "loss": 0.1002,
      "step": 8344
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.3692254367458377e-06,
      "loss": 0.0736,
      "step": 8345
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.365248972436602e-06,
      "loss": 0.12,
      "step": 8346
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.361274686746202e-06,
      "loss": 0.1014,
      "step": 8347
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.3573025800748503e-06,
      "loss": 0.0941,
      "step": 8348
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.3533326528225385e-06,
      "loss": 0.1143,
      "step": 8349
    },
    {
      "epoch": 0.83,
      "learning_rate": 3.3493649053890326e-06,
      "loss": 0.1504,
      "step": 8350
    },
    {
      "epoch": 0.83,
      "eval_loss": 0.699677586555481,
      "eval_runtime": 73.3916,
      "eval_samples_per_second": 3.148,
      "eval_steps_per_second": 0.79,
      "step": 8350
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.3453993381738964e-06,
      "loss": 0.1212,
      "step": 8351
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.3414359515764436e-06,
      "loss": 0.0807,
      "step": 8352
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.3374747459958083e-06,
      "loss": 0.1003,
      "step": 8353
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.3335157218308653e-06,
      "loss": 0.1503,
      "step": 8354
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.329558879480299e-06,
      "loss": 0.0477,
      "step": 8355
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.3256042193425597e-06,
      "loss": 0.0624,
      "step": 8356
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.3216517418158842e-06,
      "loss": 0.102,
      "step": 8357
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.3177014472982825e-06,
      "loss": 0.1142,
      "step": 8358
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.313753336187558e-06,
      "loss": 0.104,
      "step": 8359
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.3098074088812686e-06,
      "loss": 0.1331,
      "step": 8360
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.305863665776793e-06,
      "loss": 0.0747,
      "step": 8361
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.3019221072712436e-06,
      "loss": 0.0705,
      "step": 8362
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.2979827337615453e-06,
      "loss": 0.0528,
      "step": 8363
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.294045545644392e-06,
      "loss": 0.1067,
      "step": 8364
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.290110543316258e-06,
      "loss": 0.1016,
      "step": 8365
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.2861777271734005e-06,
      "loss": 0.0731,
      "step": 8366
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.282247097611854e-06,
      "loss": 0.0901,
      "step": 8367
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.278318655027421e-06,
      "loss": 0.1938,
      "step": 8368
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.2743923998157177e-06,
      "loss": 0.0922,
      "step": 8369
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.270468332372098e-06,
      "loss": 0.112,
      "step": 8370
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.2665464530917208e-06,
      "loss": 0.1407,
      "step": 8371
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.262626762369525e-06,
      "loss": 0.1365,
      "step": 8372
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.2587092606002236e-06,
      "loss": 0.1728,
      "step": 8373
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.2547939481782918e-06,
      "loss": 0.1548,
      "step": 8374
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.250880825498026e-06,
      "loss": 0.1112,
      "step": 8375
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.2469698929534635e-06,
      "loss": 0.1074,
      "step": 8376
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.243061150938434e-06,
      "loss": 0.1206,
      "step": 8377
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.2391545998465527e-06,
      "loss": 0.1258,
      "step": 8378
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.235250240071208e-06,
      "loss": 0.1914,
      "step": 8379
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.2313480720055745e-06,
      "loss": 0.0921,
      "step": 8380
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.2274480960425873e-06,
      "loss": 0.1709,
      "step": 8381
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.2235503125749826e-06,
      "loss": 0.1386,
      "step": 8382
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.219654721995266e-06,
      "loss": 0.104,
      "step": 8383
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.2157613246957237e-06,
      "loss": 0.1108,
      "step": 8384
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.2118701210684166e-06,
      "loss": 0.0514,
      "step": 8385
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.207981111505201e-06,
      "loss": 0.0418,
      "step": 8386
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.2040942963976777e-06,
      "loss": 0.1012,
      "step": 8387
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.200209676137275e-06,
      "loss": 0.0729,
      "step": 8388
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.1963272511151555e-06,
      "loss": 0.0661,
      "step": 8389
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.1924470217222835e-06,
      "loss": 0.1207,
      "step": 8390
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.1885689883494024e-06,
      "loss": 0.0917,
      "step": 8391
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.184693151387025e-06,
      "loss": 0.2253,
      "step": 8392
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.1808195112254525e-06,
      "loss": 0.1288,
      "step": 8393
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.176948068254762e-06,
      "loss": 0.1188,
      "step": 8394
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.1730788228647946e-06,
      "loss": 0.0531,
      "step": 8395
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.1692117754452023e-06,
      "loss": 0.1487,
      "step": 8396
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.165346926385382e-06,
      "loss": 0.0677,
      "step": 8397
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.1614842760745277e-06,
      "loss": 0.0854,
      "step": 8398
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.157623824901612e-06,
      "loss": 0.1908,
      "step": 8399
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.1537655732553768e-06,
      "loss": 0.0978,
      "step": 8400
    },
    {
      "epoch": 0.84,
      "eval_loss": 0.7056499123573303,
      "eval_runtime": 66.4027,
      "eval_samples_per_second": 3.479,
      "eval_steps_per_second": 0.873,
      "step": 8400
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.1499095215243496e-06,
      "loss": 0.1483,
      "step": 8401
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.1460556700968453e-06,
      "loss": 0.1273,
      "step": 8402
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.142204019360928e-06,
      "loss": 0.0901,
      "step": 8403
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.1383545697044686e-06,
      "loss": 0.0924,
      "step": 8404
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.1345073215151066e-06,
      "loss": 0.0937,
      "step": 8405
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.13066227518026e-06,
      "loss": 0.0603,
      "step": 8406
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.1268194310871217e-06,
      "loss": 0.0807,
      "step": 8407
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.1229787896226743e-06,
      "loss": 0.1701,
      "step": 8408
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.119140351173655e-06,
      "loss": 0.0998,
      "step": 8409
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.1153041161266134e-06,
      "loss": 0.036,
      "step": 8410
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.111470084867843e-06,
      "loss": 0.0534,
      "step": 8411
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.107638257783435e-06,
      "loss": 0.05,
      "step": 8412
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.103808635259256e-06,
      "loss": 0.026,
      "step": 8413
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.09998121768095e-06,
      "loss": 0.0314,
      "step": 8414
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.0961560054339338e-06,
      "loss": 0.0642,
      "step": 8415
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.092332998903416e-06,
      "loss": 0.1046,
      "step": 8416
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.0885121984743526e-06,
      "loss": 0.0898,
      "step": 8417
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.0846936045315246e-06,
      "loss": 0.0863,
      "step": 8418
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.0808772174594436e-06,
      "loss": 0.0865,
      "step": 8419
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.0770630376424277e-06,
      "loss": 0.1293,
      "step": 8420
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.0732510654645634e-06,
      "loss": 0.0799,
      "step": 8421
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.0694413013097197e-06,
      "loss": 0.088,
      "step": 8422
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.065633745561533e-06,
      "loss": 0.1198,
      "step": 8423
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.0618283986034364e-06,
      "loss": 0.0763,
      "step": 8424
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.058025260818609e-06,
      "loss": 0.1491,
      "step": 8425
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.0542243325900445e-06,
      "loss": 0.1482,
      "step": 8426
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.0504256143004866e-06,
      "loss": 0.1737,
      "step": 8427
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.0466291063324686e-06,
      "loss": 0.1044,
      "step": 8428
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.042834809068301e-06,
      "loss": 0.1198,
      "step": 8429
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.0390427228900646e-06,
      "loss": 0.225,
      "step": 8430
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.035252848179626e-06,
      "loss": 0.1732,
      "step": 8431
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.03146518531863e-06,
      "loss": 0.1037,
      "step": 8432
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.0276797346884766e-06,
      "loss": 0.1263,
      "step": 8433
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.0238964966703838e-06,
      "loss": 0.1267,
      "step": 8434
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.02011547164531e-06,
      "loss": 0.1126,
      "step": 8435
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.016336659994004e-06,
      "loss": 0.0913,
      "step": 8436
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.0125600620969945e-06,
      "loss": 0.0865,
      "step": 8437
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.0087856783345914e-06,
      "loss": 0.0532,
      "step": 8438
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.0050135090868596e-06,
      "loss": 0.064,
      "step": 8439
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.0012435547336737e-06,
      "loss": 0.0888,
      "step": 8440
    },
    {
      "epoch": 0.84,
      "learning_rate": 2.997475815654657e-06,
      "loss": 0.0609,
      "step": 8441
    },
    {
      "epoch": 0.84,
      "learning_rate": 2.993710292229221e-06,
      "loss": 0.0801,
      "step": 8442
    },
    {
      "epoch": 0.84,
      "learning_rate": 2.9899469848365587e-06,
      "loss": 0.1195,
      "step": 8443
    },
    {
      "epoch": 0.84,
      "learning_rate": 2.986185893855631e-06,
      "loss": 0.0963,
      "step": 8444
    },
    {
      "epoch": 0.84,
      "learning_rate": 2.982427019665182e-06,
      "loss": 0.0639,
      "step": 8445
    },
    {
      "epoch": 0.84,
      "learning_rate": 2.9786703626437372e-06,
      "loss": 0.1362,
      "step": 8446
    },
    {
      "epoch": 0.84,
      "learning_rate": 2.9749159231695717e-06,
      "loss": 0.1169,
      "step": 8447
    },
    {
      "epoch": 0.84,
      "learning_rate": 2.97116370162078e-06,
      "loss": 0.2033,
      "step": 8448
    },
    {
      "epoch": 0.84,
      "learning_rate": 2.967413698375196e-06,
      "loss": 0.2296,
      "step": 8449
    },
    {
      "epoch": 0.84,
      "learning_rate": 2.9636659138104513e-06,
      "loss": 0.1405,
      "step": 8450
    },
    {
      "epoch": 0.84,
      "eval_loss": 0.7013062238693237,
      "eval_runtime": 70.9571,
      "eval_samples_per_second": 3.255,
      "eval_steps_per_second": 0.817,
      "step": 8450
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.9599203483039433e-06,
      "loss": 0.0902,
      "step": 8451
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.9561770022328544e-06,
      "loss": 0.1595,
      "step": 8452
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.9524358759741384e-06,
      "loss": 0.1166,
      "step": 8453
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.9486969699045327e-06,
      "loss": 0.1648,
      "step": 8454
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.9449602844005277e-06,
      "loss": 0.1366,
      "step": 8455
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.941225819838428e-06,
      "loss": 0.1521,
      "step": 8456
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.9374935765942803e-06,
      "loss": 0.1182,
      "step": 8457
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.9337635550439278e-06,
      "loss": 0.1027,
      "step": 8458
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.9300357555629793e-06,
      "loss": 0.1256,
      "step": 8459
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.9263101785268254e-06,
      "loss": 0.0663,
      "step": 8460
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.922586824310633e-06,
      "loss": 0.1399,
      "step": 8461
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.9188656932893495e-06,
      "loss": 0.1821,
      "step": 8462
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.9151467858376775e-06,
      "loss": 0.1124,
      "step": 8463
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.911430102330126e-06,
      "loss": 0.1086,
      "step": 8464
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.9077156431409626e-06,
      "loss": 0.0635,
      "step": 8465
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.9040034086442183e-06,
      "loss": 0.1195,
      "step": 8466
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.9002933992137355e-06,
      "loss": 0.1471,
      "step": 8467
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.896585615223099e-06,
      "loss": 0.0892,
      "step": 8468
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.8928800570456854e-06,
      "loss": 0.1176,
      "step": 8469
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.889176725054643e-06,
      "loss": 0.0697,
      "step": 8470
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.8854756196229016e-06,
      "loss": 0.1218,
      "step": 8471
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.88177674112316e-06,
      "loss": 0.1034,
      "step": 8472
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.878080089927901e-06,
      "loss": 0.0644,
      "step": 8473
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.874385666409363e-06,
      "loss": 0.0717,
      "step": 8474
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.8706934709395892e-06,
      "loss": 0.0859,
      "step": 8475
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.867003503890375e-06,
      "loss": 0.1108,
      "step": 8476
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.863315765633301e-06,
      "loss": 0.1097,
      "step": 8477
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.859630256539725e-06,
      "loss": 0.0772,
      "step": 8478
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.855946976980775e-06,
      "loss": 0.0818,
      "step": 8479
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.8522659273273604e-06,
      "loss": 0.0925,
      "step": 8480
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.848587107950165e-06,
      "loss": 0.1439,
      "step": 8481
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.8449105192196316e-06,
      "loss": 0.0608,
      "step": 8482
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.8412361615060113e-06,
      "loss": 0.0765,
      "step": 8483
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.8375640351792993e-06,
      "loss": 0.1926,
      "step": 8484
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.8338941406092835e-06,
      "loss": 0.1065,
      "step": 8485
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.830226478165521e-06,
      "loss": 0.1632,
      "step": 8486
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.8265610482173464e-06,
      "loss": 0.1052,
      "step": 8487
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.8228978511338656e-06,
      "loss": 0.0828,
      "step": 8488
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.8192368872839688e-06,
      "loss": 0.0873,
      "step": 8489
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.8155781570363026e-06,
      "loss": 0.118,
      "step": 8490
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.8119216607593175e-06,
      "loss": 0.1358,
      "step": 8491
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.80826739882121e-06,
      "loss": 0.0561,
      "step": 8492
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.8046153715899692e-06,
      "loss": 0.0721,
      "step": 8493
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.800965579433351e-06,
      "loss": 0.1069,
      "step": 8494
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.797318022718898e-06,
      "loss": 0.0537,
      "step": 8495
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.7936727018139013e-06,
      "loss": 0.0532,
      "step": 8496
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.7900296170854658e-06,
      "loss": 0.0763,
      "step": 8497
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.786388768900436e-06,
      "loss": 0.072,
      "step": 8498
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.7827501576254493e-06,
      "loss": 0.1439,
      "step": 8499
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.779113783626916e-06,
      "loss": 0.1649,
      "step": 8500
    },
    {
      "epoch": 0.85,
      "eval_loss": 0.6972959041595459,
      "eval_runtime": 66.3184,
      "eval_samples_per_second": 3.483,
      "eval_steps_per_second": 0.875,
      "step": 8500
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.775479647271015e-06,
      "loss": 0.1727,
      "step": 8501
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.7718477489237033e-06,
      "loss": 0.0868,
      "step": 8502
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.768218088950722e-06,
      "loss": 0.0886,
      "step": 8503
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.764590667717562e-06,
      "loss": 0.1258,
      "step": 8504
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.76096548558952e-06,
      "loss": 0.1042,
      "step": 8505
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.757342542931643e-06,
      "loss": 0.1164,
      "step": 8506
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.753721840108761e-06,
      "loss": 0.1546,
      "step": 8507
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.750103377485483e-06,
      "loss": 0.074,
      "step": 8508
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.7464871554261863e-06,
      "loss": 0.0716,
      "step": 8509
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.742873174295024e-06,
      "loss": 0.13,
      "step": 8510
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.739261434455928e-06,
      "loss": 0.1287,
      "step": 8511
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.7356519362725875e-06,
      "loss": 0.0708,
      "step": 8512
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.7320446801084974e-06,
      "loss": 0.062,
      "step": 8513
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.728439666326893e-06,
      "loss": 0.0574,
      "step": 8514
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.7248368952908053e-06,
      "loss": 0.1006,
      "step": 8515
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.721236367363031e-06,
      "loss": 0.0874,
      "step": 8516
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.7176380829061485e-06,
      "loss": 0.1037,
      "step": 8517
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.7140420422825e-06,
      "loss": 0.1429,
      "step": 8518
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.7104482458542106e-06,
      "loss": 0.0754,
      "step": 8519
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.7068566939831645e-06,
      "loss": 0.0803,
      "step": 8520
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.7032673870310526e-06,
      "loss": 0.0459,
      "step": 8521
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.699680325359297e-06,
      "loss": 0.0877,
      "step": 8522
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.696095509329122e-06,
      "loss": 0.1614,
      "step": 8523
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.6925129393015197e-06,
      "loss": 0.1465,
      "step": 8524
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.6889326156372517e-06,
      "loss": 0.0659,
      "step": 8525
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.6853545386968606e-06,
      "loss": 0.0874,
      "step": 8526
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.6817787088406626e-06,
      "loss": 0.1258,
      "step": 8527
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.678205126428729e-06,
      "loss": 0.1253,
      "step": 8528
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.674633791820935e-06,
      "loss": 0.1484,
      "step": 8529
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.671064705376905e-06,
      "loss": 0.1135,
      "step": 8530
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.667497867456048e-06,
      "loss": 0.1607,
      "step": 8531
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.6639332784175434e-06,
      "loss": 0.0585,
      "step": 8532
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.660370938620352e-06,
      "loss": 0.1384,
      "step": 8533
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.656810848423186e-06,
      "loss": 0.1241,
      "step": 8534
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.653253008184567e-06,
      "loss": 0.1716,
      "step": 8535
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.6496974182627534e-06,
      "loss": 0.2467,
      "step": 8536
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.646144079015797e-06,
      "loss": 0.1657,
      "step": 8537
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.6425929908015207e-06,
      "loss": 0.1565,
      "step": 8538
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.6390441539775184e-06,
      "loss": 0.1417,
      "step": 8539
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.6354975689011576e-06,
      "loss": 0.0981,
      "step": 8540
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.631953235929585e-06,
      "loss": 0.0281,
      "step": 8541
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.6284111554197023e-06,
      "loss": 0.1535,
      "step": 8542
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.6248713277282094e-06,
      "loss": 0.1227,
      "step": 8543
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.6213337532115606e-06,
      "loss": 0.0946,
      "step": 8544
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.6177984322259875e-06,
      "loss": 0.1192,
      "step": 8545
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.6142653651275023e-06,
      "loss": 0.2179,
      "step": 8546
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.610734552271879e-06,
      "loss": 0.2688,
      "step": 8547
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.6072059940146775e-06,
      "loss": 0.1821,
      "step": 8548
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.603679690711222e-06,
      "loss": 0.1658,
      "step": 8549
    },
    {
      "epoch": 0.85,
      "learning_rate": 2.6001556427166063e-06,
      "loss": 0.105,
      "step": 8550
    },
    {
      "epoch": 0.85,
      "eval_loss": 0.7025662660598755,
      "eval_runtime": 66.3819,
      "eval_samples_per_second": 3.48,
      "eval_steps_per_second": 0.874,
      "step": 8550
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.596633850385702e-06,
      "loss": 0.0615,
      "step": 8551
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.5931143140731585e-06,
      "loss": 0.1943,
      "step": 8552
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.589597034133387e-06,
      "loss": 0.1171,
      "step": 8553
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.5860820109205875e-06,
      "loss": 0.1147,
      "step": 8554
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.5825692447887074e-06,
      "loss": 0.0747,
      "step": 8555
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.5790587360914997e-06,
      "loss": 0.0997,
      "step": 8556
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.5755504851824596e-06,
      "loss": 0.1293,
      "step": 8557
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.5720444924148714e-06,
      "loss": 0.1208,
      "step": 8558
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.5685407581417907e-06,
      "loss": 0.0837,
      "step": 8559
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.565039282716045e-06,
      "loss": 0.092,
      "step": 8560
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.56154006649022e-06,
      "loss": 0.0977,
      "step": 8561
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.5580431098167074e-06,
      "loss": 0.1341,
      "step": 8562
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.5545484130476333e-06,
      "loss": 0.098,
      "step": 8563
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.5510559765349216e-06,
      "loss": 0.0743,
      "step": 8564
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.547565800630258e-06,
      "loss": 0.1076,
      "step": 8565
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.544077885685103e-06,
      "loss": 0.0862,
      "step": 8566
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.54059223205069e-06,
      "loss": 0.0901,
      "step": 8567
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.5371088400780313e-06,
      "loss": 0.0696,
      "step": 8568
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.533627710117889e-06,
      "loss": 0.0927,
      "step": 8569
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.5301488425208296e-06,
      "loss": 0.098,
      "step": 8570
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.526672237637162e-06,
      "loss": 0.133,
      "step": 8571
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.523197895816984e-06,
      "loss": 0.0777,
      "step": 8572
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.5197258174101653e-06,
      "loss": 0.1168,
      "step": 8573
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.51625600276634e-06,
      "loss": 0.0756,
      "step": 8574
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.512788452234921e-06,
      "loss": 0.0763,
      "step": 8575
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.509323166165095e-06,
      "loss": 0.0678,
      "step": 8576
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.5058601449058e-06,
      "loss": 0.0758,
      "step": 8577
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.502399388805782e-06,
      "loss": 0.0623,
      "step": 8578
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.4989408982135254e-06,
      "loss": 0.0612,
      "step": 8579
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.495484673477305e-06,
      "loss": 0.0547,
      "step": 8580
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.492030714945162e-06,
      "loss": 0.1474,
      "step": 8581
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.4885790229649125e-06,
      "loss": 0.0567,
      "step": 8582
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.4851295978841366e-06,
      "loss": 0.0591,
      "step": 8583
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.481682440050201e-06,
      "loss": 0.0939,
      "step": 8584
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.4782375498102167e-06,
      "loss": 0.081,
      "step": 8585
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.474794927511104e-06,
      "loss": 0.0548,
      "step": 8586
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.4713545734995208e-06,
      "loss": 0.1309,
      "step": 8587
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.4679164881219158e-06,
      "loss": 0.1115,
      "step": 8588
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.464480671724506e-06,
      "loss": 0.102,
      "step": 8589
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.461047124653279e-06,
      "loss": 0.1473,
      "step": 8590
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.4576158472539803e-06,
      "loss": 0.0873,
      "step": 8591
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.454186839872158e-06,
      "loss": 0.1682,
      "step": 8592
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.4507601028531e-06,
      "loss": 0.0734,
      "step": 8593
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.4473356365418838e-06,
      "loss": 0.1196,
      "step": 8594
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.443913441283349e-06,
      "loss": 0.0927,
      "step": 8595
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.4404935174221153e-06,
      "loss": 0.0865,
      "step": 8596
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.437075865302568e-06,
      "loss": 0.0714,
      "step": 8597
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.4336604852688684e-06,
      "loss": 0.0944,
      "step": 8598
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.430247377664929e-06,
      "loss": 0.1341,
      "step": 8599
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.4268365428344736e-06,
      "loss": 0.104,
      "step": 8600
    },
    {
      "epoch": 0.86,
      "eval_loss": 0.7050456404685974,
      "eval_runtime": 67.0011,
      "eval_samples_per_second": 3.448,
      "eval_steps_per_second": 0.866,
      "step": 8600
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.4234279811209543e-06,
      "loss": 0.0661,
      "step": 8601
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.420021692867619e-06,
      "loss": 0.0529,
      "step": 8602
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.4166176784174795e-06,
      "loss": 0.0907,
      "step": 8603
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.413215938113325e-06,
      "loss": 0.0915,
      "step": 8604
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.4098164722977073e-06,
      "loss": 0.0899,
      "step": 8605
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.406419281312958e-06,
      "loss": 0.087,
      "step": 8606
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.4030243655011554e-06,
      "loss": 0.1127,
      "step": 8607
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.3996317252041935e-06,
      "loss": 0.1638,
      "step": 8608
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.396241360763693e-06,
      "loss": 0.1678,
      "step": 8609
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.39285327252107e-06,
      "loss": 0.1299,
      "step": 8610
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.3894674608175044e-06,
      "loss": 0.1128,
      "step": 8611
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.3860839259939457e-06,
      "loss": 0.0982,
      "step": 8612
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.3827026683911154e-06,
      "loss": 0.0681,
      "step": 8613
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.379323688349516e-06,
      "loss": 0.0664,
      "step": 8614
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.3759469862093903e-06,
      "loss": 0.0394,
      "step": 8615
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.372572562310793e-06,
      "loss": 0.0706,
      "step": 8616
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.3692004169935166e-06,
      "loss": 0.0719,
      "step": 8617
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.3658305505971366e-06,
      "loss": 0.0727,
      "step": 8618
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.3624629634610013e-06,
      "loss": 0.1072,
      "step": 8619
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.3590976559242278e-06,
      "loss": 0.0556,
      "step": 8620
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.355734628325701e-06,
      "loss": 0.0948,
      "step": 8621
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.3523738810040803e-06,
      "loss": 0.0478,
      "step": 8622
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.349015414297784e-06,
      "loss": 0.0538,
      "step": 8623
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.345659228545022e-06,
      "loss": 0.0364,
      "step": 8624
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.3423053240837515e-06,
      "loss": 0.0564,
      "step": 8625
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.3389537012517145e-06,
      "loss": 0.0329,
      "step": 8626
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.335604360386423e-06,
      "loss": 0.0219,
      "step": 8627
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.3322573018251525e-06,
      "loss": 0.0457,
      "step": 8628
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.3289125259049444e-06,
      "loss": 0.1023,
      "step": 8629
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.3255700329626347e-06,
      "loss": 0.0893,
      "step": 8630
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.3222298233347955e-06,
      "loss": 0.0861,
      "step": 8631
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.3188918973577944e-06,
      "loss": 0.1201,
      "step": 8632
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.3155562553677594e-06,
      "loss": 0.1077,
      "step": 8633
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.312222897700586e-06,
      "loss": 0.1497,
      "step": 8634
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.3088918246919527e-06,
      "loss": 0.1582,
      "step": 8635
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.3055630366772856e-06,
      "loss": 0.0683,
      "step": 8636
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.3022365339918028e-06,
      "loss": 0.1,
      "step": 8637
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.2989123169704777e-06,
      "loss": 0.0919,
      "step": 8638
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.2955903859480597e-06,
      "loss": 0.0994,
      "step": 8639
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.29227074125907e-06,
      "loss": 0.1275,
      "step": 8640
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.288953383237802e-06,
      "loss": 0.1149,
      "step": 8641
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.2856383122182938e-06,
      "loss": 0.1181,
      "step": 8642
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.2823255285343986e-06,
      "loss": 0.0872,
      "step": 8643
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.2790150325196937e-06,
      "loss": 0.1811,
      "step": 8644
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.2757068245075564e-06,
      "loss": 0.1421,
      "step": 8645
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.272400904831118e-06,
      "loss": 0.342,
      "step": 8646
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.269097273823287e-06,
      "loss": 0.4201,
      "step": 8647
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.265795931816739e-06,
      "loss": 0.1799,
      "step": 8648
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.2624968791439216e-06,
      "loss": 0.7389,
      "step": 8649
    },
    {
      "epoch": 0.86,
      "learning_rate": 2.2592001161370392e-06,
      "loss": 0.7017,
      "step": 8650
    },
    {
      "epoch": 0.86,
      "eval_loss": 0.7111024856567383,
      "eval_runtime": 67.3081,
      "eval_samples_per_second": 3.432,
      "eval_steps_per_second": 0.862,
      "step": 8650
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.2559056431280922e-06,
      "loss": 0.3442,
      "step": 8651
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.2526134604488186e-06,
      "loss": 0.0886,
      "step": 8652
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.2493235684307473e-06,
      "loss": 0.1144,
      "step": 8653
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.2460359674051717e-06,
      "loss": 0.1017,
      "step": 8654
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.2427506577031547e-06,
      "loss": 0.066,
      "step": 8655
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.2394676396555153e-06,
      "loss": 0.1461,
      "step": 8656
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.2361869135928694e-06,
      "loss": 0.0364,
      "step": 8657
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.2329084798455746e-06,
      "loss": 0.0779,
      "step": 8658
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.229632338743773e-06,
      "loss": 0.1043,
      "step": 8659
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.226358490617372e-06,
      "loss": 0.104,
      "step": 8660
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.223086935796048e-06,
      "loss": 0.0498,
      "step": 8661
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.219817674609248e-06,
      "loss": 0.0451,
      "step": 8662
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.216550707386186e-06,
      "loss": 0.0479,
      "step": 8663
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.213286034455839e-06,
      "loss": 0.0646,
      "step": 8664
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.2100236561469728e-06,
      "loss": 0.0368,
      "step": 8665
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.2067635727880953e-06,
      "loss": 0.0283,
      "step": 8666
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.203505784707502e-06,
      "loss": 0.0547,
      "step": 8667
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.2002502922332526e-06,
      "loss": 0.0845,
      "step": 8668
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.1969970956931762e-06,
      "loss": 0.0336,
      "step": 8669
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.193746195414867e-06,
      "loss": 0.0868,
      "step": 8670
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.1904975917256958e-06,
      "loss": 0.1124,
      "step": 8671
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.1872512849527847e-06,
      "loss": 0.0963,
      "step": 8672
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.1840072754230557e-06,
      "loss": 0.1317,
      "step": 8673
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.1807655634631636e-06,
      "loss": 0.103,
      "step": 8674
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.177526149399556e-06,
      "loss": 0.0945,
      "step": 8675
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.1742890335584408e-06,
      "loss": 0.122,
      "step": 8676
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.1710542162657945e-06,
      "loss": 0.1382,
      "step": 8677
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.1678216978473638e-06,
      "loss": 0.0729,
      "step": 8678
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.1645914786286664e-06,
      "loss": 0.1051,
      "step": 8679
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.1613635589349756e-06,
      "loss": 0.0643,
      "step": 8680
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.158137939091359e-06,
      "loss": 0.0759,
      "step": 8681
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.1549146194226213e-06,
      "loss": 0.0849,
      "step": 8682
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.1516936002533545e-06,
      "loss": 0.0711,
      "step": 8683
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.148474881907919e-06,
      "loss": 0.0986,
      "step": 8684
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.1452584647104422e-06,
      "loss": 0.1374,
      "step": 8685
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.1420443489848036e-06,
      "loss": 0.151,
      "step": 8686
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.138832535054683e-06,
      "loss": 0.1355,
      "step": 8687
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.1356230232434967e-06,
      "loss": 0.1344,
      "step": 8688
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.1324158138744444e-06,
      "loss": 0.102,
      "step": 8689
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.129210907270496e-06,
      "loss": 0.1065,
      "step": 8690
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.1260083037543817e-06,
      "loss": 0.0872,
      "step": 8691
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.1228080036486046e-06,
      "loss": 0.1,
      "step": 8692
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.119610007275441e-06,
      "loss": 0.1046,
      "step": 8693
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.116414314956916e-06,
      "loss": 0.1624,
      "step": 8694
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.11322092701485e-06,
      "loss": 0.099,
      "step": 8695
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.110029843770808e-06,
      "loss": 0.1347,
      "step": 8696
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.1068410655461335e-06,
      "loss": 0.1335,
      "step": 8697
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.1036545926619384e-06,
      "loss": 0.087,
      "step": 8698
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.1004704254390966e-06,
      "loss": 0.0667,
      "step": 8699
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.09728856419826e-06,
      "loss": 0.0499,
      "step": 8700
    },
    {
      "epoch": 0.87,
      "eval_loss": 0.7103446125984192,
      "eval_runtime": 67.4347,
      "eval_samples_per_second": 3.426,
      "eval_steps_per_second": 0.86,
      "step": 8700
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.0941090092598396e-06,
      "loss": 0.0796,
      "step": 8701
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.0909317609440095e-06,
      "loss": 0.1292,
      "step": 8702
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.08775681957073e-06,
      "loss": 0.17,
      "step": 8703
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.0845841854597094e-06,
      "loss": 0.1245,
      "step": 8704
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.0814138589304337e-06,
      "loss": 0.1978,
      "step": 8705
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.0782458403021537e-06,
      "loss": 0.1992,
      "step": 8706
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.0750801298938917e-06,
      "loss": 0.1604,
      "step": 8707
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.071916728024434e-06,
      "loss": 0.1,
      "step": 8708
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.06875563501234e-06,
      "loss": 0.1188,
      "step": 8709
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.0655968511759134e-06,
      "loss": 0.1294,
      "step": 8710
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.062440376833269e-06,
      "loss": 0.1312,
      "step": 8711
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.0592862123022445e-06,
      "loss": 0.1277,
      "step": 8712
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.0561343579004715e-06,
      "loss": 0.1245,
      "step": 8713
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.0529848139453412e-06,
      "loss": 0.1163,
      "step": 8714
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.0498375807540103e-06,
      "loss": 0.0762,
      "step": 8715
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.0466926586434093e-06,
      "loss": 0.0891,
      "step": 8716
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.0435500479302344e-06,
      "loss": 0.1494,
      "step": 8717
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.0404097489309356e-06,
      "loss": 0.122,
      "step": 8718
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.0372717619617453e-06,
      "loss": 0.1263,
      "step": 8719
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.0341360873386674e-06,
      "loss": 0.1373,
      "step": 8720
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.031002725377448e-06,
      "loss": 0.0893,
      "step": 8721
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.0278716763936334e-06,
      "loss": 0.1258,
      "step": 8722
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.0247429407025094e-06,
      "loss": 0.1319,
      "step": 8723
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.0216165186191407e-06,
      "loss": 0.1207,
      "step": 8724
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.0184924104583613e-06,
      "loss": 0.1287,
      "step": 8725
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.0153706165347674e-06,
      "loss": 0.1894,
      "step": 8726
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.012251137162724e-06,
      "loss": 0.0827,
      "step": 8727
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.0091339726563658e-06,
      "loss": 0.1431,
      "step": 8728
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.006019123329578e-06,
      "loss": 0.1223,
      "step": 8729
    },
    {
      "epoch": 0.87,
      "learning_rate": 2.0029065894960454e-06,
      "loss": 0.127,
      "step": 8730
    },
    {
      "epoch": 0.87,
      "learning_rate": 1.9997963714691842e-06,
      "loss": 0.1185,
      "step": 8731
    },
    {
      "epoch": 0.87,
      "learning_rate": 1.9966884695621998e-06,
      "loss": 0.0929,
      "step": 8732
    },
    {
      "epoch": 0.87,
      "learning_rate": 1.993582884088055e-06,
      "loss": 0.1006,
      "step": 8733
    },
    {
      "epoch": 0.87,
      "learning_rate": 1.9904796153594864e-06,
      "loss": 0.113,
      "step": 8734
    },
    {
      "epoch": 0.87,
      "learning_rate": 1.9873786636889906e-06,
      "loss": 0.1088,
      "step": 8735
    },
    {
      "epoch": 0.87,
      "learning_rate": 1.9842800293888407e-06,
      "loss": 0.1317,
      "step": 8736
    },
    {
      "epoch": 0.87,
      "learning_rate": 1.9811837127710507e-06,
      "loss": 0.1163,
      "step": 8737
    },
    {
      "epoch": 0.87,
      "learning_rate": 1.978089714147438e-06,
      "loss": 0.0912,
      "step": 8738
    },
    {
      "epoch": 0.87,
      "learning_rate": 1.9749980338295588e-06,
      "loss": 0.0981,
      "step": 8739
    },
    {
      "epoch": 0.87,
      "learning_rate": 1.97190867212875e-06,
      "loss": 0.0864,
      "step": 8740
    },
    {
      "epoch": 0.87,
      "learning_rate": 1.9688216293561046e-06,
      "loss": 0.1301,
      "step": 8741
    },
    {
      "epoch": 0.87,
      "learning_rate": 1.9657369058224906e-06,
      "loss": 0.0951,
      "step": 8742
    },
    {
      "epoch": 0.87,
      "learning_rate": 1.962654501838543e-06,
      "loss": 0.1577,
      "step": 8743
    },
    {
      "epoch": 0.87,
      "learning_rate": 1.9595744177146575e-06,
      "loss": 0.1597,
      "step": 8744
    },
    {
      "epoch": 0.87,
      "learning_rate": 1.956496653760992e-06,
      "loss": 0.1154,
      "step": 8745
    },
    {
      "epoch": 0.87,
      "learning_rate": 1.95342121028749e-06,
      "loss": 0.1119,
      "step": 8746
    },
    {
      "epoch": 0.87,
      "learning_rate": 1.9503480876038373e-06,
      "loss": 0.1029,
      "step": 8747
    },
    {
      "epoch": 0.87,
      "learning_rate": 1.9472772860195e-06,
      "loss": 0.1684,
      "step": 8748
    },
    {
      "epoch": 0.87,
      "learning_rate": 1.9442088058437113e-06,
      "loss": 0.1421,
      "step": 8749
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.9411426473854688e-06,
      "loss": 0.0928,
      "step": 8750
    },
    {
      "epoch": 0.88,
      "eval_loss": 0.7044773101806641,
      "eval_runtime": 66.6313,
      "eval_samples_per_second": 3.467,
      "eval_steps_per_second": 0.87,
      "step": 8750
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.9380788109535225e-06,
      "loss": 0.0615,
      "step": 8751
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.9350172968564174e-06,
      "loss": 0.0931,
      "step": 8752
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.9319581054024345e-06,
      "loss": 0.1245,
      "step": 8753
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.928901236899641e-06,
      "loss": 0.1021,
      "step": 8754
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.925846691655861e-06,
      "loss": 0.1182,
      "step": 8755
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.9227944699786866e-06,
      "loss": 0.1319,
      "step": 8756
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.9197445721754776e-06,
      "loss": 0.1146,
      "step": 8757
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.9166969985533634e-06,
      "loss": 0.0451,
      "step": 8758
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.913651749419221e-06,
      "loss": 0.0803,
      "step": 8759
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.9106088250797267e-06,
      "loss": 0.1686,
      "step": 8760
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.907568225841283e-06,
      "loss": 0.11,
      "step": 8761
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.9045299520100924e-06,
      "loss": 0.1336,
      "step": 8762
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.9014940038920986e-06,
      "loss": 0.1313,
      "step": 8763
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.8984603817930296e-06,
      "loss": 0.0639,
      "step": 8764
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.8954290860183687e-06,
      "loss": 0.0438,
      "step": 8765
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.892400116873369e-06,
      "loss": 0.1296,
      "step": 8766
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.8893734746630392e-06,
      "loss": 0.0882,
      "step": 8767
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.8863491596921745e-06,
      "loss": 0.111,
      "step": 8768
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.8833271722653118e-06,
      "loss": 0.0915,
      "step": 8769
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.8803075126867715e-06,
      "loss": 0.1195,
      "step": 8770
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.8772901812606325e-06,
      "loss": 0.1411,
      "step": 8771
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.8742751782907408e-06,
      "loss": 0.151,
      "step": 8772
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.8712625040807035e-06,
      "loss": 0.1973,
      "step": 8773
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.8682521589339058e-06,
      "loss": 0.1489,
      "step": 8774
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.8652441431534717e-06,
      "loss": 0.1005,
      "step": 8775
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.8622384570423286e-06,
      "loss": 0.1132,
      "step": 8776
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.8592351009031368e-06,
      "loss": 0.1421,
      "step": 8777
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.856234075038335e-06,
      "loss": 0.1071,
      "step": 8778
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.8532353797501318e-06,
      "loss": 0.1344,
      "step": 8779
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.8502390153404935e-06,
      "loss": 0.0807,
      "step": 8780
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.847244982111146e-06,
      "loss": 0.0856,
      "step": 8781
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.844253280363603e-06,
      "loss": 0.1103,
      "step": 8782
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.8412639103991185e-06,
      "loss": 0.0683,
      "step": 8783
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.8382768725187238e-06,
      "loss": 0.0595,
      "step": 8784
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.8352921670232143e-06,
      "loss": 0.1194,
      "step": 8785
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.8323097942131495e-06,
      "loss": 0.1149,
      "step": 8786
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.8293297543888533e-06,
      "loss": 0.1343,
      "step": 8787
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.8263520478504243e-06,
      "loss": 0.1061,
      "step": 8788
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.8233766748976977e-06,
      "loss": 0.1088,
      "step": 8789
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.8204036358303173e-06,
      "loss": 0.1009,
      "step": 8790
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.8174329309476518e-06,
      "loss": 0.0715,
      "step": 8791
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.8144645605488536e-06,
      "loss": 0.0995,
      "step": 8792
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.811498524932842e-06,
      "loss": 0.1057,
      "step": 8793
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.8085348243982946e-06,
      "loss": 0.0886,
      "step": 8794
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.8055734592436536e-06,
      "loss": 0.0807,
      "step": 8795
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.8026144297671356e-06,
      "loss": 0.1575,
      "step": 8796
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.7996577362667022e-06,
      "loss": 0.1196,
      "step": 8797
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.79670337904011e-06,
      "loss": 0.0787,
      "step": 8798
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.7937513583848459e-06,
      "loss": 0.0878,
      "step": 8799
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.790801674598186e-06,
      "loss": 0.1167,
      "step": 8800
    },
    {
      "epoch": 0.88,
      "eval_loss": 0.7035082578659058,
      "eval_runtime": 67.3075,
      "eval_samples_per_second": 3.432,
      "eval_steps_per_second": 0.862,
      "step": 8800
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.787854327977162e-06,
      "loss": 0.0746,
      "step": 8801
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.7849093188185728e-06,
      "loss": 0.0471,
      "step": 8802
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.7819666474189784e-06,
      "loss": 0.1015,
      "step": 8803
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.779026314074711e-06,
      "loss": 0.1202,
      "step": 8804
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.7760883190818534e-06,
      "loss": 0.0891,
      "step": 8805
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.7731526627362716e-06,
      "loss": 0.121,
      "step": 8806
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.7702193453335791e-06,
      "loss": 0.0952,
      "step": 8807
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.767288367169162e-06,
      "loss": 0.0721,
      "step": 8808
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.7643597285381757e-06,
      "loss": 0.0623,
      "step": 8809
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.7614334297355234e-06,
      "loss": 0.0993,
      "step": 8810
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.7585094710558914e-06,
      "loss": 0.0894,
      "step": 8811
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.7555878527937164e-06,
      "loss": 0.0696,
      "step": 8812
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.7526685752432105e-06,
      "loss": 0.1084,
      "step": 8813
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.7497516386983436e-06,
      "loss": 0.1955,
      "step": 8814
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.7468370434528536e-06,
      "loss": 0.0899,
      "step": 8815
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.7439247898002276e-06,
      "loss": 0.0995,
      "step": 8816
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.7410148780337504e-06,
      "loss": 0.1107,
      "step": 8817
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.7381073084464323e-06,
      "loss": 0.1343,
      "step": 8818
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.735202081331072e-06,
      "loss": 0.1502,
      "step": 8819
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.7322991969802248e-06,
      "loss": 0.1358,
      "step": 8820
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.7293986556862123e-06,
      "loss": 0.1081,
      "step": 8821
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.7265004577411203e-06,
      "loss": 0.0851,
      "step": 8822
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.7236046034367958e-06,
      "loss": 0.1122,
      "step": 8823
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.7207110930648446e-06,
      "loss": 0.118,
      "step": 8824
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.7178199269166584e-06,
      "loss": 0.1488,
      "step": 8825
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.7149311052833655e-06,
      "loss": 0.0968,
      "step": 8826
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.7120446284558695e-06,
      "loss": 0.1541,
      "step": 8827
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.7091604967248458e-06,
      "loss": 0.126,
      "step": 8828
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.706278710380721e-06,
      "loss": 0.1024,
      "step": 8829
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.703399269713693e-06,
      "loss": 0.1008,
      "step": 8830
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.7005221750137246e-06,
      "loss": 0.029,
      "step": 8831
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.6976474265705283e-06,
      "loss": 0.0324,
      "step": 8832
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.694775024673606e-06,
      "loss": 0.079,
      "step": 8833
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.6919049696121958e-06,
      "loss": 0.0859,
      "step": 8834
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.6890372616753193e-06,
      "loss": 0.0605,
      "step": 8835
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.6861719011517534e-06,
      "loss": 0.1318,
      "step": 8836
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.6833088883300374e-06,
      "loss": 0.1002,
      "step": 8837
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.6804482234984793e-06,
      "loss": 0.2051,
      "step": 8838
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.6775899069451512e-06,
      "loss": 0.1365,
      "step": 8839
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.674733938957873e-06,
      "loss": 0.1005,
      "step": 8840
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.6718803198242566e-06,
      "loss": 0.0631,
      "step": 8841
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.6690290498316496e-06,
      "loss": 0.1437,
      "step": 8842
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.6661801292671807e-06,
      "loss": 0.0743,
      "step": 8843
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.6633335584177317e-06,
      "loss": 0.084,
      "step": 8844
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.6604893375699594e-06,
      "loss": 0.1785,
      "step": 8845
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.657647467010265e-06,
      "loss": 0.079,
      "step": 8846
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.654807947024839e-06,
      "loss": 0.1402,
      "step": 8847
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.6519707778996112e-06,
      "loss": 0.1481,
      "step": 8848
    },
    {
      "epoch": 0.88,
      "learning_rate": 1.6491359599202866e-06,
      "loss": 0.0864,
      "step": 8849
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.6463034933723337e-06,
      "loss": 0.0786,
      "step": 8850
    },
    {
      "epoch": 0.89,
      "eval_loss": 0.7070170044898987,
      "eval_runtime": 66.6802,
      "eval_samples_per_second": 3.464,
      "eval_steps_per_second": 0.87,
      "step": 8850
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.6434733785409773e-06,
      "loss": 0.0957,
      "step": 8851
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.6406456157112144e-06,
      "loss": 0.0615,
      "step": 8852
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.6378202051678033e-06,
      "loss": 0.0711,
      "step": 8853
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.634997147195247e-06,
      "loss": 0.1628,
      "step": 8854
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.6321764420778486e-06,
      "loss": 0.1092,
      "step": 8855
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.629358090099639e-06,
      "loss": 0.0406,
      "step": 8856
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.6265420915444308e-06,
      "loss": 0.0428,
      "step": 8857
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.6237284466957963e-06,
      "loss": 0.0422,
      "step": 8858
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.620917155837065e-06,
      "loss": 0.0227,
      "step": 8859
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.6181082192513353e-06,
      "loss": 0.0283,
      "step": 8860
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.6153016372214751e-06,
      "loss": 0.0429,
      "step": 8861
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.612497410030092e-06,
      "loss": 0.1321,
      "step": 8862
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.6096955379595852e-06,
      "loss": 0.0921,
      "step": 8863
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.6068960212920952e-06,
      "loss": 0.0805,
      "step": 8864
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.6040988603095358e-06,
      "loss": 0.0741,
      "step": 8865
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.6013040552935814e-06,
      "loss": 0.0976,
      "step": 8866
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.5985116065256684e-06,
      "loss": 0.0488,
      "step": 8867
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.5957215142869963e-06,
      "loss": 0.1035,
      "step": 8868
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.5929337788585297e-06,
      "loss": 0.0992,
      "step": 8869
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.5901484005209855e-06,
      "loss": 0.072,
      "step": 8870
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.5873653795548616e-06,
      "loss": 0.145,
      "step": 8871
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.584584716240403e-06,
      "loss": 0.1442,
      "step": 8872
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.5818064108576198e-06,
      "loss": 0.1521,
      "step": 8873
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.5790304636862929e-06,
      "loss": 0.1067,
      "step": 8874
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.5762568750059604e-06,
      "loss": 0.1384,
      "step": 8875
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.5734856450959123e-06,
      "loss": 0.1858,
      "step": 8876
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.5707167742352258e-06,
      "loss": 0.1952,
      "step": 8877
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.5679502627027136e-06,
      "loss": 0.0936,
      "step": 8878
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.56518611077697e-06,
      "loss": 0.1207,
      "step": 8879
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.5624243187363441e-06,
      "loss": 0.1082,
      "step": 8880
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.5596648868589498e-06,
      "loss": 0.1273,
      "step": 8881
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.556907815422659e-06,
      "loss": 0.0889,
      "step": 8882
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.5541531047051111e-06,
      "loss": 0.0908,
      "step": 8883
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.5514007549836978e-06,
      "loss": 0.0481,
      "step": 8884
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.5486507665355948e-06,
      "loss": 0.0692,
      "step": 8885
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.5459031396377167e-06,
      "loss": 0.0798,
      "step": 8886
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.5431578745667474e-06,
      "loss": 0.071,
      "step": 8887
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.5404149715991385e-06,
      "loss": 0.0772,
      "step": 8888
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.5376744310111019e-06,
      "loss": 0.13,
      "step": 8889
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.534936253078606e-06,
      "loss": 0.0836,
      "step": 8890
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.5322004380773913e-06,
      "loss": 0.0659,
      "step": 8891
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.5294669862829486e-06,
      "loss": 0.1281,
      "step": 8892
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.5267358979705382e-06,
      "loss": 0.1462,
      "step": 8893
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.524007173415179e-06,
      "loss": 0.1984,
      "step": 8894
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.521280812891654e-06,
      "loss": 0.1681,
      "step": 8895
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.5185568166745156e-06,
      "loss": 0.1495,
      "step": 8896
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.5158351850380532e-06,
      "loss": 0.0986,
      "step": 8897
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.5131159182563525e-06,
      "loss": 0.1395,
      "step": 8898
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.510399016603234e-06,
      "loss": 0.1157,
      "step": 8899
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.5076844803522922e-06,
      "loss": 0.1588,
      "step": 8900
    },
    {
      "epoch": 0.89,
      "eval_loss": 0.7040842771530151,
      "eval_runtime": 66.9506,
      "eval_samples_per_second": 3.45,
      "eval_steps_per_second": 0.866,
      "step": 8900
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.504972309776878e-06,
      "loss": 0.1286,
      "step": 8901
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.5022625051501148e-06,
      "loss": 0.1451,
      "step": 8902
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.4995550667448677e-06,
      "loss": 0.1032,
      "step": 8903
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.4968499948337878e-06,
      "loss": 0.1049,
      "step": 8904
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.4941472896892683e-06,
      "loss": 0.1212,
      "step": 8905
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.4914469515834723e-06,
      "loss": 0.0574,
      "step": 8906
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.4887489807883264e-06,
      "loss": 0.1175,
      "step": 8907
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.4860533775755136e-06,
      "loss": 0.1694,
      "step": 8908
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.4833601422164833e-06,
      "loss": 0.1015,
      "step": 8909
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.4806692749824464e-06,
      "loss": 0.0978,
      "step": 8910
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.4779807761443636e-06,
      "loss": 0.0629,
      "step": 8911
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.4752946459729773e-06,
      "loss": 0.1082,
      "step": 8912
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.472610884738776e-06,
      "loss": 0.142,
      "step": 8913
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.4699294927120133e-06,
      "loss": 0.0831,
      "step": 8914
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.4672504701627066e-06,
      "loss": 0.0944,
      "step": 8915
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.4645738173606344e-06,
      "loss": 0.0828,
      "step": 8916
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.4618995345753367e-06,
      "loss": 0.105,
      "step": 8917
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.459227622076112e-06,
      "loss": 0.0982,
      "step": 8918
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.4565580801320172e-06,
      "loss": 0.0529,
      "step": 8919
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.4538909090118846e-06,
      "loss": 0.0557,
      "step": 8920
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.451226108984291e-06,
      "loss": 0.0831,
      "step": 8921
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.4485636803175829e-06,
      "loss": 0.0987,
      "step": 8922
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.4459036232798678e-06,
      "loss": 0.1098,
      "step": 8923
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.443245938139015e-06,
      "loss": 0.0712,
      "step": 8924
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.4405906251626494e-06,
      "loss": 0.0758,
      "step": 8925
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.437937684618168e-06,
      "loss": 0.073,
      "step": 8926
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.43528711677271e-06,
      "loss": 0.1064,
      "step": 8927
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.4326389218932008e-06,
      "loss": 0.0569,
      "step": 8928
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.4299931002463047e-06,
      "loss": 0.0785,
      "step": 8929
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.4273496520984587e-06,
      "loss": 0.1456,
      "step": 8930
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.424708577715858e-06,
      "loss": 0.0901,
      "step": 8931
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.422069877364457e-06,
      "loss": 0.1295,
      "step": 8932
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.4194335513099761e-06,
      "loss": 0.1497,
      "step": 8933
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.4167995998178917e-06,
      "loss": 0.0837,
      "step": 8934
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.4141680231534393e-06,
      "loss": 0.0844,
      "step": 8935
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.411538821581626e-06,
      "loss": 0.0888,
      "step": 8936
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.4089119953672042e-06,
      "loss": 0.1171,
      "step": 8937
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.406287544774701e-06,
      "loss": 0.0438,
      "step": 8938
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.4036654700683938e-06,
      "loss": 0.0592,
      "step": 8939
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.4010457715123354e-06,
      "loss": 0.0991,
      "step": 8940
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.398428449370312e-06,
      "loss": 0.0482,
      "step": 8941
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.3958135039059045e-06,
      "loss": 0.0577,
      "step": 8942
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.3932009353824298e-06,
      "loss": 0.0639,
      "step": 8943
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.3905907440629752e-06,
      "loss": 0.0504,
      "step": 8944
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.3879829302103852e-06,
      "loss": 0.1265,
      "step": 8945
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.38537749408727e-06,
      "loss": 0.1614,
      "step": 8946
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.3827744359559913e-06,
      "loss": 0.137,
      "step": 8947
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.380173756078687e-06,
      "loss": 0.0915,
      "step": 8948
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.3775754547172337e-06,
      "loss": 0.0724,
      "step": 8949
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.3749795321332887e-06,
      "loss": 0.1218,
      "step": 8950
    },
    {
      "epoch": 0.9,
      "eval_loss": 0.7020635008811951,
      "eval_runtime": 66.9295,
      "eval_samples_per_second": 3.451,
      "eval_steps_per_second": 0.867,
      "step": 8950
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.3723859885882567e-06,
      "loss": 0.1012,
      "step": 8951
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.3697948243433095e-06,
      "loss": 0.0901,
      "step": 8952
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.3672060396593772e-06,
      "loss": 0.1063,
      "step": 8953
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.3646196347971513e-06,
      "loss": 0.0765,
      "step": 8954
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.362035610017079e-06,
      "loss": 0.0706,
      "step": 8955
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.3594539655793797e-06,
      "loss": 0.1176,
      "step": 8956
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.3568747017440097e-06,
      "loss": 0.1081,
      "step": 8957
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.3542978187707195e-06,
      "loss": 0.0753,
      "step": 8958
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.3517233169189875e-06,
      "loss": 0.0588,
      "step": 8959
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.3491511964480702e-06,
      "loss": 0.0518,
      "step": 8960
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.34658145761698e-06,
      "loss": 0.0981,
      "step": 8961
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.3440141006844904e-06,
      "loss": 0.0817,
      "step": 8962
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.3414491259091334e-06,
      "loss": 0.0794,
      "step": 8963
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.3388865335492051e-06,
      "loss": 0.1347,
      "step": 8964
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.3363263238627493e-06,
      "loss": 0.0669,
      "step": 8965
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.333768497107593e-06,
      "loss": 0.0688,
      "step": 8966
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.331213053541297e-06,
      "loss": 0.0427,
      "step": 8967
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.3286599934211968e-06,
      "loss": 0.0755,
      "step": 8968
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.3261093170043899e-06,
      "loss": 0.1666,
      "step": 8969
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.3235610245477315e-06,
      "loss": 0.1474,
      "step": 8970
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.321015116307822e-06,
      "loss": 0.0709,
      "step": 8971
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.3184715925410485e-06,
      "loss": 0.0592,
      "step": 8972
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.3159304535035361e-06,
      "loss": 0.123,
      "step": 8973
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.3133916994511775e-06,
      "loss": 0.1293,
      "step": 8974
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.3108553306396265e-06,
      "loss": 0.1409,
      "step": 8975
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.3083213473242955e-06,
      "loss": 0.0776,
      "step": 8976
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.305789749760361e-06,
      "loss": 0.118,
      "step": 8977
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.303260538202747e-06,
      "loss": 0.0548,
      "step": 8978
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.3007337129061465e-06,
      "loss": 0.1094,
      "step": 8979
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.2982092741250145e-06,
      "loss": 0.1376,
      "step": 8980
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.2956872221135591e-06,
      "loss": 0.1304,
      "step": 8981
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.2931675571257517e-06,
      "loss": 0.226,
      "step": 8982
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.2906502794153286e-06,
      "loss": 0.1736,
      "step": 8983
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.2881353892357646e-06,
      "loss": 0.1597,
      "step": 8984
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.2856228868403236e-06,
      "loss": 0.1145,
      "step": 8985
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.2831127724820064e-06,
      "loss": 0.1096,
      "step": 8986
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.2806050464135854e-06,
      "loss": 0.0243,
      "step": 8987
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.2780997088875869e-06,
      "loss": 0.1336,
      "step": 8988
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.2755967601563e-06,
      "loss": 0.1476,
      "step": 8989
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.2730962004717685e-06,
      "loss": 0.0982,
      "step": 8990
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.2705980300858038e-06,
      "loss": 0.0885,
      "step": 8991
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.268102249249961e-06,
      "loss": 0.1894,
      "step": 8992
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.2656088582155806e-06,
      "loss": 0.2293,
      "step": 8993
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.2631178572337338e-06,
      "loss": 0.1778,
      "step": 8994
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.26062924655527e-06,
      "loss": 0.1576,
      "step": 8995
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.2581430264307913e-06,
      "loss": 0.1081,
      "step": 8996
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.2556591971106647e-06,
      "loss": 0.042,
      "step": 8997
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.2531777588449979e-06,
      "loss": 0.2236,
      "step": 8998
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.250698711883691e-06,
      "loss": 0.1056,
      "step": 8999
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.248222056476367e-06,
      "loss": 0.1197,
      "step": 9000
    },
    {
      "epoch": 0.9,
      "eval_loss": 0.705604076385498,
      "eval_runtime": 66.5776,
      "eval_samples_per_second": 3.47,
      "eval_steps_per_second": 0.871,
      "step": 9000
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.2457477928724343e-06,
      "loss": 0.0798,
      "step": 9001
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.2432759213210492e-06,
      "loss": 0.0824,
      "step": 9002
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.2408064420711267e-06,
      "loss": 0.1234,
      "step": 9003
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.2383393553713486e-06,
      "loss": 0.1117,
      "step": 9004
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.2358746614701488e-06,
      "loss": 0.0984,
      "step": 9005
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.2334123606157128e-06,
      "loss": 0.0836,
      "step": 9006
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.2309524530560113e-06,
      "loss": 0.0942,
      "step": 9007
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.2284949390387407e-06,
      "loss": 0.1299,
      "step": 9008
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.226039818811381e-06,
      "loss": 0.1165,
      "step": 9009
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.2235870926211619e-06,
      "loss": 0.0638,
      "step": 9010
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.221136760715072e-06,
      "loss": 0.0875,
      "step": 9011
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.2186888233398585e-06,
      "loss": 0.0899,
      "step": 9012
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.2162432807420326e-06,
      "loss": 0.1029,
      "step": 9013
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.21380013316785e-06,
      "loss": 0.0558,
      "step": 9014
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.2113593808633527e-06,
      "loss": 0.1099,
      "step": 9015
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.208921024074311e-06,
      "loss": 0.109,
      "step": 9016
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.20648506304627e-06,
      "loss": 0.1473,
      "step": 9017
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.2040514980245331e-06,
      "loss": 0.1024,
      "step": 9018
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.2016203292541578e-06,
      "loss": 0.1184,
      "step": 9019
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.1991915569799644e-06,
      "loss": 0.082,
      "step": 9020
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.1967651814465354e-06,
      "loss": 0.0775,
      "step": 9021
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.1943412028981915e-06,
      "loss": 0.0706,
      "step": 9022
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.1919196215790462e-06,
      "loss": 0.0658,
      "step": 9023
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.1895004377329406e-06,
      "loss": 0.0881,
      "step": 9024
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.1870836516034878e-06,
      "loss": 0.0703,
      "step": 9025
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.18466926343406e-06,
      "loss": 0.0726,
      "step": 9026
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.1822572734677877e-06,
      "loss": 0.1514,
      "step": 9027
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.1798476819475546e-06,
      "loss": 0.0674,
      "step": 9028
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.1774404891160107e-06,
      "loss": 0.0579,
      "step": 9029
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.1750356952155512e-06,
      "loss": 0.1097,
      "step": 9030
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.1726333004883516e-06,
      "loss": 0.0772,
      "step": 9031
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.170233305176327e-06,
      "loss": 0.0698,
      "step": 9032
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.1678357095211534e-06,
      "loss": 0.1352,
      "step": 9033
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.165440513764271e-06,
      "loss": 0.1315,
      "step": 9034
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.1630477181468812e-06,
      "loss": 0.0928,
      "step": 9035
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.1606573229099276e-06,
      "loss": 0.1653,
      "step": 9036
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.158269328294137e-06,
      "loss": 0.0864,
      "step": 9037
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.155883734539967e-06,
      "loss": 0.164,
      "step": 9038
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.1535005418876533e-06,
      "loss": 0.0677,
      "step": 9039
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.1511197505771843e-06,
      "loss": 0.096,
      "step": 9040
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.1487413608483016e-06,
      "loss": 0.1151,
      "step": 9041
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.146365372940511e-06,
      "loss": 0.0914,
      "step": 9042
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.1439917870930793e-06,
      "loss": 0.0863,
      "step": 9043
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.1416206035450156e-06,
      "loss": 0.0944,
      "step": 9044
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.1392518225351118e-06,
      "loss": 0.138,
      "step": 9045
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.1368854443018912e-06,
      "loss": 0.1012,
      "step": 9046
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.1345214690836548e-06,
      "loss": 0.0924,
      "step": 9047
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.132159897118451e-06,
      "loss": 0.0587,
      "step": 9048
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.1298007286440954e-06,
      "loss": 0.0854,
      "step": 9049
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.1274439638981532e-06,
      "loss": 0.0994,
      "step": 9050
    },
    {
      "epoch": 0.91,
      "eval_loss": 0.7054162621498108,
      "eval_runtime": 73.5291,
      "eval_samples_per_second": 3.142,
      "eval_steps_per_second": 0.789,
      "step": 9050
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.1250896031179514e-06,
      "loss": 0.1041,
      "step": 9051
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.1227376465405697e-06,
      "loss": 0.0896,
      "step": 9052
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.1203880944028577e-06,
      "loss": 0.1193,
      "step": 9053
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.1180409469414094e-06,
      "loss": 0.1974,
      "step": 9054
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.1156962043925828e-06,
      "loss": 0.1574,
      "step": 9055
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.1133538669924975e-06,
      "loss": 0.1515,
      "step": 9056
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.1110139349770205e-06,
      "loss": 0.1346,
      "step": 9057
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.1086764085817908e-06,
      "loss": 0.1261,
      "step": 9058
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.1063412880421926e-06,
      "loss": 0.0756,
      "step": 9059
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.104008573593368e-06,
      "loss": 0.0883,
      "step": 9060
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.1016782654702352e-06,
      "loss": 0.0479,
      "step": 9061
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.0993503639074421e-06,
      "loss": 0.0824,
      "step": 9062
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.0970248691394097e-06,
      "loss": 0.0836,
      "step": 9063
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.0947017814003259e-06,
      "loss": 0.0803,
      "step": 9064
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.0923811009241142e-06,
      "loss": 0.0979,
      "step": 9065
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.090062827944474e-06,
      "loss": 0.0699,
      "step": 9066
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.0877469626948494e-06,
      "loss": 0.1023,
      "step": 9067
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.0854335054084536e-06,
      "loss": 0.0693,
      "step": 9068
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.0831224563182474e-06,
      "loss": 0.0482,
      "step": 9069
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.0808138156569614e-06,
      "loss": 0.0457,
      "step": 9070
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.0785075836570623e-06,
      "loss": 0.0577,
      "step": 9071
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.0762037605508008e-06,
      "loss": 0.0367,
      "step": 9072
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.0739023465701631e-06,
      "loss": 0.0233,
      "step": 9073
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.071603341946903e-06,
      "loss": 0.0379,
      "step": 9074
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.0693067469125323e-06,
      "loss": 0.1117,
      "step": 9075
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.067012561698319e-06,
      "loss": 0.0959,
      "step": 9076
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.0647207865352837e-06,
      "loss": 0.0991,
      "step": 9077
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.0624314216542168e-06,
      "loss": 0.1342,
      "step": 9078
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.0601444672856425e-06,
      "loss": 0.108,
      "step": 9079
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.0578599236598707e-06,
      "loss": 0.1438,
      "step": 9080
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.0555777910069454e-06,
      "loss": 0.1669,
      "step": 9081
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.0532980695566851e-06,
      "loss": 0.0747,
      "step": 9082
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.0510207595386511e-06,
      "loss": 0.1072,
      "step": 9083
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.048745861182171e-06,
      "loss": 0.0911,
      "step": 9084
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.0464733747163307e-06,
      "loss": 0.0945,
      "step": 9085
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.0442033003699668e-06,
      "loss": 0.1417,
      "step": 9086
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.0419356383716688e-06,
      "loss": 0.126,
      "step": 9087
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.039670388949801e-06,
      "loss": 0.1211,
      "step": 9088
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.03740755233247e-06,
      "loss": 0.106,
      "step": 9089
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.0351471287475406e-06,
      "loss": 0.1951,
      "step": 9090
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.0328891184226392e-06,
      "loss": 0.1633,
      "step": 9091
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.030633521585153e-06,
      "loss": 0.3375,
      "step": 9092
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.0283803384622064e-06,
      "loss": 0.4376,
      "step": 9093
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.026129569280712e-06,
      "loss": 0.1773,
      "step": 9094
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.023881214267311e-06,
      "loss": 0.7456,
      "step": 9095
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.0216352736484165e-06,
      "loss": 0.7305,
      "step": 9096
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.0193917476501918e-06,
      "loss": 0.339,
      "step": 9097
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.0171506364985622e-06,
      "loss": 0.1117,
      "step": 9098
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.0149119404192082e-06,
      "loss": 0.1231,
      "step": 9099
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.0126756596375686e-06,
      "loss": 0.107,
      "step": 9100
    },
    {
      "epoch": 0.91,
      "eval_loss": 0.7071202993392944,
      "eval_runtime": 73.4286,
      "eval_samples_per_second": 3.146,
      "eval_steps_per_second": 0.79,
      "step": 9100
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.0104417943788275e-06,
      "loss": 0.0773,
      "step": 9101
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.0082103448679464e-06,
      "loss": 0.1333,
      "step": 9102
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.0059813113296236e-06,
      "loss": 0.0428,
      "step": 9103
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.0037546939883292e-06,
      "loss": 0.0849,
      "step": 9104
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.0015304930682783e-06,
      "loss": 0.1126,
      "step": 9105
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.993087087934504e-07,
      "loss": 0.1208,
      "step": 9106
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.970893413875776e-07,
      "loss": 0.0539,
      "step": 9107
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.94872391074156e-07,
      "loss": 0.0537,
      "step": 9108
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.926578580764234e-07,
      "loss": 0.048,
      "step": 9109
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.904457426173907e-07,
      "loss": 0.0664,
      "step": 9110
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.88236044919813e-07,
      "loss": 0.056,
      "step": 9111
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.860287652062066e-07,
      "loss": 0.0298,
      "step": 9112
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.838239036988494e-07,
      "loss": 0.0579,
      "step": 9113
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.816214606197666e-07,
      "loss": 0.0826,
      "step": 9114
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.794214361907473e-07,
      "loss": 0.0226,
      "step": 9115
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.772238306333337e-07,
      "loss": 0.0959,
      "step": 9116
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.750286441688155e-07,
      "loss": 0.128,
      "step": 9117
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.728358770182633e-07,
      "loss": 0.1227,
      "step": 9118
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.70645529402478e-07,
      "loss": 0.1352,
      "step": 9119
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.684576015420278e-07,
      "loss": 0.1023,
      "step": 9120
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.662720936572417e-07,
      "loss": 0.1176,
      "step": 9121
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.640890059681996e-07,
      "loss": 0.144,
      "step": 9122
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.619083386947337e-07,
      "loss": 0.1491,
      "step": 9123
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.59730092056446e-07,
      "loss": 0.0725,
      "step": 9124
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.575542662726754e-07,
      "loss": 0.1001,
      "step": 9125
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.553808615625355e-07,
      "loss": 0.0643,
      "step": 9126
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.532098781448812e-07,
      "loss": 0.0748,
      "step": 9127
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.510413162383353e-07,
      "loss": 0.0855,
      "step": 9128
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.48875176061273e-07,
      "loss": 0.0859,
      "step": 9129
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.467114578318226e-07,
      "loss": 0.0989,
      "step": 9130
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.445501617678654e-07,
      "loss": 0.1386,
      "step": 9131
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.42391288087055e-07,
      "loss": 0.1473,
      "step": 9132
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.402348370067788e-07,
      "loss": 0.1412,
      "step": 9133
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.380808087441989e-07,
      "loss": 0.1337,
      "step": 9134
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.359292035162226e-07,
      "loss": 0.1007,
      "step": 9135
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.337800215395154e-07,
      "loss": 0.1125,
      "step": 9136
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.316332630305014e-07,
      "loss": 0.1197,
      "step": 9137
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.294889282053632e-07,
      "loss": 0.1129,
      "step": 9138
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.273470172800253e-07,
      "loss": 0.1089,
      "step": 9139
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.252075304701929e-07,
      "loss": 0.1783,
      "step": 9140
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.230704679912965e-07,
      "loss": 0.0987,
      "step": 9141
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.209358300585474e-07,
      "loss": 0.1408,
      "step": 9142
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.188036168868985e-07,
      "loss": 0.1358,
      "step": 9143
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.166738286910698e-07,
      "loss": 0.0968,
      "step": 9144
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.145464656855257e-07,
      "loss": 0.0686,
      "step": 9145
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.124215280844978e-07,
      "loss": 0.0664,
      "step": 9146
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.102990161019592e-07,
      "loss": 0.0912,
      "step": 9147
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.081789299516503e-07,
      "loss": 0.153,
      "step": 9148
    },
    {
      "epoch": 0.91,
      "learning_rate": 9.060612698470639e-07,
      "loss": 0.186,
      "step": 9149
    },
    {
      "epoch": 0.92,
      "learning_rate": 9.03946036001449e-07,
      "loss": 0.1322,
      "step": 9150
    },
    {
      "epoch": 0.92,
      "eval_loss": 0.7074786424636841,
      "eval_runtime": 73.3294,
      "eval_samples_per_second": 3.15,
      "eval_steps_per_second": 0.791,
      "step": 9150
    },
    {
      "epoch": 0.92,
      "learning_rate": 9.018332286278103e-07,
      "loss": 0.2143,
      "step": 9151
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.997228479389025e-07,
      "loss": 0.212,
      "step": 9152
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.976148941472501e-07,
      "loss": 0.1637,
      "step": 9153
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.955093674651139e-07,
      "loss": 0.1001,
      "step": 9154
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.934062681045241e-07,
      "loss": 0.1157,
      "step": 9155
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.91305596277267e-07,
      "loss": 0.1203,
      "step": 9156
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.892073521948763e-07,
      "loss": 0.1234,
      "step": 9157
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.871115360686411e-07,
      "loss": 0.1487,
      "step": 9158
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.850181481096203e-07,
      "loss": 0.1327,
      "step": 9159
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.829271885286094e-07,
      "loss": 0.1119,
      "step": 9160
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.808386575361704e-07,
      "loss": 0.1029,
      "step": 9161
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.787525553426185e-07,
      "loss": 0.087,
      "step": 9162
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.766688821580244e-07,
      "loss": 0.1605,
      "step": 9163
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.745876381922147e-07,
      "loss": 0.1467,
      "step": 9164
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.725088236547719e-07,
      "loss": 0.1362,
      "step": 9165
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.704324387550228e-07,
      "loss": 0.1323,
      "step": 9166
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.683584837020753e-07,
      "loss": 0.0988,
      "step": 9167
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.662869587047651e-07,
      "loss": 0.1173,
      "step": 9168
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.642178639716975e-07,
      "loss": 0.1343,
      "step": 9169
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.62151199711228e-07,
      "loss": 0.1214,
      "step": 9170
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.600869661314764e-07,
      "loss": 0.138,
      "step": 9171
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.580251634403041e-07,
      "loss": 0.1893,
      "step": 9172
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.559657918453396e-07,
      "loss": 0.0949,
      "step": 9173
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.539088515539556e-07,
      "loss": 0.1512,
      "step": 9174
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.51854342773295e-07,
      "loss": 0.1195,
      "step": 9175
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.498022657102367e-07,
      "loss": 0.1236,
      "step": 9176
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.47752620571432e-07,
      "loss": 0.1188,
      "step": 9177
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.457054075632769e-07,
      "loss": 0.1081,
      "step": 9178
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.436606268919233e-07,
      "loss": 0.1078,
      "step": 9179
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.416182787632871e-07,
      "loss": 0.1075,
      "step": 9180
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.395783633830312e-07,
      "loss": 0.12,
      "step": 9181
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.375408809565666e-07,
      "loss": 0.1493,
      "step": 9182
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.355058316890818e-07,
      "loss": 0.1174,
      "step": 9183
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.334732157854935e-07,
      "loss": 0.0929,
      "step": 9184
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.314430334504908e-07,
      "loss": 0.1078,
      "step": 9185
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.294152848885157e-07,
      "loss": 0.0943,
      "step": 9186
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.273899703037601e-07,
      "loss": 0.1496,
      "step": 9187
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.253670899001698e-07,
      "loss": 0.0857,
      "step": 9188
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.233466438814563e-07,
      "loss": 0.1911,
      "step": 9189
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.213286324510738e-07,
      "loss": 0.1662,
      "step": 9190
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.193130558122347e-07,
      "loss": 0.1191,
      "step": 9191
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.172999141679072e-07,
      "loss": 0.1185,
      "step": 9192
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.152892077208208e-07,
      "loss": 0.1086,
      "step": 9193
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.132809366734468e-07,
      "loss": 0.17,
      "step": 9194
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.112751012280235e-07,
      "loss": 0.1534,
      "step": 9195
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.092717015865309e-07,
      "loss": 0.1014,
      "step": 9196
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.072707379507216e-07,
      "loss": 0.0625,
      "step": 9197
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.052722105220845e-07,
      "loss": 0.0944,
      "step": 9198
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.032761195018723e-07,
      "loss": 0.1247,
      "step": 9199
    },
    {
      "epoch": 0.92,
      "learning_rate": 8.012824650910938e-07,
      "loss": 0.1111,
      "step": 9200
    },
    {
      "epoch": 0.92,
      "eval_loss": 0.7047227621078491,
      "eval_runtime": 72.8985,
      "eval_samples_per_second": 3.169,
      "eval_steps_per_second": 0.796,
      "step": 9200
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.992912474905079e-07,
      "loss": 0.0997,
      "step": 9201
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.973024669006318e-07,
      "loss": 0.1303,
      "step": 9202
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.953161235217388e-07,
      "loss": 0.1151,
      "step": 9203
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.933322175538438e-07,
      "loss": 0.0678,
      "step": 9204
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.91350749196737e-07,
      "loss": 0.0902,
      "step": 9205
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.893717186499478e-07,
      "loss": 0.1716,
      "step": 9206
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.87395126112761e-07,
      "loss": 0.0994,
      "step": 9207
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.854209717842231e-07,
      "loss": 0.1522,
      "step": 9208
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.834492558631306e-07,
      "loss": 0.12,
      "step": 9209
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.814799785480359e-07,
      "loss": 0.077,
      "step": 9210
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.795131400372468e-07,
      "loss": 0.0427,
      "step": 9211
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.775487405288162e-07,
      "loss": 0.1298,
      "step": 9212
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.755867802205691e-07,
      "loss": 0.0867,
      "step": 9213
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.736272593100696e-07,
      "loss": 0.1093,
      "step": 9214
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.716701779946433e-07,
      "loss": 0.0766,
      "step": 9215
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.697155364713632e-07,
      "loss": 0.1154,
      "step": 9216
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.677633349370717e-07,
      "loss": 0.1354,
      "step": 9217
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.65813573588342e-07,
      "loss": 0.1607,
      "step": 9218
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.638662526215284e-07,
      "loss": 0.2011,
      "step": 9219
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.619213722327185e-07,
      "loss": 0.1418,
      "step": 9220
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.599789326177636e-07,
      "loss": 0.098,
      "step": 9221
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.580389339722632e-07,
      "loss": 0.132,
      "step": 9222
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.56101376491583e-07,
      "loss": 0.1612,
      "step": 9223
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.541662603708283e-07,
      "loss": 0.1112,
      "step": 9224
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.522335858048707e-07,
      "loss": 0.1771,
      "step": 9225
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.503033529883241e-07,
      "loss": 0.075,
      "step": 9226
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.483755621155692e-07,
      "loss": 0.0764,
      "step": 9227
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.46450213380731e-07,
      "loss": 0.1015,
      "step": 9228
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.445273069776909e-07,
      "loss": 0.0721,
      "step": 9229
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.426068431000882e-07,
      "loss": 0.0631,
      "step": 9230
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.406888219413128e-07,
      "loss": 0.1225,
      "step": 9231
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.387732436945128e-07,
      "loss": 0.1319,
      "step": 9232
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.368601085525784e-07,
      "loss": 0.1583,
      "step": 9233
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.349494167081695e-07,
      "loss": 0.1186,
      "step": 9234
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.330411683536876e-07,
      "loss": 0.1146,
      "step": 9235
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.311353636812984e-07,
      "loss": 0.1262,
      "step": 9236
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.292320028829125e-07,
      "loss": 0.0784,
      "step": 9237
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.273310861502042e-07,
      "loss": 0.0986,
      "step": 9238
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.254326136745842e-07,
      "loss": 0.1053,
      "step": 9239
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.235365856472442e-07,
      "loss": 0.0707,
      "step": 9240
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.216430022591008e-07,
      "loss": 0.1104,
      "step": 9241
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.197518637008433e-07,
      "loss": 0.1343,
      "step": 9242
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.178631701629079e-07,
      "loss": 0.1014,
      "step": 9243
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.159769218354873e-07,
      "loss": 0.0732,
      "step": 9244
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.140931189085265e-07,
      "loss": 0.0928,
      "step": 9245
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.122117615717266e-07,
      "loss": 0.1514,
      "step": 9246
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.103328500145334e-07,
      "loss": 0.0654,
      "step": 9247
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.084563844261594e-07,
      "loss": 0.0572,
      "step": 9248
    },
    {
      "epoch": 0.92,
      "learning_rate": 7.065823649955644e-07,
      "loss": 0.0824,
      "step": 9249
    },
    {
      "epoch": 0.93,
      "learning_rate": 7.047107919114588e-07,
      "loss": 0.1105,
      "step": 9250
    },
    {
      "epoch": 0.93,
      "eval_loss": 0.7031049132347107,
      "eval_runtime": 73.6415,
      "eval_samples_per_second": 3.137,
      "eval_steps_per_second": 0.788,
      "step": 9250
    },
    {
      "epoch": 0.93,
      "learning_rate": 7.02841665362311e-07,
      "loss": 0.1072,
      "step": 9251
    },
    {
      "epoch": 0.93,
      "learning_rate": 7.009749855363456e-07,
      "loss": 0.1213,
      "step": 9252
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.991107526215319e-07,
      "loss": 0.0875,
      "step": 9253
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.972489668056026e-07,
      "loss": 0.0799,
      "step": 9254
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.953896282760359e-07,
      "loss": 0.0496,
      "step": 9255
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.935327372200678e-07,
      "loss": 0.1007,
      "step": 9256
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.916782938246879e-07,
      "loss": 0.106,
      "step": 9257
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.898262982766385e-07,
      "loss": 0.0787,
      "step": 9258
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.879767507624174e-07,
      "loss": 0.101,
      "step": 9259
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.86129651468273e-07,
      "loss": 0.1796,
      "step": 9260
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.842850005802038e-07,
      "loss": 0.0947,
      "step": 9261
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.824427982839748e-07,
      "loss": 0.109,
      "step": 9262
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.806030447650879e-07,
      "loss": 0.1513,
      "step": 9263
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.787657402088088e-07,
      "loss": 0.1484,
      "step": 9264
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.769308848001532e-07,
      "loss": 0.1451,
      "step": 9265
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.750984787238929e-07,
      "loss": 0.1289,
      "step": 9266
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.732685221645496e-07,
      "loss": 0.0951,
      "step": 9267
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.714410153064038e-07,
      "loss": 0.0822,
      "step": 9268
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.696159583334777e-07,
      "loss": 0.1336,
      "step": 9269
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.677933514295604e-07,
      "loss": 0.0998,
      "step": 9270
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.659731947781884e-07,
      "loss": 0.1581,
      "step": 9271
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.641554885626483e-07,
      "loss": 0.1012,
      "step": 9272
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.623402329659855e-07,
      "loss": 0.1563,
      "step": 9273
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.605274281709928e-07,
      "loss": 0.1434,
      "step": 9274
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.587170743602239e-07,
      "loss": 0.1065,
      "step": 9275
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.569091717159831e-07,
      "loss": 0.0993,
      "step": 9276
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.551037204203164e-07,
      "loss": 0.0409,
      "step": 9277
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.533007206550424e-07,
      "loss": 0.0444,
      "step": 9278
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.515001726017211e-07,
      "loss": 0.0886,
      "step": 9279
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.497020764416633e-07,
      "loss": 0.071,
      "step": 9280
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.479064323559408e-07,
      "loss": 0.0649,
      "step": 9281
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.461132405253756e-07,
      "loss": 0.1435,
      "step": 9282
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.44322501130537e-07,
      "loss": 0.1002,
      "step": 9283
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.425342143517616e-07,
      "loss": 0.2329,
      "step": 9284
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.407483803691216e-07,
      "loss": 0.1362,
      "step": 9285
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.389649993624514e-07,
      "loss": 0.1165,
      "step": 9286
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.371840715113403e-07,
      "loss": 0.0597,
      "step": 9287
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.354055969951284e-07,
      "loss": 0.141,
      "step": 9288
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.336295759929028e-07,
      "loss": 0.0617,
      "step": 9289
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.318560086835179e-07,
      "loss": 0.079,
      "step": 9290
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.300848952455585e-07,
      "loss": 0.2136,
      "step": 9291
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.283162358573902e-07,
      "loss": 0.0857,
      "step": 9292
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.265500306971067e-07,
      "loss": 0.149,
      "step": 9293
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.247862799425685e-07,
      "loss": 0.1287,
      "step": 9294
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.230249837713864e-07,
      "loss": 0.0952,
      "step": 9295
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.212661423609184e-07,
      "loss": 0.0715,
      "step": 9296
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.19509755888284e-07,
      "loss": 0.1153,
      "step": 9297
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.177558245303555e-07,
      "loss": 0.0554,
      "step": 9298
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.16004348463739e-07,
      "loss": 0.0892,
      "step": 9299
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.142553278648239e-07,
      "loss": 0.1667,
      "step": 9300
    },
    {
      "epoch": 0.93,
      "eval_loss": 0.7042700052261353,
      "eval_runtime": 73.7044,
      "eval_samples_per_second": 3.134,
      "eval_steps_per_second": 0.787,
      "step": 9300
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.125087629097276e-07,
      "loss": 0.1063,
      "step": 9301
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.107646537743345e-07,
      "loss": 0.0418,
      "step": 9302
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.090230006342707e-07,
      "loss": 0.0515,
      "step": 9303
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.072838036649236e-07,
      "loss": 0.0584,
      "step": 9304
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.055470630414284e-07,
      "loss": 0.0238,
      "step": 9305
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.038127789386811e-07,
      "loss": 0.0314,
      "step": 9306
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.020809515313142e-07,
      "loss": 0.0511,
      "step": 9307
    },
    {
      "epoch": 0.93,
      "learning_rate": 6.003515809937327e-07,
      "loss": 0.129,
      "step": 9308
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.986246675000751e-07,
      "loss": 0.0904,
      "step": 9309
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.969002112242494e-07,
      "loss": 0.0815,
      "step": 9310
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.95178212339903e-07,
      "loss": 0.0926,
      "step": 9311
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.934586710204443e-07,
      "loss": 0.1019,
      "step": 9312
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.917415874390265e-07,
      "loss": 0.0633,
      "step": 9313
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.900269617685666e-07,
      "loss": 0.0959,
      "step": 9314
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.883147941817213e-07,
      "loss": 0.1128,
      "step": 9315
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.866050848509081e-07,
      "loss": 0.0824,
      "step": 9316
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.848978339482947e-07,
      "loss": 0.1718,
      "step": 9317
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.83193041645802e-07,
      "loss": 0.128,
      "step": 9318
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.814907081151039e-07,
      "loss": 0.1636,
      "step": 9319
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.797908335276214e-07,
      "loss": 0.1048,
      "step": 9320
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.780934180545344e-07,
      "loss": 0.1058,
      "step": 9321
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.763984618667729e-07,
      "loss": 0.1947,
      "step": 9322
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.74705965135014e-07,
      "loss": 0.2137,
      "step": 9323
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.730159280296992e-07,
      "loss": 0.0954,
      "step": 9324
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.713283507210148e-07,
      "loss": 0.119,
      "step": 9325
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.696432333788914e-07,
      "loss": 0.1015,
      "step": 9326
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.679605761730295e-07,
      "loss": 0.1339,
      "step": 9327
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.662803792728682e-07,
      "loss": 0.085,
      "step": 9328
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.646026428476031e-07,
      "loss": 0.0963,
      "step": 9329
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.629273670661849e-07,
      "loss": 0.0596,
      "step": 9330
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.612545520973122e-07,
      "loss": 0.0649,
      "step": 9331
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.595841981094363e-07,
      "loss": 0.0917,
      "step": 9332
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.579163052707642e-07,
      "loss": 0.0519,
      "step": 9333
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.562508737492478e-07,
      "loss": 0.0866,
      "step": 9334
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.545879037126057e-07,
      "loss": 0.1344,
      "step": 9335
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.529273953282871e-07,
      "loss": 0.0928,
      "step": 9336
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.51269348763514e-07,
      "loss": 0.0752,
      "step": 9337
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.496137641852472e-07,
      "loss": 0.1421,
      "step": 9338
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.479606417602062e-07,
      "loss": 0.1362,
      "step": 9339
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.463099816548579e-07,
      "loss": 0.1592,
      "step": 9340
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.446617840354301e-07,
      "loss": 0.2239,
      "step": 9341
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.430160490678848e-07,
      "loss": 0.1546,
      "step": 9342
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.413727769179589e-07,
      "loss": 0.0969,
      "step": 9343
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.397319677511253e-07,
      "loss": 0.1358,
      "step": 9344
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.380936217326105e-07,
      "loss": 0.1372,
      "step": 9345
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.36457739027399e-07,
      "loss": 0.1515,
      "step": 9346
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.348243198002257e-07,
      "loss": 0.1261,
      "step": 9347
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.331933642155728e-07,
      "loss": 0.1457,
      "step": 9348
    },
    {
      "epoch": 0.93,
      "learning_rate": 5.315648724376787e-07,
      "loss": 0.1019,
      "step": 9349
    },
    {
      "epoch": 0.94,
      "learning_rate": 5.299388446305343e-07,
      "loss": 0.0968,
      "step": 9350
    },
    {
      "epoch": 0.94,
      "eval_loss": 0.7034928202629089,
      "eval_runtime": 73.6969,
      "eval_samples_per_second": 3.134,
      "eval_steps_per_second": 0.787,
      "step": 9350
    },
    {
      "epoch": 0.94,
      "learning_rate": 5.283152809578751e-07,
      "loss": 0.1155,
      "step": 9351
    },
    {
      "epoch": 0.94,
      "learning_rate": 5.266941815831983e-07,
      "loss": 0.0487,
      "step": 9352
    },
    {
      "epoch": 0.94,
      "learning_rate": 5.25075546669751e-07,
      "loss": 0.1374,
      "step": 9353
    },
    {
      "epoch": 0.94,
      "learning_rate": 5.234593763805223e-07,
      "loss": 0.1756,
      "step": 9354
    },
    {
      "epoch": 0.94,
      "learning_rate": 5.218456708782682e-07,
      "loss": 0.1182,
      "step": 9355
    },
    {
      "epoch": 0.94,
      "learning_rate": 5.202344303254809e-07,
      "loss": 0.1078,
      "step": 9356
    },
    {
      "epoch": 0.94,
      "learning_rate": 5.18625654884422e-07,
      "loss": 0.0682,
      "step": 9357
    },
    {
      "epoch": 0.94,
      "learning_rate": 5.170193447170874e-07,
      "loss": 0.1219,
      "step": 9358
    },
    {
      "epoch": 0.94,
      "learning_rate": 5.154154999852334e-07,
      "loss": 0.1488,
      "step": 9359
    },
    {
      "epoch": 0.94,
      "learning_rate": 5.1381412085037e-07,
      "loss": 0.084,
      "step": 9360
    },
    {
      "epoch": 0.94,
      "learning_rate": 5.12215207473754e-07,
      "loss": 0.1023,
      "step": 9361
    },
    {
      "epoch": 0.94,
      "learning_rate": 5.106187600163987e-07,
      "loss": 0.0808,
      "step": 9362
    },
    {
      "epoch": 0.94,
      "learning_rate": 5.090247786390639e-07,
      "loss": 0.0823,
      "step": 9363
    },
    {
      "epoch": 0.94,
      "learning_rate": 5.074332635022605e-07,
      "loss": 0.1153,
      "step": 9364
    },
    {
      "epoch": 0.94,
      "learning_rate": 5.058442147662601e-07,
      "loss": 0.0612,
      "step": 9365
    },
    {
      "epoch": 0.94,
      "learning_rate": 5.042576325910763e-07,
      "loss": 0.0682,
      "step": 9366
    },
    {
      "epoch": 0.94,
      "learning_rate": 5.026735171364789e-07,
      "loss": 0.0539,
      "step": 9367
    },
    {
      "epoch": 0.94,
      "learning_rate": 5.01091868561987e-07,
      "loss": 0.1094,
      "step": 9368
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.995126870268763e-07,
      "loss": 0.1166,
      "step": 9369
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.979359726901639e-07,
      "loss": 0.1046,
      "step": 9370
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.96361725710634e-07,
      "loss": 0.0858,
      "step": 9371
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.947899462468014e-07,
      "loss": 0.0856,
      "step": 9372
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.932206344569562e-07,
      "loss": 0.1263,
      "step": 9373
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.916537904991192e-07,
      "loss": 0.0561,
      "step": 9374
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.900894145310753e-07,
      "loss": 0.0975,
      "step": 9375
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.885275067103568e-07,
      "loss": 0.1915,
      "step": 9376
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.86968067194249e-07,
      "loss": 0.0975,
      "step": 9377
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.854110961397845e-07,
      "loss": 0.1715,
      "step": 9378
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.83856593703752e-07,
      "loss": 0.104,
      "step": 9379
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.823045600426901e-07,
      "loss": 0.086,
      "step": 9380
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.807549953128904e-07,
      "loss": 0.0857,
      "step": 9381
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.792078996703892e-07,
      "loss": 0.1049,
      "step": 9382
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.776632732709813e-07,
      "loss": 0.1503,
      "step": 9383
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.7612111627021175e-07,
      "loss": 0.0462,
      "step": 9384
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.7458142882337574e-07,
      "loss": 0.0546,
      "step": 9385
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.730442110855132e-07,
      "loss": 0.1086,
      "step": 9386
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.715094632114364e-07,
      "loss": 0.0381,
      "step": 9387
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.6997718535568e-07,
      "loss": 0.0514,
      "step": 9388
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.684473776725512e-07,
      "loss": 0.0659,
      "step": 9389
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.669200403160989e-07,
      "loss": 0.0546,
      "step": 9390
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.6539517344012794e-07,
      "loss": 0.1416,
      "step": 9391
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.6387277719819046e-07,
      "loss": 0.1723,
      "step": 9392
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.623528517435971e-07,
      "loss": 0.1487,
      "step": 9393
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.6083539722939497e-07,
      "loss": 0.0892,
      "step": 9394
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.5932041380840065e-07,
      "loss": 0.0843,
      "step": 9395
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.578079016331699e-07,
      "loss": 0.1293,
      "step": 9396
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.562978608560087e-07,
      "loss": 0.106,
      "step": 9397
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.5479029162898423e-07,
      "loss": 0.1094,
      "step": 9398
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.532851941039029e-07,
      "loss": 0.1241,
      "step": 9399
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.517825684323324e-07,
      "loss": 0.0814,
      "step": 9400
    },
    {
      "epoch": 0.94,
      "eval_loss": 0.702362060546875,
      "eval_runtime": 67.0391,
      "eval_samples_per_second": 3.446,
      "eval_steps_per_second": 0.865,
      "step": 9400
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.5028241476558766e-07,
      "loss": 0.0659,
      "step": 9401
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.487847332547257e-07,
      "loss": 0.1101,
      "step": 9402
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.472895240505759e-07,
      "loss": 0.1287,
      "step": 9403
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.4579678730369834e-07,
      "loss": 0.0675,
      "step": 9404
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.443065231644089e-07,
      "loss": 0.0726,
      "step": 9405
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.4281873178278475e-07,
      "loss": 0.0569,
      "step": 9406
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.413334133086394e-07,
      "loss": 0.1024,
      "step": 9407
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.3985056789154766e-07,
      "loss": 0.0944,
      "step": 9408
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.383701956808345e-07,
      "loss": 0.08,
      "step": 9409
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.3689229682556676e-07,
      "loss": 0.1589,
      "step": 9410
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.3541687147457546e-07,
      "loss": 0.0569,
      "step": 9411
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.3394391977643334e-07,
      "loss": 0.0752,
      "step": 9412
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.324734418794607e-07,
      "loss": 0.0475,
      "step": 9413
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.310054379317474e-07,
      "loss": 0.0912,
      "step": 9414
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.2953990808111135e-07,
      "loss": 0.1632,
      "step": 9415
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.280768524751344e-07,
      "loss": 0.1462,
      "step": 9416
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.26616271261146e-07,
      "loss": 0.1032,
      "step": 9417
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.251581645862257e-07,
      "loss": 0.0928,
      "step": 9418
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.237025325972061e-07,
      "loss": 0.1156,
      "step": 9419
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.2224937544067257e-07,
      "loss": 0.1291,
      "step": 9420
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.2079869326294706e-07,
      "loss": 0.1508,
      "step": 9421
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.193504862101266e-07,
      "loss": 0.0908,
      "step": 9422
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.17904754428039e-07,
      "loss": 0.1403,
      "step": 9423
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.1646149806226777e-07,
      "loss": 0.0527,
      "step": 9424
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.1502071725815216e-07,
      "loss": 0.119,
      "step": 9425
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.1358241216077897e-07,
      "loss": 0.1284,
      "step": 9426
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.1214658291498234e-07,
      "loss": 0.182,
      "step": 9427
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.107132296653549e-07,
      "loss": 0.228,
      "step": 9428
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.0928235255622836e-07,
      "loss": 0.1687,
      "step": 9429
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.078539517316987e-07,
      "loss": 0.172,
      "step": 9430
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.064280273356008e-07,
      "loss": 0.132,
      "step": 9431
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.050045795115309e-07,
      "loss": 0.0926,
      "step": 9432
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.035836084028244e-07,
      "loss": 0.0278,
      "step": 9433
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.0216511415257506e-07,
      "loss": 0.1475,
      "step": 9434
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.0074909690362707e-07,
      "loss": 0.1406,
      "step": 9435
    },
    {
      "epoch": 0.94,
      "learning_rate": 3.993355567985746e-07,
      "loss": 0.0961,
      "step": 9436
    },
    {
      "epoch": 0.94,
      "learning_rate": 3.979244939797566e-07,
      "loss": 0.114,
      "step": 9437
    },
    {
      "epoch": 0.94,
      "learning_rate": 3.965159085892678e-07,
      "loss": 0.1892,
      "step": 9438
    },
    {
      "epoch": 0.94,
      "learning_rate": 3.95109800768953e-07,
      "loss": 0.2369,
      "step": 9439
    },
    {
      "epoch": 0.94,
      "learning_rate": 3.9370617066040726e-07,
      "loss": 0.1602,
      "step": 9440
    },
    {
      "epoch": 0.94,
      "learning_rate": 3.923050184049787e-07,
      "loss": 0.1418,
      "step": 9441
    },
    {
      "epoch": 0.94,
      "learning_rate": 3.909063441437627e-07,
      "loss": 0.1374,
      "step": 9442
    },
    {
      "epoch": 0.94,
      "learning_rate": 3.895101480176022e-07,
      "loss": 0.0452,
      "step": 9443
    },
    {
      "epoch": 0.94,
      "learning_rate": 3.8811643016709867e-07,
      "loss": 0.2317,
      "step": 9444
    },
    {
      "epoch": 0.94,
      "learning_rate": 3.867251907325953e-07,
      "loss": 0.1311,
      "step": 9445
    },
    {
      "epoch": 0.94,
      "learning_rate": 3.853364298541939e-07,
      "loss": 0.1207,
      "step": 9446
    },
    {
      "epoch": 0.94,
      "learning_rate": 3.839501476717383e-07,
      "loss": 0.1165,
      "step": 9447
    },
    {
      "epoch": 0.94,
      "learning_rate": 3.825663443248306e-07,
      "loss": 0.1002,
      "step": 9448
    },
    {
      "epoch": 0.94,
      "learning_rate": 3.8118501995281495e-07,
      "loss": 0.1403,
      "step": 9449
    },
    {
      "epoch": 0.94,
      "learning_rate": 3.7980617469479953e-07,
      "loss": 0.1208,
      "step": 9450
    },
    {
      "epoch": 0.94,
      "eval_loss": 0.7031395435333252,
      "eval_runtime": 67.1005,
      "eval_samples_per_second": 3.443,
      "eval_steps_per_second": 0.864,
      "step": 9450
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.78429808689626e-07,
      "loss": 0.0992,
      "step": 9451
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.770559220758974e-07,
      "loss": 0.0689,
      "step": 9452
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.756845149919641e-07,
      "loss": 0.0972,
      "step": 9453
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.7431558757592413e-07,
      "loss": 0.1138,
      "step": 9454
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.729491399656337e-07,
      "loss": 0.1022,
      "step": 9455
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.715851722986885e-07,
      "loss": 0.0643,
      "step": 9456
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.702236847124452e-07,
      "loss": 0.0998,
      "step": 9457
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.6886467734400243e-07,
      "loss": 0.0849,
      "step": 9458
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.675081503302091e-07,
      "loss": 0.1279,
      "step": 9459
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.6615410380767544e-07,
      "loss": 0.043,
      "step": 9460
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.6480253791274786e-07,
      "loss": 0.1067,
      "step": 9461
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.6345345278153143e-07,
      "loss": 0.092,
      "step": 9462
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.6210684854987574e-07,
      "loss": 0.0981,
      "step": 9463
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.607627253533891e-07,
      "loss": 0.1015,
      "step": 9464
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.5942108332741866e-07,
      "loss": 0.1013,
      "step": 9465
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.5808192260707584e-07,
      "loss": 0.092,
      "step": 9466
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.567452433272028e-07,
      "loss": 0.0765,
      "step": 9467
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.554110456224141e-07,
      "loss": 0.0716,
      "step": 9468
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.540793296270578e-07,
      "loss": 0.062,
      "step": 9469
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.5275009547523774e-07,
      "loss": 0.0634,
      "step": 9470
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.5142334330081074e-07,
      "loss": 0.0648,
      "step": 9471
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.5009907323737825e-07,
      "loss": 0.0578,
      "step": 9472
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.487772854182919e-07,
      "loss": 0.1436,
      "step": 9473
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.4745797997666196e-07,
      "loss": 0.065,
      "step": 9474
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.4614115704533767e-07,
      "loss": 0.0427,
      "step": 9475
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.448268167569213e-07,
      "loss": 0.0981,
      "step": 9476
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.435149592437736e-07,
      "loss": 0.0768,
      "step": 9477
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.422055846379918e-07,
      "loss": 0.0651,
      "step": 9478
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.4089869307143417e-07,
      "loss": 0.1216,
      "step": 9479
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.395942846757066e-07,
      "loss": 0.1211,
      "step": 9480
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.382923595821541e-07,
      "loss": 0.098,
      "step": 9481
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.369929179218911e-07,
      "loss": 0.1469,
      "step": 9482
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.3569595982576583e-07,
      "loss": 0.071,
      "step": 9483
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.344014854243793e-07,
      "loss": 0.1565,
      "step": 9484
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.3310949484809117e-07,
      "loss": 0.0769,
      "step": 9485
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.318199882270001e-07,
      "loss": 0.1122,
      "step": 9486
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.3053296569096336e-07,
      "loss": 0.1245,
      "step": 9487
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.2924842736958284e-07,
      "loss": 0.097,
      "step": 9488
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.279663733922078e-07,
      "loss": 0.0828,
      "step": 9489
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.266868038879434e-07,
      "loss": 0.1033,
      "step": 9490
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.2540971898564474e-07,
      "loss": 0.1368,
      "step": 9491
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.241351188139119e-07,
      "loss": 0.1265,
      "step": 9492
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.2286300350109766e-07,
      "loss": 0.0938,
      "step": 9493
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.215933731753024e-07,
      "loss": 0.0583,
      "step": 9494
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.2032622796438204e-07,
      "loss": 0.0837,
      "step": 9495
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.190615679959319e-07,
      "loss": 0.1004,
      "step": 9496
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.1779939339730834e-07,
      "loss": 0.0902,
      "step": 9497
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.1653970429560977e-07,
      "loss": 0.0786,
      "step": 9498
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.152825008176874e-07,
      "loss": 0.1117,
      "step": 9499
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.140277830901428e-07,
      "loss": 0.16,
      "step": 9500
    },
    {
      "epoch": 0.95,
      "eval_loss": 0.7037548422813416,
      "eval_runtime": 67.9012,
      "eval_samples_per_second": 3.402,
      "eval_steps_per_second": 0.854,
      "step": 9500
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.127755512393249e-07,
      "loss": 0.1558,
      "step": 9501
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.115258053913328e-07,
      "loss": 0.1396,
      "step": 9502
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.102785456720159e-07,
      "loss": 0.139,
      "step": 9503
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.090337722069764e-07,
      "loss": 0.1125,
      "step": 9504
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.077914851215585e-07,
      "loss": 0.0711,
      "step": 9505
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.0655168454086227e-07,
      "loss": 0.0889,
      "step": 9506
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.053143705897377e-07,
      "loss": 0.0399,
      "step": 9507
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.040795433927768e-07,
      "loss": 0.068,
      "step": 9508
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.028472030743329e-07,
      "loss": 0.082,
      "step": 9509
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.016173497584984e-07,
      "loss": 0.0768,
      "step": 9510
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.0038998356912154e-07,
      "loss": 0.0971,
      "step": 9511
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.9916510462979777e-07,
      "loss": 0.0648,
      "step": 9512
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.979427130638729e-07,
      "loss": 0.079,
      "step": 9513
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.967228089944402e-07,
      "loss": 0.0595,
      "step": 9514
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.955053925443457e-07,
      "loss": 0.0423,
      "step": 9515
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.942904638361804e-07,
      "loss": 0.0359,
      "step": 9516
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.9307802299229084e-07,
      "loss": 0.0432,
      "step": 9517
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.9186807013476815e-07,
      "loss": 0.0321,
      "step": 9518
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.906606053854538e-07,
      "loss": 0.0235,
      "step": 9519
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.894556288659395e-07,
      "loss": 0.0266,
      "step": 9520
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.882531406975697e-07,
      "loss": 0.1099,
      "step": 9521
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.87053141001431e-07,
      "loss": 0.0825,
      "step": 9522
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.8585562989836555e-07,
      "loss": 0.0727,
      "step": 9523
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.846606075089603e-07,
      "loss": 0.1365,
      "step": 9524
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.834680739535578e-07,
      "loss": 0.1081,
      "step": 9525
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.822780293522426e-07,
      "loss": 0.1356,
      "step": 9526
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.810904738248549e-07,
      "loss": 0.1899,
      "step": 9527
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.799054074909768e-07,
      "loss": 0.0938,
      "step": 9528
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.7872283046995187e-07,
      "loss": 0.082,
      "step": 9529
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.7754274288085966e-07,
      "loss": 0.0944,
      "step": 9530
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.7636514484253864e-07,
      "loss": 0.1016,
      "step": 9531
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.751900364735688e-07,
      "loss": 0.1387,
      "step": 9532
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.7401741789228607e-07,
      "loss": 0.0944,
      "step": 9533
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.7284728921677105e-07,
      "loss": 0.1179,
      "step": 9534
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.7167965056486e-07,
      "loss": 0.0706,
      "step": 9535
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.705145020541311e-07,
      "loss": 0.1751,
      "step": 9536
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.6935184380191545e-07,
      "loss": 0.1646,
      "step": 9537
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.681916759252917e-07,
      "loss": 0.2374,
      "step": 9538
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.6703399854109134e-07,
      "loss": 0.5528,
      "step": 9539
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.658788117658878e-07,
      "loss": 0.1859,
      "step": 9540
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.6472611571601305e-07,
      "loss": 0.6517,
      "step": 9541
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.6357591050754084e-07,
      "loss": 0.7621,
      "step": 9542
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.62428196256298e-07,
      "loss": 0.3856,
      "step": 9543
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.6128297307785874e-07,
      "loss": 0.0769,
      "step": 9544
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.6014024108754755e-07,
      "loss": 0.1163,
      "step": 9545
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.590000004004361e-07,
      "loss": 0.0848,
      "step": 9546
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.578622511313494e-07,
      "loss": 0.0768,
      "step": 9547
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.567269933948541e-07,
      "loss": 0.1343,
      "step": 9548
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.555942273052753e-07,
      "loss": 0.0803,
      "step": 9549
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.544639529766829e-07,
      "loss": 0.0569,
      "step": 9550
    },
    {
      "epoch": 0.95,
      "eval_loss": 0.7049829959869385,
      "eval_runtime": 66.8458,
      "eval_samples_per_second": 3.456,
      "eval_steps_per_second": 0.868,
      "step": 9550
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.5333617052288873e-07,
      "loss": 0.0912,
      "step": 9551
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.522108800574685e-07,
      "loss": 0.1011,
      "step": 9552
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.510880816937372e-07,
      "loss": 0.0647,
      "step": 9553
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.4996777554475435e-07,
      "loss": 0.043,
      "step": 9554
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.4884996172334086e-07,
      "loss": 0.0432,
      "step": 9555
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.477346403420594e-07,
      "loss": 0.0601,
      "step": 9556
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.4662181151322295e-07,
      "loss": 0.0437,
      "step": 9557
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.4551147534889185e-07,
      "loss": 0.0283,
      "step": 9558
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.4440363196087945e-07,
      "loss": 0.047,
      "step": 9559
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.4329828146074095e-07,
      "loss": 0.1188,
      "step": 9560
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.421954239597929e-07,
      "loss": 0.0254,
      "step": 9561
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.410950595690825e-07,
      "loss": 0.078,
      "step": 9562
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.3999718839942675e-07,
      "loss": 0.1378,
      "step": 9563
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.3890181056137326e-07,
      "loss": 0.0888,
      "step": 9564
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.378089261652311e-07,
      "loss": 0.1183,
      "step": 9565
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.367185353210538e-07,
      "loss": 0.1042,
      "step": 9566
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.356306381386425e-07,
      "loss": 0.1057,
      "step": 9567
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.3454523472754562e-07,
      "loss": 0.1415,
      "step": 9568
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.3346232519707023e-07,
      "loss": 0.1295,
      "step": 9569
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.3238190965625684e-07,
      "loss": 0.0846,
      "step": 9570
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.3130398821391007e-07,
      "loss": 0.0925,
      "step": 9571
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.302285609785737e-07,
      "loss": 0.0588,
      "step": 9572
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.2915562805854161e-07,
      "loss": 0.0944,
      "step": 9573
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.2808518956186352e-07,
      "loss": 0.084,
      "step": 9574
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.2701724559632542e-07,
      "loss": 0.0601,
      "step": 9575
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.259517962694746e-07,
      "loss": 0.1073,
      "step": 9576
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.2488884168860025e-07,
      "loss": 0.1336,
      "step": 9577
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.2382838196073896e-07,
      "loss": 0.1579,
      "step": 9578
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.2277041719268587e-07,
      "loss": 0.1302,
      "step": 9579
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.2171494749097245e-07,
      "loss": 0.1276,
      "step": 9580
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.2066197296188307e-07,
      "loss": 0.0822,
      "step": 9581
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.1961149371145795e-07,
      "loss": 0.1031,
      "step": 9582
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.1856350984547636e-07,
      "loss": 0.1138,
      "step": 9583
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.1751802146947053e-07,
      "loss": 0.104,
      "step": 9584
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.1647502868872295e-07,
      "loss": 0.1125,
      "step": 9585
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.1543453160826065e-07,
      "loss": 0.1553,
      "step": 9586
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.1439653033286378e-07,
      "loss": 0.0955,
      "step": 9587
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.1336102496705977e-07,
      "loss": 0.1308,
      "step": 9588
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.1232801561512083e-07,
      "loss": 0.1325,
      "step": 9589
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.1129750238107203e-07,
      "loss": 0.0979,
      "step": 9590
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.1026948536868597e-07,
      "loss": 0.0681,
      "step": 9591
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.0924396468148533e-07,
      "loss": 0.0598,
      "step": 9592
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.0822094042274032e-07,
      "loss": 0.0648,
      "step": 9593
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.0720041269546854e-07,
      "loss": 0.1381,
      "step": 9594
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.061823816024322e-07,
      "loss": 0.1689,
      "step": 9595
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.0516684724615765e-07,
      "loss": 0.107,
      "step": 9596
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.0415380972889918e-07,
      "loss": 0.2002,
      "step": 9597
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.0314326915267523e-07,
      "loss": 0.183,
      "step": 9598
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.0213522561924326e-07,
      "loss": 0.1746,
      "step": 9599
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.011296792301165e-07,
      "loss": 0.0993,
      "step": 9600
    },
    {
      "epoch": 0.96,
      "eval_loss": 0.7056654691696167,
      "eval_runtime": 67.3931,
      "eval_samples_per_second": 3.428,
      "eval_steps_per_second": 0.861,
      "step": 9600
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.0012663008655563e-07,
      "loss": 0.1234,
      "step": 9601
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.9912607828956321e-07,
      "loss": 0.1283,
      "step": 9602
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.9812802393989194e-07,
      "loss": 0.1222,
      "step": 9603
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.9713246713805588e-07,
      "loss": 0.1423,
      "step": 9604
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.9613940798429707e-07,
      "loss": 0.1231,
      "step": 9605
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.9514884657862443e-07,
      "loss": 0.1006,
      "step": 9606
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.941607830207831e-07,
      "loss": 0.0961,
      "step": 9607
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.9317521741027134e-07,
      "loss": 0.0858,
      "step": 9608
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.921921498463375e-07,
      "loss": 0.1321,
      "step": 9609
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.912115804279746e-07,
      "loss": 0.1309,
      "step": 9610
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.9023350925392592e-07,
      "loss": 0.1113,
      "step": 9611
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.8925793642268764e-07,
      "loss": 0.1023,
      "step": 9612
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.882848620324923e-07,
      "loss": 0.0885,
      "step": 9613
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.873142861813365e-07,
      "loss": 0.1137,
      "step": 9614
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.8634620896695043e-07,
      "loss": 0.0923,
      "step": 9615
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.8538063048681998e-07,
      "loss": 0.1177,
      "step": 9616
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.84417550838184e-07,
      "loss": 0.145,
      "step": 9617
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.8345697011802332e-07,
      "loss": 0.1608,
      "step": 9618
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.8249888842306327e-07,
      "loss": 0.1153,
      "step": 9619
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.8154330584978784e-07,
      "loss": 0.1395,
      "step": 9620
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.805902224944228e-07,
      "loss": 0.0841,
      "step": 9621
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.7963963845294142e-07,
      "loss": 0.1608,
      "step": 9622
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.7869155382106984e-07,
      "loss": 0.1283,
      "step": 9623
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.7774596869428172e-07,
      "loss": 0.1033,
      "step": 9624
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.768028831677926e-07,
      "loss": 0.0905,
      "step": 9625
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.7586229733657644e-07,
      "loss": 0.1068,
      "step": 9626
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.7492421129534642e-07,
      "loss": 0.1035,
      "step": 9627
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.739886251385686e-07,
      "loss": 0.1073,
      "step": 9628
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.7305553896045656e-07,
      "loss": 0.1149,
      "step": 9629
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.7212495285497399e-07,
      "loss": 0.0844,
      "step": 9630
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.7119686691582927e-07,
      "loss": 0.0917,
      "step": 9631
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.7027128123648095e-07,
      "loss": 0.1041,
      "step": 9632
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.6934819591013228e-07,
      "loss": 0.1217,
      "step": 9633
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.6842761102974501e-07,
      "loss": 0.1041,
      "step": 9634
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.6750952668801445e-07,
      "loss": 0.1689,
      "step": 9635
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.6659394297739716e-07,
      "loss": 0.158,
      "step": 9636
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.6568085999008888e-07,
      "loss": 0.1382,
      "step": 9637
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.64770277818041e-07,
      "loss": 0.1107,
      "step": 9638
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.638621965529441e-07,
      "loss": 0.101,
      "step": 9639
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.6295661628624447e-07,
      "loss": 0.1525,
      "step": 9640
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.6205353710913585e-07,
      "loss": 0.1473,
      "step": 9641
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.611529591125538e-07,
      "loss": 0.12,
      "step": 9642
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.6025488238719244e-07,
      "loss": 0.065,
      "step": 9643
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.5935930702348223e-07,
      "loss": 0.0748,
      "step": 9644
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.5846623311160936e-07,
      "loss": 0.1178,
      "step": 9645
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.575756607415102e-07,
      "loss": 0.1002,
      "step": 9646
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.5668759000286027e-07,
      "loss": 0.1232,
      "step": 9647
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.5580202098509077e-07,
      "loss": 0.1107,
      "step": 9648
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.5491895377737764e-07,
      "loss": 0.1025,
      "step": 9649
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.5403838846864694e-07,
      "loss": 0.0797,
      "step": 9650
    },
    {
      "epoch": 0.96,
      "eval_loss": 0.7055656909942627,
      "eval_runtime": 61.5789,
      "eval_samples_per_second": 3.751,
      "eval_steps_per_second": 0.942,
      "step": 9650
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.5316032514756938e-07,
      "loss": 0.0778,
      "step": 9651
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.5228476390256875e-07,
      "loss": 0.1613,
      "step": 9652
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.5141170482181055e-07,
      "loss": 0.1011,
      "step": 9653
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.5054114799321617e-07,
      "loss": 0.1416,
      "step": 9654
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.4967309350444604e-07,
      "loss": 0.1694,
      "step": 9655
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.488075414429163e-07,
      "loss": 0.0652,
      "step": 9656
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.4794449189578507e-07,
      "loss": 0.0397,
      "step": 9657
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.4708394494996892e-07,
      "loss": 0.1198,
      "step": 9658
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.4622590069211516e-07,
      "loss": 0.0736,
      "step": 9659
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.453703592086353e-07,
      "loss": 0.1129,
      "step": 9660
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.4451732058567979e-07,
      "loss": 0.1015,
      "step": 9661
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.4366678490914942e-07,
      "loss": 0.0774,
      "step": 9662
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.4281875226469232e-07,
      "loss": 0.169,
      "step": 9663
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.4197322273770686e-07,
      "loss": 0.1375,
      "step": 9664
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.411301964133388e-07,
      "loss": 0.2136,
      "step": 9665
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.4028967337648137e-07,
      "loss": 0.1228,
      "step": 9666
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.3945165371177238e-07,
      "loss": 0.105,
      "step": 9667
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.3861613750359991e-07,
      "loss": 0.0956,
      "step": 9668
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.3778312483610501e-07,
      "loss": 0.1469,
      "step": 9669
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.3695261579316777e-07,
      "loss": 0.103,
      "step": 9670
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.361246104584213e-07,
      "loss": 0.1194,
      "step": 9671
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.3529910891524612e-07,
      "loss": 0.0798,
      "step": 9672
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.3447611124677018e-07,
      "loss": 0.0897,
      "step": 9673
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.3365561753587164e-07,
      "loss": 0.0925,
      "step": 9674
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.328376278651705e-07,
      "loss": 0.1155,
      "step": 9675
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.320221423170398e-07,
      "loss": 0.0671,
      "step": 9676
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.312091609735999e-07,
      "loss": 0.1172,
      "step": 9677
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.3039868391671596e-07,
      "loss": 0.1244,
      "step": 9678
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.2959071122800316e-07,
      "loss": 0.138,
      "step": 9679
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.2878524298882698e-07,
      "loss": 0.1376,
      "step": 9680
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.2798227928029482e-07,
      "loss": 0.1126,
      "step": 9681
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.2718182018326698e-07,
      "loss": 0.0946,
      "step": 9682
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.2638386577835116e-07,
      "loss": 0.0775,
      "step": 9683
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.25588416145897e-07,
      "loss": 0.086,
      "step": 9684
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.2479547136600989e-07,
      "loss": 0.1125,
      "step": 9685
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.2400503151853982e-07,
      "loss": 0.0769,
      "step": 9686
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.2321709668307867e-07,
      "loss": 0.1023,
      "step": 9687
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.2243166693897967e-07,
      "loss": 0.1424,
      "step": 9688
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.2164874236532952e-07,
      "loss": 0.1262,
      "step": 9689
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.2086832304096797e-07,
      "loss": 0.0683,
      "step": 9690
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.2009040904448764e-07,
      "loss": 0.1036,
      "step": 9691
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.193150004542204e-07,
      "loss": 0.1375,
      "step": 9692
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.1854209734825372e-07,
      "loss": 0.0682,
      "step": 9693
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.1777169980441705e-07,
      "loss": 0.0385,
      "step": 9694
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.170038079002872e-07,
      "loss": 0.0942,
      "step": 9695
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.1623842171319677e-07,
      "loss": 0.1069,
      "step": 9696
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.1547554132021465e-07,
      "loss": 0.1014,
      "step": 9697
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.1471516679816274e-07,
      "loss": 0.1087,
      "step": 9698
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.1395729822361589e-07,
      "loss": 0.1076,
      "step": 9699
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.1320193567288529e-07,
      "loss": 0.0574,
      "step": 9700
    },
    {
      "epoch": 0.97,
      "eval_loss": 0.7053654789924622,
      "eval_runtime": 73.1292,
      "eval_samples_per_second": 3.159,
      "eval_steps_per_second": 0.793,
      "step": 9700
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.1244907922204062e-07,
      "loss": 0.0555,
      "step": 9701
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.1169872894689071e-07,
      "loss": 0.0876,
      "step": 9702
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.109508849230001e-07,
      "loss": 0.0963,
      "step": 9703
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.1020554722567245e-07,
      "loss": 0.0599,
      "step": 9704
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.0946271592996715e-07,
      "loss": 0.0787,
      "step": 9705
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.0872239111068272e-07,
      "loss": 0.1873,
      "step": 9706
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.0798457284237618e-07,
      "loss": 0.0973,
      "step": 9707
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.0724926119934087e-07,
      "loss": 0.1045,
      "step": 9708
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.0651645625562034e-07,
      "loss": 0.1417,
      "step": 9709
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.0578615808501391e-07,
      "loss": 0.1224,
      "step": 9710
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.0505836676106273e-07,
      "loss": 0.162,
      "step": 9711
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.0433308235704986e-07,
      "loss": 0.1138,
      "step": 9712
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.036103049460141e-07,
      "loss": 0.1266,
      "step": 9713
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.0289003460074165e-07,
      "loss": 0.0621,
      "step": 9714
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.0217227139376062e-07,
      "loss": 0.111,
      "step": 9715
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.014570153973493e-07,
      "loss": 0.1162,
      "step": 9716
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.007442666835362e-07,
      "loss": 0.1696,
      "step": 9717
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.0003402532409445e-07,
      "loss": 0.1089,
      "step": 9718
    },
    {
      "epoch": 0.97,
      "learning_rate": 9.932629139054461e-08,
      "loss": 0.1591,
      "step": 9719
    },
    {
      "epoch": 0.97,
      "learning_rate": 9.862106495415469e-08,
      "loss": 0.1297,
      "step": 9720
    },
    {
      "epoch": 0.97,
      "learning_rate": 9.791834608594563e-08,
      "loss": 0.1384,
      "step": 9721
    },
    {
      "epoch": 0.97,
      "learning_rate": 9.721813485667475e-08,
      "loss": 0.1068,
      "step": 9722
    },
    {
      "epoch": 0.97,
      "learning_rate": 9.652043133685784e-08,
      "loss": 0.0408,
      "step": 9723
    },
    {
      "epoch": 0.97,
      "learning_rate": 9.582523559674983e-08,
      "loss": 0.0343,
      "step": 9724
    },
    {
      "epoch": 0.97,
      "learning_rate": 9.513254770636137e-08,
      "loss": 0.0791,
      "step": 9725
    },
    {
      "epoch": 0.97,
      "learning_rate": 9.444236773544223e-08,
      "loss": 0.0703,
      "step": 9726
    },
    {
      "epoch": 0.97,
      "learning_rate": 9.375469575349793e-08,
      "loss": 0.0471,
      "step": 9727
    },
    {
      "epoch": 0.97,
      "learning_rate": 9.306953182977307e-08,
      "loss": 0.1146,
      "step": 9728
    },
    {
      "epoch": 0.97,
      "learning_rate": 9.238687603326524e-08,
      "loss": 0.1052,
      "step": 9729
    },
    {
      "epoch": 0.97,
      "learning_rate": 9.170672843271666e-08,
      "loss": 0.206,
      "step": 9730
    },
    {
      "epoch": 0.97,
      "learning_rate": 9.1029089096617e-08,
      "loss": 0.1479,
      "step": 9731
    },
    {
      "epoch": 0.97,
      "learning_rate": 9.03539580932089e-08,
      "loss": 0.1171,
      "step": 9732
    },
    {
      "epoch": 0.97,
      "learning_rate": 8.968133549047686e-08,
      "loss": 0.0632,
      "step": 9733
    },
    {
      "epoch": 0.97,
      "learning_rate": 8.901122135615003e-08,
      "loss": 0.1238,
      "step": 9734
    },
    {
      "epoch": 0.97,
      "learning_rate": 8.834361575771333e-08,
      "loss": 0.0754,
      "step": 9735
    },
    {
      "epoch": 0.97,
      "learning_rate": 8.767851876239074e-08,
      "loss": 0.0641,
      "step": 9736
    },
    {
      "epoch": 0.97,
      "learning_rate": 8.701593043716206e-08,
      "loss": 0.1881,
      "step": 9737
    },
    {
      "epoch": 0.97,
      "learning_rate": 8.635585084874609e-08,
      "loss": 0.0777,
      "step": 9738
    },
    {
      "epoch": 0.97,
      "learning_rate": 8.569828006361469e-08,
      "loss": 0.139,
      "step": 9739
    },
    {
      "epoch": 0.97,
      "learning_rate": 8.504321814798433e-08,
      "loss": 0.1257,
      "step": 9740
    },
    {
      "epoch": 0.97,
      "learning_rate": 8.439066516782168e-08,
      "loss": 0.0854,
      "step": 9741
    },
    {
      "epoch": 0.97,
      "learning_rate": 8.37406211888353e-08,
      "loss": 0.0932,
      "step": 9742
    },
    {
      "epoch": 0.97,
      "learning_rate": 8.309308627648948e-08,
      "loss": 0.0686,
      "step": 9743
    },
    {
      "epoch": 0.97,
      "learning_rate": 8.244806049598764e-08,
      "loss": 0.0619,
      "step": 9744
    },
    {
      "epoch": 0.97,
      "learning_rate": 8.180554391228056e-08,
      "loss": 0.0552,
      "step": 9745
    },
    {
      "epoch": 0.97,
      "learning_rate": 8.116553659007764e-08,
      "loss": 0.148,
      "step": 9746
    },
    {
      "epoch": 0.97,
      "learning_rate": 8.052803859382174e-08,
      "loss": 0.1158,
      "step": 9747
    },
    {
      "epoch": 0.97,
      "learning_rate": 7.989304998771152e-08,
      "loss": 0.038,
      "step": 9748
    },
    {
      "epoch": 0.97,
      "learning_rate": 7.926057083568472e-08,
      "loss": 0.037,
      "step": 9749
    },
    {
      "epoch": 0.97,
      "learning_rate": 7.863060120144317e-08,
      "loss": 0.0456,
      "step": 9750
    },
    {
      "epoch": 0.97,
      "eval_loss": 0.7055864930152893,
      "eval_runtime": 73.7104,
      "eval_samples_per_second": 3.134,
      "eval_steps_per_second": 0.787,
      "step": 9750
    },
    {
      "epoch": 0.98,
      "learning_rate": 7.800314114841389e-08,
      "loss": 0.0309,
      "step": 9751
    },
    {
      "epoch": 0.98,
      "learning_rate": 7.737819073978802e-08,
      "loss": 0.0204,
      "step": 9752
    },
    {
      "epoch": 0.98,
      "learning_rate": 7.675575003849578e-08,
      "loss": 0.0515,
      "step": 9753
    },
    {
      "epoch": 0.98,
      "learning_rate": 7.613581910721757e-08,
      "loss": 0.0881,
      "step": 9754
    },
    {
      "epoch": 0.98,
      "learning_rate": 7.551839800837846e-08,
      "loss": 0.0775,
      "step": 9755
    },
    {
      "epoch": 0.98,
      "learning_rate": 7.490348680415926e-08,
      "loss": 0.0794,
      "step": 9756
    },
    {
      "epoch": 0.98,
      "learning_rate": 7.429108555647435e-08,
      "loss": 0.0726,
      "step": 9757
    },
    {
      "epoch": 0.98,
      "learning_rate": 7.368119432699383e-08,
      "loss": 0.1141,
      "step": 9758
    },
    {
      "epoch": 0.98,
      "learning_rate": 7.307381317713802e-08,
      "loss": 0.0615,
      "step": 9759
    },
    {
      "epoch": 0.98,
      "learning_rate": 7.246894216806355e-08,
      "loss": 0.0917,
      "step": 9760
    },
    {
      "epoch": 0.98,
      "learning_rate": 7.186658136068835e-08,
      "loss": 0.0818,
      "step": 9761
    },
    {
      "epoch": 0.98,
      "learning_rate": 7.126673081566393e-08,
      "loss": 0.0845,
      "step": 9762
    },
    {
      "epoch": 0.98,
      "learning_rate": 7.06693905933975e-08,
      "loss": 0.1311,
      "step": 9763
    },
    {
      "epoch": 0.98,
      "learning_rate": 7.007456075404373e-08,
      "loss": 0.1294,
      "step": 9764
    },
    {
      "epoch": 0.98,
      "learning_rate": 6.948224135749637e-08,
      "loss": 0.1471,
      "step": 9765
    },
    {
      "epoch": 0.98,
      "learning_rate": 6.889243246340771e-08,
      "loss": 0.1222,
      "step": 9766
    },
    {
      "epoch": 0.98,
      "learning_rate": 6.830513413116635e-08,
      "loss": 0.0934,
      "step": 9767
    },
    {
      "epoch": 0.98,
      "learning_rate": 6.772034641991665e-08,
      "loss": 0.1883,
      "step": 9768
    },
    {
      "epoch": 0.98,
      "learning_rate": 6.71380693885476e-08,
      "loss": 0.1735,
      "step": 9769
    },
    {
      "epoch": 0.98,
      "learning_rate": 6.655830309569289e-08,
      "loss": 0.0991,
      "step": 9770
    },
    {
      "epoch": 0.98,
      "learning_rate": 6.598104759973078e-08,
      "loss": 0.1275,
      "step": 9771
    },
    {
      "epoch": 0.98,
      "learning_rate": 6.54063029588009e-08,
      "loss": 0.098,
      "step": 9772
    },
    {
      "epoch": 0.98,
      "learning_rate": 6.483406923077084e-08,
      "loss": 0.1028,
      "step": 9773
    },
    {
      "epoch": 0.98,
      "learning_rate": 6.426434647326674e-08,
      "loss": 0.0822,
      "step": 9774
    },
    {
      "epoch": 0.98,
      "learning_rate": 6.369713474366212e-08,
      "loss": 0.0723,
      "step": 9775
    },
    {
      "epoch": 0.98,
      "learning_rate": 6.313243409907244e-08,
      "loss": 0.0659,
      "step": 9776
    },
    {
      "epoch": 0.98,
      "learning_rate": 6.257024459636606e-08,
      "loss": 0.057,
      "step": 9777
    },
    {
      "epoch": 0.98,
      "learning_rate": 6.20105662921533e-08,
      "loss": 0.068,
      "step": 9778
    },
    {
      "epoch": 0.98,
      "learning_rate": 6.145339924279181e-08,
      "loss": 0.0833,
      "step": 9779
    },
    {
      "epoch": 0.98,
      "learning_rate": 6.089874350439506e-08,
      "loss": 0.0659,
      "step": 9780
    },
    {
      "epoch": 0.98,
      "learning_rate": 6.034659913281005e-08,
      "loss": 0.1081,
      "step": 9781
    },
    {
      "epoch": 0.98,
      "learning_rate": 5.979696618363951e-08,
      "loss": 0.0884,
      "step": 9782
    },
    {
      "epoch": 0.98,
      "learning_rate": 5.924984471223083e-08,
      "loss": 0.0701,
      "step": 9783
    },
    {
      "epoch": 0.98,
      "learning_rate": 5.870523477368439e-08,
      "loss": 0.1075,
      "step": 9784
    },
    {
      "epoch": 0.98,
      "learning_rate": 5.816313642283411e-08,
      "loss": 0.1307,
      "step": 9785
    },
    {
      "epoch": 0.98,
      "learning_rate": 5.762354971427797e-08,
      "loss": 0.1594,
      "step": 9786
    },
    {
      "epoch": 0.98,
      "learning_rate": 5.7086474702344736e-08,
      "loss": 0.1923,
      "step": 9787
    },
    {
      "epoch": 0.98,
      "learning_rate": 5.6551911441121707e-08,
      "loss": 0.1287,
      "step": 9788
    },
    {
      "epoch": 0.98,
      "learning_rate": 5.6019859984438036e-08,
      "loss": 0.0835,
      "step": 9789
    },
    {
      "epoch": 0.98,
      "learning_rate": 5.54903203858731e-08,
      "loss": 0.1423,
      "step": 9790
    },
    {
      "epoch": 0.98,
      "learning_rate": 5.496329269875089e-08,
      "loss": 0.1023,
      "step": 9791
    },
    {
      "epoch": 0.98,
      "learning_rate": 5.443877697614008e-08,
      "loss": 0.1591,
      "step": 9792
    },
    {
      "epoch": 0.98,
      "learning_rate": 5.3916773270865085e-08,
      "loss": 0.1148,
      "step": 9793
    },
    {
      "epoch": 0.98,
      "learning_rate": 5.3397281635486626e-08,
      "loss": 0.1488,
      "step": 9794
    },
    {
      "epoch": 0.98,
      "learning_rate": 5.2880302122318425e-08,
      "loss": 0.0989,
      "step": 9795
    },
    {
      "epoch": 0.98,
      "learning_rate": 5.236583478342161e-08,
      "loss": 0.096,
      "step": 9796
    },
    {
      "epoch": 0.98,
      "learning_rate": 5.185387967060473e-08,
      "loss": 0.122,
      "step": 9797
    },
    {
      "epoch": 0.98,
      "learning_rate": 5.134443683541823e-08,
      "loss": 0.0271,
      "step": 9798
    },
    {
      "epoch": 0.98,
      "learning_rate": 5.083750632916273e-08,
      "loss": 0.1465,
      "step": 9799
    },
    {
      "epoch": 0.98,
      "learning_rate": 5.033308820289184e-08,
      "loss": 0.1737,
      "step": 9800
    },
    {
      "epoch": 0.98,
      "eval_loss": 0.7055985331535339,
      "eval_runtime": 73.4531,
      "eval_samples_per_second": 3.145,
      "eval_steps_per_second": 0.79,
      "step": 9800
    },
    {
      "epoch": 0.98,
      "learning_rate": 4.9831182507392717e-08,
      "loss": 0.1292,
      "step": 9801
    },
    {
      "epoch": 0.98,
      "learning_rate": 4.9331789293211026e-08,
      "loss": 0.0953,
      "step": 9802
    },
    {
      "epoch": 0.98,
      "learning_rate": 4.883490861063711e-08,
      "loss": 0.0716,
      "step": 9803
    },
    {
      "epoch": 0.98,
      "learning_rate": 4.8340540509703156e-08,
      "loss": 0.0994,
      "step": 9804
    },
    {
      "epoch": 0.98,
      "learning_rate": 4.784868504019435e-08,
      "loss": 0.1199,
      "step": 9805
    },
    {
      "epoch": 0.98,
      "learning_rate": 4.7359342251640516e-08,
      "loss": 0.0899,
      "step": 9806
    },
    {
      "epoch": 0.98,
      "learning_rate": 4.6872512193318894e-08,
      "loss": 0.0875,
      "step": 9807
    },
    {
      "epoch": 0.98,
      "learning_rate": 4.638819491425417e-08,
      "loss": 0.0887,
      "step": 9808
    },
    {
      "epoch": 0.98,
      "learning_rate": 4.590639046321288e-08,
      "loss": 0.0773,
      "step": 9809
    },
    {
      "epoch": 0.98,
      "learning_rate": 4.542709888871732e-08,
      "loss": 0.1274,
      "step": 9810
    },
    {
      "epoch": 0.98,
      "learning_rate": 4.4950320239026125e-08,
      "loss": 0.0486,
      "step": 9811
    },
    {
      "epoch": 0.98,
      "learning_rate": 4.4476054562159195e-08,
      "loss": 0.0549,
      "step": 9812
    },
    {
      "epoch": 0.98,
      "learning_rate": 4.400430190586724e-08,
      "loss": 0.0698,
      "step": 9813
    },
    {
      "epoch": 0.98,
      "learning_rate": 4.353506231766224e-08,
      "loss": 0.0711,
      "step": 9814
    },
    {
      "epoch": 0.98,
      "learning_rate": 4.306833584479253e-08,
      "loss": 0.1161,
      "step": 9815
    },
    {
      "epoch": 0.98,
      "learning_rate": 4.260412253425938e-08,
      "loss": 0.069,
      "step": 9816
    },
    {
      "epoch": 0.98,
      "learning_rate": 4.214242243280597e-08,
      "loss": 0.0796,
      "step": 9817
    },
    {
      "epoch": 0.98,
      "learning_rate": 4.1683235586928434e-08,
      "loss": 0.0734,
      "step": 9818
    },
    {
      "epoch": 0.98,
      "learning_rate": 4.1226562042867565e-08,
      "loss": 0.1225,
      "step": 9819
    },
    {
      "epoch": 0.98,
      "learning_rate": 4.07724018466088e-08,
      "loss": 0.0653,
      "step": 9820
    },
    {
      "epoch": 0.98,
      "learning_rate": 4.0320755043884994e-08,
      "loss": 0.0736,
      "step": 9821
    },
    {
      "epoch": 0.98,
      "learning_rate": 3.987162168017922e-08,
      "loss": 0.1417,
      "step": 9822
    },
    {
      "epoch": 0.98,
      "learning_rate": 3.94250018007164e-08,
      "loss": 0.0883,
      "step": 9823
    },
    {
      "epoch": 0.98,
      "learning_rate": 3.8980895450474455e-08,
      "loss": 0.1248,
      "step": 9824
    },
    {
      "epoch": 0.98,
      "learning_rate": 3.853930267417316e-08,
      "loss": 0.143,
      "step": 9825
    },
    {
      "epoch": 0.98,
      "learning_rate": 3.810022351628251e-08,
      "loss": 0.0731,
      "step": 9826
    },
    {
      "epoch": 0.98,
      "learning_rate": 3.766365802101435e-08,
      "loss": 0.0757,
      "step": 9827
    },
    {
      "epoch": 0.98,
      "learning_rate": 3.722960623233351e-08,
      "loss": 0.0931,
      "step": 9828
    },
    {
      "epoch": 0.98,
      "learning_rate": 3.6798068193946714e-08,
      "loss": 0.1218,
      "step": 9829
    },
    {
      "epoch": 0.98,
      "learning_rate": 3.636904394931362e-08,
      "loss": 0.0416,
      "step": 9830
    },
    {
      "epoch": 0.98,
      "learning_rate": 3.5942533541635794e-08,
      "loss": 0.0352,
      "step": 9831
    },
    {
      "epoch": 0.98,
      "learning_rate": 3.5518537013859434e-08,
      "loss": 0.0935,
      "step": 9832
    },
    {
      "epoch": 0.98,
      "learning_rate": 3.509705440868371e-08,
      "loss": 0.0402,
      "step": 9833
    },
    {
      "epoch": 0.98,
      "learning_rate": 3.467808576855247e-08,
      "loss": 0.0455,
      "step": 9834
    },
    {
      "epoch": 0.98,
      "learning_rate": 3.426163113565417e-08,
      "loss": 0.0572,
      "step": 9835
    },
    {
      "epoch": 0.98,
      "learning_rate": 3.3847690551924716e-08,
      "loss": 0.0571,
      "step": 9836
    },
    {
      "epoch": 0.98,
      "learning_rate": 3.343626405905298e-08,
      "loss": 0.112,
      "step": 9837
    },
    {
      "epoch": 0.98,
      "learning_rate": 3.302735169846416e-08,
      "loss": 0.1658,
      "step": 9838
    },
    {
      "epoch": 0.98,
      "learning_rate": 3.2620953511339205e-08,
      "loss": 0.142,
      "step": 9839
    },
    {
      "epoch": 0.98,
      "learning_rate": 3.221706953860093e-08,
      "loss": 0.0884,
      "step": 9840
    },
    {
      "epoch": 0.98,
      "learning_rate": 3.181569982091959e-08,
      "loss": 0.0838,
      "step": 9841
    },
    {
      "epoch": 0.98,
      "learning_rate": 3.141684439871284e-08,
      "loss": 0.1133,
      "step": 9842
    },
    {
      "epoch": 0.98,
      "learning_rate": 3.102050331214856e-08,
      "loss": 0.0655,
      "step": 9843
    },
    {
      "epoch": 0.98,
      "learning_rate": 3.062667660113649e-08,
      "loss": 0.1051,
      "step": 9844
    },
    {
      "epoch": 0.98,
      "learning_rate": 3.023536430533658e-08,
      "loss": 0.1054,
      "step": 9845
    },
    {
      "epoch": 0.98,
      "learning_rate": 2.9846566464150626e-08,
      "loss": 0.0909,
      "step": 9846
    },
    {
      "epoch": 0.98,
      "learning_rate": 2.9460283116730657e-08,
      "loss": 0.0577,
      "step": 9847
    },
    {
      "epoch": 0.98,
      "learning_rate": 2.9076514301978886e-08,
      "loss": 0.1145,
      "step": 9848
    },
    {
      "epoch": 0.98,
      "learning_rate": 2.869526005853662e-08,
      "loss": 0.1088,
      "step": 9849
    },
    {
      "epoch": 0.98,
      "learning_rate": 2.831652042480093e-08,
      "loss": 0.0803,
      "step": 9850
    },
    {
      "epoch": 0.98,
      "eval_loss": 0.7055554389953613,
      "eval_runtime": 73.5069,
      "eval_samples_per_second": 3.143,
      "eval_steps_per_second": 0.789,
      "step": 9850
    },
    {
      "epoch": 0.99,
      "learning_rate": 2.794029543890797e-08,
      "loss": 0.0551,
      "step": 9851
    },
    {
      "epoch": 0.99,
      "learning_rate": 2.7566585138744104e-08,
      "loss": 0.0432,
      "step": 9852
    },
    {
      "epoch": 0.99,
      "learning_rate": 2.7195389561940343e-08,
      "loss": 0.0887,
      "step": 9853
    },
    {
      "epoch": 0.99,
      "learning_rate": 2.6826708745877893e-08,
      "loss": 0.0844,
      "step": 9854
    },
    {
      "epoch": 0.99,
      "learning_rate": 2.6460542727682614e-08,
      "loss": 0.0716,
      "step": 9855
    },
    {
      "epoch": 0.99,
      "learning_rate": 2.6096891544227788e-08,
      "loss": 0.1051,
      "step": 9856
    },
    {
      "epoch": 0.99,
      "learning_rate": 2.5735755232134118e-08,
      "loss": 0.0942,
      "step": 9857
    },
    {
      "epoch": 0.99,
      "learning_rate": 2.5377133827764187e-08,
      "loss": 0.0413,
      "step": 9858
    },
    {
      "epoch": 0.99,
      "learning_rate": 2.502102736723355e-08,
      "loss": 0.04,
      "step": 9859
    },
    {
      "epoch": 0.99,
      "learning_rate": 2.466743588640241e-08,
      "loss": 0.0634,
      "step": 9860
    },
    {
      "epoch": 0.99,
      "learning_rate": 2.43163594208784e-08,
      "loss": 0.1629,
      "step": 9861
    },
    {
      "epoch": 0.99,
      "learning_rate": 2.3967798006013787e-08,
      "loss": 0.1413,
      "step": 9862
    },
    {
      "epoch": 0.99,
      "learning_rate": 2.36217516769055e-08,
      "loss": 0.0796,
      "step": 9863
    },
    {
      "epoch": 0.99,
      "learning_rate": 2.327822046840622e-08,
      "loss": 0.0498,
      "step": 9864
    },
    {
      "epoch": 0.99,
      "learning_rate": 2.2937204415107717e-08,
      "loss": 0.1317,
      "step": 9865
    },
    {
      "epoch": 0.99,
      "learning_rate": 2.2598703551346412e-08,
      "loss": 0.1025,
      "step": 9866
    },
    {
      "epoch": 0.99,
      "learning_rate": 2.226271791121448e-08,
      "loss": 0.1409,
      "step": 9867
    },
    {
      "epoch": 0.99,
      "learning_rate": 2.192924752854042e-08,
      "loss": 0.0914,
      "step": 9868
    },
    {
      "epoch": 0.99,
      "learning_rate": 2.159829243691125e-08,
      "loss": 0.1393,
      "step": 9869
    },
    {
      "epoch": 0.99,
      "learning_rate": 2.126985266964754e-08,
      "loss": 0.069,
      "step": 9870
    },
    {
      "epoch": 0.99,
      "learning_rate": 2.094392825982838e-08,
      "loss": 0.1155,
      "step": 9871
    },
    {
      "epoch": 0.99,
      "learning_rate": 2.0620519240271975e-08,
      "loss": 0.117,
      "step": 9872
    },
    {
      "epoch": 0.99,
      "learning_rate": 2.029962564354393e-08,
      "loss": 0.1223,
      "step": 9873
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.998124750196284e-08,
      "loss": 0.2255,
      "step": 9874
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.9665384847583622e-08,
      "loss": 0.1953,
      "step": 9875
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.9352037712219718e-08,
      "loss": 0.1583,
      "step": 9876
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.9041206127420885e-08,
      "loss": 0.1185,
      "step": 9877
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.873289012448709e-08,
      "loss": 0.0855,
      "step": 9878
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.842708973447127e-08,
      "loss": 0.0318,
      "step": 9879
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.812380498815991e-08,
      "loss": 0.0842,
      "step": 9880
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.7823035916100793e-08,
      "loss": 0.1859,
      "step": 9881
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.7524782548578033e-08,
      "loss": 0.095,
      "step": 9882
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.7229044915625936e-08,
      "loss": 0.0838,
      "step": 9883
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.6935823047026234e-08,
      "loss": 0.1965,
      "step": 9884
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.664511697230253e-08,
      "loss": 0.2283,
      "step": 9885
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.635692672073419e-08,
      "loss": 0.1931,
      "step": 9886
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.607125232133966e-08,
      "loss": 0.1338,
      "step": 9887
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.5788093802887594e-08,
      "loss": 0.1316,
      "step": 9888
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.550745119388852e-08,
      "loss": 0.0264,
      "step": 9889
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.522932452260595e-08,
      "loss": 0.225,
      "step": 9890
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.495371381704802e-08,
      "loss": 0.1026,
      "step": 9891
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.468061910496754e-08,
      "loss": 0.1223,
      "step": 9892
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.4410040413864734e-08,
      "loss": 0.1026,
      "step": 9893
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.4141977770984471e-08,
      "loss": 0.079,
      "step": 9894
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.3876431203327378e-08,
      "loss": 0.1407,
      "step": 9895
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.3613400737627623e-08,
      "loss": 0.1102,
      "step": 9896
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.335288640037513e-08,
      "loss": 0.1227,
      "step": 9897
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.3094888217804469e-08,
      "loss": 0.0717,
      "step": 9898
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.2839406215894857e-08,
      "loss": 0.103,
      "step": 9899
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.2586440420372936e-08,
      "loss": 0.1128,
      "step": 9900
    },
    {
      "epoch": 0.99,
      "eval_loss": 0.7055772542953491,
      "eval_runtime": 73.3935,
      "eval_samples_per_second": 3.147,
      "eval_steps_per_second": 0.79,
      "step": 9900
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.233599085671e-08,
      "loss": 0.1211,
      "step": 9901
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.2088057550133091e-08,
      "loss": 0.0578,
      "step": 9902
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.18426405256028e-08,
      "loss": 0.0748,
      "step": 9903
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.1599739807835463e-08,
      "loss": 0.0982,
      "step": 9904
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.1359355421292072e-08,
      "loss": 0.1204,
      "step": 9905
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.1121487390175489e-08,
      "loss": 0.0409,
      "step": 9906
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.0886135738441549e-08,
      "loss": 0.097,
      "step": 9907
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.0653300489790741e-08,
      "loss": 0.093,
      "step": 9908
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.0422981667668197e-08,
      "loss": 0.0698,
      "step": 9909
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.0195179295269252e-08,
      "loss": 0.1389,
      "step": 9910
    },
    {
      "epoch": 0.99,
      "learning_rate": 9.969893395531115e-09,
      "loss": 0.0753,
      "step": 9911
    },
    {
      "epoch": 0.99,
      "learning_rate": 9.747123991141194e-09,
      "loss": 0.1132,
      "step": 9912
    },
    {
      "epoch": 0.99,
      "learning_rate": 9.526871104531542e-09,
      "loss": 0.0758,
      "step": 9913
    },
    {
      "epoch": 0.99,
      "learning_rate": 9.309134757881643e-09,
      "loss": 0.0708,
      "step": 9914
    },
    {
      "epoch": 0.99,
      "learning_rate": 9.0939149731184e-09,
      "loss": 0.0591,
      "step": 9915
    },
    {
      "epoch": 0.99,
      "learning_rate": 8.881211771916143e-09,
      "loss": 0.063,
      "step": 9916
    },
    {
      "epoch": 0.99,
      "learning_rate": 8.671025175691073e-09,
      "loss": 0.0657,
      "step": 9917
    },
    {
      "epoch": 0.99,
      "learning_rate": 8.463355205609592e-09,
      "loss": 0.074,
      "step": 9918
    },
    {
      "epoch": 0.99,
      "learning_rate": 8.25820188258275e-09,
      "loss": 0.1006,
      "step": 9919
    },
    {
      "epoch": 0.99,
      "learning_rate": 8.055565227271799e-09,
      "loss": 0.1143,
      "step": 9920
    },
    {
      "epoch": 0.99,
      "learning_rate": 7.855445260082639e-09,
      "loss": 0.0288,
      "step": 9921
    },
    {
      "epoch": 0.99,
      "learning_rate": 7.657842001165816e-09,
      "loss": 0.1085,
      "step": 9922
    },
    {
      "epoch": 0.99,
      "learning_rate": 7.462755470422078e-09,
      "loss": 0.0862,
      "step": 9923
    },
    {
      "epoch": 0.99,
      "learning_rate": 7.270185687494047e-09,
      "loss": 0.0571,
      "step": 9924
    },
    {
      "epoch": 0.99,
      "learning_rate": 7.080132671774542e-09,
      "loss": 0.096,
      "step": 9925
    },
    {
      "epoch": 0.99,
      "learning_rate": 6.892596442401034e-09,
      "loss": 0.1169,
      "step": 9926
    },
    {
      "epoch": 0.99,
      "learning_rate": 6.707577018258415e-09,
      "loss": 0.0974,
      "step": 9927
    },
    {
      "epoch": 0.99,
      "learning_rate": 6.525074417979005e-09,
      "loss": 0.129,
      "step": 9928
    },
    {
      "epoch": 0.99,
      "learning_rate": 6.345088659942544e-09,
      "loss": 0.0795,
      "step": 9929
    },
    {
      "epoch": 0.99,
      "learning_rate": 6.167619762270649e-09,
      "loss": 0.1151,
      "step": 9930
    },
    {
      "epoch": 0.99,
      "learning_rate": 5.99266774283791e-09,
      "loss": 0.1057,
      "step": 9931
    },
    {
      "epoch": 0.99,
      "learning_rate": 5.820232619258014e-09,
      "loss": 0.0937,
      "step": 9932
    },
    {
      "epoch": 0.99,
      "learning_rate": 5.650314408894852e-09,
      "loss": 0.1294,
      "step": 9933
    },
    {
      "epoch": 0.99,
      "learning_rate": 5.48291312886251e-09,
      "loss": 0.0997,
      "step": 9934
    },
    {
      "epoch": 0.99,
      "learning_rate": 5.318028796016949e-09,
      "loss": 0.0759,
      "step": 9935
    },
    {
      "epoch": 0.99,
      "learning_rate": 5.1556614269643314e-09,
      "loss": 0.0939,
      "step": 9936
    },
    {
      "epoch": 0.99,
      "learning_rate": 4.9958110380499135e-09,
      "loss": 0.1343,
      "step": 9937
    },
    {
      "epoch": 0.99,
      "learning_rate": 4.838477645374706e-09,
      "loss": 0.0955,
      "step": 9938
    },
    {
      "epoch": 0.99,
      "learning_rate": 4.683661264778816e-09,
      "loss": 0.0961,
      "step": 9939
    },
    {
      "epoch": 0.99,
      "learning_rate": 4.531361911855325e-09,
      "loss": 0.0592,
      "step": 9940
    },
    {
      "epoch": 0.99,
      "learning_rate": 4.381579601941965e-09,
      "loss": 0.0791,
      "step": 9941
    },
    {
      "epoch": 0.99,
      "learning_rate": 4.234314350115565e-09,
      "loss": 0.0901,
      "step": 9942
    },
    {
      "epoch": 0.99,
      "learning_rate": 4.089566171214254e-09,
      "loss": 0.0726,
      "step": 9943
    },
    {
      "epoch": 0.99,
      "learning_rate": 3.947335079806935e-09,
      "loss": 0.0944,
      "step": 9944
    },
    {
      "epoch": 0.99,
      "learning_rate": 3.807621090218261e-09,
      "loss": 0.1197,
      "step": 9945
    },
    {
      "epoch": 0.99,
      "learning_rate": 3.670424216520307e-09,
      "loss": 0.1464,
      "step": 9946
    },
    {
      "epoch": 0.99,
      "learning_rate": 3.535744472527025e-09,
      "loss": 0.1697,
      "step": 9947
    },
    {
      "epoch": 0.99,
      "learning_rate": 3.4035818717970125e-09,
      "loss": 0.12,
      "step": 9948
    },
    {
      "epoch": 0.99,
      "learning_rate": 3.2739364276446193e-09,
      "loss": 0.1411,
      "step": 9949
    },
    {
      "epoch": 0.99,
      "learning_rate": 3.146808153123293e-09,
      "loss": 0.1171,
      "step": 9950
    },
    {
      "epoch": 0.99,
      "eval_loss": 0.7055841088294983,
      "eval_runtime": 73.6299,
      "eval_samples_per_second": 3.137,
      "eval_steps_per_second": 0.788,
      "step": 9950
    },
    {
      "epoch": 1.0,
      "learning_rate": 3.0221970610339045e-09,
      "loss": 0.0877,
      "step": 9951
    },
    {
      "epoch": 1.0,
      "learning_rate": 2.9001031639275255e-09,
      "loss": 0.1129,
      "step": 9952
    },
    {
      "epoch": 1.0,
      "learning_rate": 2.7805264740943247e-09,
      "loss": 0.0205,
      "step": 9953
    },
    {
      "epoch": 1.0,
      "learning_rate": 2.6634670035774465e-09,
      "loss": 0.0718,
      "step": 9954
    },
    {
      "epoch": 1.0,
      "learning_rate": 2.5489247641674596e-09,
      "loss": 0.0774,
      "step": 9955
    },
    {
      "epoch": 1.0,
      "learning_rate": 2.4368997673940297e-09,
      "loss": 0.0689,
      "step": 9956
    },
    {
      "epoch": 1.0,
      "learning_rate": 2.327392024542574e-09,
      "loss": 0.1172,
      "step": 9957
    },
    {
      "epoch": 1.0,
      "learning_rate": 2.2204015466403828e-09,
      "loss": 0.0624,
      "step": 9958
    },
    {
      "epoch": 1.0,
      "learning_rate": 2.115928344456619e-09,
      "loss": 0.0837,
      "step": 9959
    },
    {
      "epoch": 1.0,
      "learning_rate": 2.0139724285161977e-09,
      "loss": 0.0702,
      "step": 9960
    },
    {
      "epoch": 1.0,
      "learning_rate": 1.9145338090859057e-09,
      "loss": 0.0575,
      "step": 9961
    },
    {
      "epoch": 1.0,
      "learning_rate": 1.817612496177179e-09,
      "loss": 0.0455,
      "step": 9962
    },
    {
      "epoch": 1.0,
      "learning_rate": 1.723208499551654e-09,
      "loss": 0.0488,
      "step": 9963
    },
    {
      "epoch": 1.0,
      "learning_rate": 1.6313218287128395e-09,
      "loss": 0.0389,
      "step": 9964
    },
    {
      "epoch": 1.0,
      "learning_rate": 1.5419524929172203e-09,
      "loss": 0.0303,
      "step": 9965
    },
    {
      "epoch": 1.0,
      "learning_rate": 1.4551005011631535e-09,
      "loss": 0.0277,
      "step": 9966
    },
    {
      "epoch": 1.0,
      "learning_rate": 1.3707658621964215e-09,
      "loss": 0.0922,
      "step": 9967
    },
    {
      "epoch": 1.0,
      "learning_rate": 1.28894858451023e-09,
      "loss": 0.0932,
      "step": 9968
    },
    {
      "epoch": 1.0,
      "learning_rate": 1.2096486763424342e-09,
      "loss": 0.0942,
      "step": 9969
    },
    {
      "epoch": 1.0,
      "learning_rate": 1.132866145678313e-09,
      "loss": 0.1217,
      "step": 9970
    },
    {
      "epoch": 1.0,
      "learning_rate": 1.0586010002505697e-09,
      "loss": 0.1281,
      "step": 9971
    },
    {
      "epoch": 1.0,
      "learning_rate": 9.868532475393322e-10,
      "loss": 0.1398,
      "step": 9972
    },
    {
      "epoch": 1.0,
      "learning_rate": 9.17622894766601e-10,
      "loss": 0.1564,
      "step": 9973
    },
    {
      "epoch": 1.0,
      "learning_rate": 8.509099489045769e-10,
      "loss": 0.102,
      "step": 9974
    },
    {
      "epoch": 1.0,
      "learning_rate": 7.867144166728846e-10,
      "loss": 0.0574,
      "step": 9975
    },
    {
      "epoch": 1.0,
      "learning_rate": 7.250363045357977e-10,
      "loss": 0.1534,
      "step": 9976
    },
    {
      "epoch": 1.0,
      "learning_rate": 6.658756187022386e-10,
      "loss": 0.0841,
      "step": 9977
    },
    {
      "epoch": 1.0,
      "learning_rate": 6.092323651313292e-10,
      "loss": 0.1226,
      "step": 9978
    },
    {
      "epoch": 1.0,
      "learning_rate": 5.551065495268404e-10,
      "loss": 0.1064,
      "step": 9979
    },
    {
      "epoch": 1.0,
      "learning_rate": 5.034981773371916e-10,
      "loss": 0.1195,
      "step": 9980
    },
    {
      "epoch": 1.0,
      "learning_rate": 4.544072537637778e-10,
      "loss": 0.0746,
      "step": 9981
    },
    {
      "epoch": 1.0,
      "learning_rate": 4.078337837470914e-10,
      "loss": 0.167,
      "step": 9982
    },
    {
      "epoch": 1.0,
      "learning_rate": 3.63777771975049e-10,
      "loss": 0.1702,
      "step": 9983
    },
    {
      "epoch": 1.0,
      "learning_rate": 3.2223922288854293e-10,
      "loss": 0.1562,
      "step": 9984
    },
    {
      "epoch": 1.0,
      "learning_rate": 2.8321814067033824e-10,
      "loss": 0.5448,
      "step": 9985
    },
    {
      "epoch": 1.0,
      "learning_rate": 2.4671452924507344e-10,
      "loss": 0.2716,
      "step": 9986
    },
    {
      "epoch": 1.0,
      "learning_rate": 2.127283922931378e-10,
      "loss": 0.576,
      "step": 9987
    },
    {
      "epoch": 1.0,
      "learning_rate": 1.8125973323679379e-10,
      "loss": 0.8665,
      "step": 9988
    },
    {
      "epoch": 1.0,
      "learning_rate": 1.5230855524017708e-10,
      "loss": 0.3752,
      "step": 9989
    },
    {
      "epoch": 1.0,
      "learning_rate": 1.2587486122317416e-10,
      "loss": 0.1675,
      "step": 9990
    },
    {
      "epoch": 1.0,
      "learning_rate": 1.0195865384754477e-10,
      "loss": 0.0939,
      "step": 9991
    },
    {
      "epoch": 1.0,
      "learning_rate": 8.055993551969731e-11,
      "loss": 0.0972,
      "step": 9992
    },
    {
      "epoch": 1.0,
      "learning_rate": 6.167870839624002e-11,
      "loss": 0.1079,
      "step": 9993
    },
    {
      "epoch": 1.0,
      "learning_rate": 4.53149743784298e-11,
      "loss": 0.0976,
      "step": 9994
    },
    {
      "epoch": 1.0,
      "learning_rate": 3.14687351121723e-11,
      "loss": 0.0981,
      "step": 9995
    },
    {
      "epoch": 1.0,
      "learning_rate": 2.013999199357297e-11,
      "loss": 0.0571,
      "step": 9996
    },
    {
      "epoch": 1.0,
      "learning_rate": 1.1328746160610415e-11,
      "loss": 0.1059,
      "step": 9997
    },
    {
      "epoch": 1.0,
      "learning_rate": 5.0349985042386086e-12,
      "loss": 0.0927,
      "step": 9998
    },
    {
      "epoch": 1.0,
      "learning_rate": 1.2587496572846746e-12,
      "loss": 0.1022,
      "step": 9999
    },
    {
      "epoch": 1.0,
      "learning_rate": 0.0,
      "loss": 0.0508,
      "step": 10000
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.7055811882019043,
      "eval_runtime": 68.9191,
      "eval_samples_per_second": 3.352,
      "eval_steps_per_second": 0.842,
      "step": 10000
    }
  ],
  "logging_steps": 1,
  "max_steps": 10000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 100,
  "total_flos": 4.6567142719488e+17,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}