{
  "best_metric": 0.3712206780910492,
  "best_model_checkpoint": "./outputs/checkpoint-59925",
  "epoch": 1200.0,
  "global_step": 61200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.2,
      "learning_rate": 4.901960784313725e-07,
      "loss": 1.1885,
      "step": 10
    },
    {
      "epoch": 0.39,
      "learning_rate": 9.80392156862745e-07,
      "loss": 1.182,
      "step": 20
    },
    {
      "epoch": 0.59,
      "learning_rate": 1.4705882352941175e-06,
      "loss": 1.1666,
      "step": 30
    },
    {
      "epoch": 0.78,
      "learning_rate": 1.96078431372549e-06,
      "loss": 1.1481,
      "step": 40
    },
    {
      "epoch": 0.98,
      "learning_rate": 2.450980392156863e-06,
      "loss": 1.1257,
      "step": 50
    },
    {
      "epoch": 1.0,
      "eval_loss": 1.1119023561477661,
      "eval_runtime": 2.2391,
      "eval_samples_per_second": 1017.827,
      "eval_steps_per_second": 4.02,
      "step": 51
    },
    {
      "epoch": 1.18,
      "learning_rate": 2.941176470588235e-06,
      "loss": 1.1055,
      "step": 60
    },
    {
      "epoch": 1.37,
      "learning_rate": 3.4313725490196073e-06,
      "loss": 1.0888,
      "step": 70
    },
    {
      "epoch": 1.57,
      "learning_rate": 3.92156862745098e-06,
      "loss": 1.0737,
      "step": 80
    },
    {
      "epoch": 1.76,
      "learning_rate": 4.4117647058823526e-06,
      "loss": 1.0625,
      "step": 90
    },
    {
      "epoch": 1.96,
      "learning_rate": 4.901960784313726e-06,
      "loss": 1.0507,
      "step": 100
    },
    {
      "epoch": 2.0,
      "eval_loss": 1.0434480905532837,
      "eval_runtime": 2.0694,
      "eval_samples_per_second": 1101.261,
      "eval_steps_per_second": 4.349,
      "step": 102
    },
    {
      "epoch": 2.16,
      "learning_rate": 5.392156862745097e-06,
      "loss": 1.0403,
      "step": 110
    },
    {
      "epoch": 2.35,
      "learning_rate": 5.88235294117647e-06,
      "loss": 1.0303,
      "step": 120
    },
    {
      "epoch": 2.55,
      "learning_rate": 6.372549019607843e-06,
      "loss": 1.0213,
      "step": 130
    },
    {
      "epoch": 2.75,
      "learning_rate": 6.8627450980392145e-06,
      "loss": 1.013,
      "step": 140
    },
    {
      "epoch": 2.94,
      "learning_rate": 7.352941176470588e-06,
      "loss": 1.0046,
      "step": 150
    },
    {
      "epoch": 3.0,
      "eval_loss": 0.9987890720367432,
      "eval_runtime": 2.0662,
      "eval_samples_per_second": 1103.006,
      "eval_steps_per_second": 4.356,
      "step": 153
    },
    {
      "epoch": 3.14,
      "learning_rate": 7.84313725490196e-06,
      "loss": 0.9976,
      "step": 160
    },
    {
      "epoch": 3.33,
      "learning_rate": 8.333333333333332e-06,
      "loss": 0.9917,
      "step": 170
    },
    {
      "epoch": 3.53,
      "learning_rate": 8.823529411764705e-06,
      "loss": 0.9867,
      "step": 180
    },
    {
      "epoch": 3.73,
      "learning_rate": 9.313725490196078e-06,
      "loss": 0.9803,
      "step": 190
    },
    {
      "epoch": 3.92,
      "learning_rate": 9.803921568627451e-06,
      "loss": 0.9761,
      "step": 200
    },
    {
      "epoch": 4.0,
      "eval_loss": 0.9724870920181274,
      "eval_runtime": 2.0693,
      "eval_samples_per_second": 1101.346,
      "eval_steps_per_second": 4.349,
      "step": 204
    },
    {
      "epoch": 4.12,
      "learning_rate": 1.0294117647058824e-05,
      "loss": 0.9732,
      "step": 210
    },
    {
      "epoch": 4.31,
      "learning_rate": 1.0784313725490194e-05,
      "loss": 0.969,
      "step": 220
    },
    {
      "epoch": 4.51,
      "learning_rate": 1.1274509803921567e-05,
      "loss": 0.9652,
      "step": 230
    },
    {
      "epoch": 4.71,
      "learning_rate": 1.176470588235294e-05,
      "loss": 0.9613,
      "step": 240
    },
    {
      "epoch": 4.9,
      "learning_rate": 1.2254901960784313e-05,
      "loss": 0.9572,
      "step": 250
    },
    {
      "epoch": 5.0,
      "eval_loss": 0.952890157699585,
      "eval_runtime": 2.0561,
      "eval_samples_per_second": 1108.418,
      "eval_steps_per_second": 4.377,
      "step": 255
    },
    {
      "epoch": 5.1,
      "learning_rate": 1.2745098039215686e-05,
      "loss": 0.9535,
      "step": 260
    },
    {
      "epoch": 5.29,
      "learning_rate": 1.323529411764706e-05,
      "loss": 0.9486,
      "step": 270
    },
    {
      "epoch": 5.49,
      "learning_rate": 1.3725490196078429e-05,
      "loss": 0.9442,
      "step": 280
    },
    {
      "epoch": 5.69,
      "learning_rate": 1.4215686274509802e-05,
      "loss": 0.9397,
      "step": 290
    },
    {
      "epoch": 5.88,
      "learning_rate": 1.4705882352941175e-05,
      "loss": 0.9357,
      "step": 300
    },
    {
      "epoch": 6.0,
      "eval_loss": 0.9303520917892456,
      "eval_runtime": 2.0452,
      "eval_samples_per_second": 1114.339,
      "eval_steps_per_second": 4.401,
      "step": 306
    },
    {
      "epoch": 6.08,
      "learning_rate": 1.5196078431372548e-05,
      "loss": 0.933,
      "step": 310
    },
    {
      "epoch": 6.27,
      "learning_rate": 1.568627450980392e-05,
      "loss": 0.9253,
      "step": 320
    },
    {
      "epoch": 6.47,
      "learning_rate": 1.6176470588235293e-05,
      "loss": 0.9209,
      "step": 330
    },
    {
      "epoch": 6.67,
      "learning_rate": 1.6666666666666664e-05,
      "loss": 0.9187,
      "step": 340
    },
    {
      "epoch": 6.86,
      "learning_rate": 1.7156862745098035e-05,
      "loss": 0.9128,
      "step": 350
    },
    {
      "epoch": 7.0,
      "eval_loss": 0.9099854826927185,
      "eval_runtime": 2.1224,
      "eval_samples_per_second": 1073.784,
      "eval_steps_per_second": 4.24,
      "step": 357
    },
    {
      "epoch": 7.06,
      "learning_rate": 1.764705882352941e-05,
      "loss": 0.9093,
      "step": 360
    },
    {
      "epoch": 7.25,
      "learning_rate": 1.813725490196078e-05,
      "loss": 0.9083,
      "step": 370
    },
    {
      "epoch": 7.45,
      "learning_rate": 1.8627450980392156e-05,
      "loss": 0.9076,
      "step": 380
    },
    {
      "epoch": 7.65,
      "learning_rate": 1.9117647058823528e-05,
      "loss": 0.9058,
      "step": 390
    },
    {
      "epoch": 7.84,
      "learning_rate": 1.9607843137254903e-05,
      "loss": 0.9037,
      "step": 400
    },
    {
      "epoch": 8.0,
      "eval_loss": 0.9003704786300659,
      "eval_runtime": 2.1145,
      "eval_samples_per_second": 1077.8,
      "eval_steps_per_second": 4.256,
      "step": 408
    },
    {
      "epoch": 8.04,
      "learning_rate": 2.009803921568627e-05,
      "loss": 0.9048,
      "step": 410
    },
    {
      "epoch": 8.24,
      "learning_rate": 2.058823529411765e-05,
      "loss": 0.8982,
      "step": 420
    },
    {
      "epoch": 8.43,
      "learning_rate": 2.1078431372549017e-05,
      "loss": 0.8997,
      "step": 430
    },
    {
      "epoch": 8.63,
      "learning_rate": 2.1568627450980388e-05,
      "loss": 0.8968,
      "step": 440
    },
    {
      "epoch": 8.82,
      "learning_rate": 2.2058823529411763e-05,
      "loss": 0.8984,
      "step": 450
    },
    {
      "epoch": 9.0,
      "eval_loss": 0.8941003084182739,
      "eval_runtime": 2.0854,
      "eval_samples_per_second": 1092.816,
      "eval_steps_per_second": 4.316,
      "step": 459
    },
    {
      "epoch": 9.02,
      "learning_rate": 2.2549019607843134e-05,
      "loss": 0.8978,
      "step": 460
    },
    {
      "epoch": 9.22,
      "learning_rate": 2.303921568627451e-05,
      "loss": 0.8946,
      "step": 470
    },
    {
      "epoch": 9.41,
      "learning_rate": 2.352941176470588e-05,
      "loss": 0.8958,
      "step": 480
    },
    {
      "epoch": 9.61,
      "learning_rate": 2.401960784313725e-05,
      "loss": 0.8906,
      "step": 490
    },
    {
      "epoch": 9.8,
      "learning_rate": 2.4509803921568626e-05,
      "loss": 0.8909,
      "step": 500
    },
    {
      "epoch": 10.0,
      "learning_rate": 2.4999999999999998e-05,
      "loss": 0.8904,
      "step": 510
    },
    {
      "epoch": 10.0,
      "eval_loss": 0.8895702958106995,
      "eval_runtime": 2.056,
      "eval_samples_per_second": 1108.47,
      "eval_steps_per_second": 4.377,
      "step": 510
    },
    {
      "epoch": 10.2,
      "learning_rate": 2.5490196078431373e-05,
      "loss": 0.8899,
      "step": 520
    },
    {
      "epoch": 10.39,
      "learning_rate": 2.598039215686274e-05,
      "loss": 0.8879,
      "step": 530
    },
    {
      "epoch": 10.59,
      "learning_rate": 2.647058823529412e-05,
      "loss": 0.8879,
      "step": 540
    },
    {
      "epoch": 10.78,
      "learning_rate": 2.6960784313725487e-05,
      "loss": 0.885,
      "step": 550
    },
    {
      "epoch": 10.98,
      "learning_rate": 2.7450980392156858e-05,
      "loss": 0.8846,
      "step": 560
    },
    {
      "epoch": 11.0,
      "eval_loss": 0.8801982998847961,
      "eval_runtime": 2.1061,
      "eval_samples_per_second": 1082.111,
      "eval_steps_per_second": 4.273,
      "step": 561
    },
    {
      "epoch": 11.18,
      "learning_rate": 2.7941176470588233e-05,
      "loss": 0.8806,
      "step": 570
    },
    {
      "epoch": 11.37,
      "learning_rate": 2.8431372549019604e-05,
      "loss": 0.8803,
      "step": 580
    },
    {
      "epoch": 11.57,
      "learning_rate": 2.892156862745098e-05,
      "loss": 0.8801,
      "step": 590
    },
    {
      "epoch": 11.76,
      "learning_rate": 2.941176470588235e-05,
      "loss": 0.8795,
      "step": 600
    },
    {
      "epoch": 11.96,
      "learning_rate": 2.9901960784313725e-05,
      "loss": 0.8748,
      "step": 610
    },
    {
      "epoch": 12.0,
      "eval_loss": 0.8775041699409485,
      "eval_runtime": 2.1281,
      "eval_samples_per_second": 1070.893,
      "eval_steps_per_second": 4.229,
      "step": 612
    },
    {
      "epoch": 12.16,
      "learning_rate": 3.0392156862745097e-05,
      "loss": 0.8723,
      "step": 620
    },
    {
      "epoch": 12.35,
      "learning_rate": 3.088235294117647e-05,
      "loss": 0.8733,
      "step": 630
    },
    {
      "epoch": 12.55,
      "learning_rate": 3.137254901960784e-05,
      "loss": 0.8739,
      "step": 640
    },
    {
      "epoch": 12.75,
      "learning_rate": 3.186274509803921e-05,
      "loss": 0.8722,
      "step": 650
    },
    {
      "epoch": 12.94,
      "learning_rate": 3.2352941176470585e-05,
      "loss": 0.8692,
      "step": 660
    },
    {
      "epoch": 13.0,
      "eval_loss": 0.8685004115104675,
      "eval_runtime": 2.1995,
      "eval_samples_per_second": 1036.155,
      "eval_steps_per_second": 4.092,
      "step": 663
    },
    {
      "epoch": 13.14,
      "learning_rate": 3.284313725490196e-05,
      "loss": 0.8681,
      "step": 670
    },
    {
      "epoch": 13.33,
      "learning_rate": 3.333333333333333e-05,
      "loss": 0.865,
      "step": 680
    },
    {
      "epoch": 13.53,
      "learning_rate": 3.38235294117647e-05,
      "loss": 0.8655,
      "step": 690
    },
    {
      "epoch": 13.73,
      "learning_rate": 3.431372549019607e-05,
      "loss": 0.8673,
      "step": 700
    },
    {
      "epoch": 13.92,
      "learning_rate": 3.480392156862745e-05,
      "loss": 0.8656,
      "step": 710
    },
    {
      "epoch": 14.0,
      "eval_loss": 0.866548478603363,
      "eval_runtime": 2.0997,
      "eval_samples_per_second": 1085.376,
      "eval_steps_per_second": 4.286,
      "step": 714
    },
    {
      "epoch": 14.12,
      "learning_rate": 3.529411764705882e-05,
      "loss": 0.8644,
      "step": 720
    },
    {
      "epoch": 14.31,
      "learning_rate": 3.5784313725490195e-05,
      "loss": 0.8649,
      "step": 730
    },
    {
      "epoch": 14.51,
      "learning_rate": 3.627450980392156e-05,
      "loss": 0.8648,
      "step": 740
    },
    {
      "epoch": 14.71,
      "learning_rate": 3.676470588235294e-05,
      "loss": 0.8614,
      "step": 750
    },
    {
      "epoch": 14.9,
      "learning_rate": 3.725490196078431e-05,
      "loss": 0.8634,
      "step": 760
    },
    {
      "epoch": 15.0,
      "eval_loss": 0.8607373833656311,
      "eval_runtime": 2.2131,
      "eval_samples_per_second": 1029.772,
      "eval_steps_per_second": 4.067,
      "step": 765
    },
    {
      "epoch": 15.1,
      "learning_rate": 3.774509803921568e-05,
      "loss": 0.8596,
      "step": 770
    },
    {
      "epoch": 15.29,
      "learning_rate": 3.8235294117647055e-05,
      "loss": 0.861,
      "step": 780
    },
    {
      "epoch": 15.49,
      "learning_rate": 3.872549019607843e-05,
      "loss": 0.8584,
      "step": 790
    },
    {
      "epoch": 15.69,
      "learning_rate": 3.9215686274509805e-05,
      "loss": 0.8613,
      "step": 800
    },
    {
      "epoch": 15.88,
      "learning_rate": 3.970588235294117e-05,
      "loss": 0.8565,
      "step": 810
    },
    {
      "epoch": 16.0,
      "eval_loss": 0.8560643196105957,
      "eval_runtime": 2.0515,
      "eval_samples_per_second": 1110.887,
      "eval_steps_per_second": 4.387,
      "step": 816
    },
    {
      "epoch": 16.08,
      "learning_rate": 4.019607843137254e-05,
      "loss": 0.8546,
      "step": 820
    },
    {
      "epoch": 16.27,
      "learning_rate": 4.0686274509803916e-05,
      "loss": 0.8574,
      "step": 830
    },
    {
      "epoch": 16.47,
      "learning_rate": 4.11764705882353e-05,
      "loss": 0.8572,
      "step": 840
    },
    {
      "epoch": 16.67,
      "learning_rate": 4.1666666666666665e-05,
      "loss": 0.8582,
      "step": 850
    },
    {
      "epoch": 16.86,
      "learning_rate": 4.215686274509803e-05,
      "loss": 0.8555,
      "step": 860
    },
    {
      "epoch": 17.0,
      "eval_loss": 0.8547664880752563,
      "eval_runtime": 2.1626,
      "eval_samples_per_second": 1053.802,
      "eval_steps_per_second": 4.162,
      "step": 867
    },
    {
      "epoch": 17.06,
      "learning_rate": 4.264705882352941e-05,
      "loss": 0.8562,
      "step": 870
    },
    {
      "epoch": 17.25,
      "learning_rate": 4.3137254901960776e-05,
      "loss": 0.8546,
      "step": 880
    },
    {
      "epoch": 17.45,
      "learning_rate": 4.362745098039216e-05,
      "loss": 0.8538,
      "step": 890
    },
    {
      "epoch": 17.65,
      "learning_rate": 4.4117647058823526e-05,
      "loss": 0.8529,
      "step": 900
    },
    {
      "epoch": 17.84,
      "learning_rate": 4.46078431372549e-05,
      "loss": 0.8521,
      "step": 910
    },
    {
      "epoch": 18.0,
      "eval_loss": 0.8463531732559204,
      "eval_runtime": 2.1408,
      "eval_samples_per_second": 1064.533,
      "eval_steps_per_second": 4.204,
      "step": 918
    },
    {
      "epoch": 18.04,
      "learning_rate": 4.509803921568627e-05,
      "loss": 0.8503,
      "step": 920
    },
    {
      "epoch": 18.24,
      "learning_rate": 4.5588235294117636e-05,
      "loss": 0.849,
      "step": 930
    },
    {
      "epoch": 18.43,
      "learning_rate": 4.607843137254902e-05,
      "loss": 0.8514,
      "step": 940
    },
    {
      "epoch": 18.63,
      "learning_rate": 4.6568627450980386e-05,
      "loss": 0.8518,
      "step": 950
    },
    {
      "epoch": 18.82,
      "learning_rate": 4.705882352941176e-05,
      "loss": 0.8478,
      "step": 960
    },
    {
      "epoch": 19.0,
      "eval_loss": 0.8448628783226013,
      "eval_runtime": 2.1443,
      "eval_samples_per_second": 1062.799,
      "eval_steps_per_second": 4.197,
      "step": 969
    },
    {
      "epoch": 19.02,
      "learning_rate": 4.754901960784313e-05,
      "loss": 0.8473,
      "step": 970
    },
    {
      "epoch": 19.22,
      "learning_rate": 4.80392156862745e-05,
      "loss": 0.8483,
      "step": 980
    },
    {
      "epoch": 19.41,
      "learning_rate": 4.852941176470588e-05,
      "loss": 0.8437,
      "step": 990
    },
    {
      "epoch": 19.61,
      "learning_rate": 4.901960784313725e-05,
      "loss": 0.8462,
      "step": 1000
    },
    {
      "epoch": 19.8,
      "learning_rate": 4.950980392156862e-05,
      "loss": 0.8491,
      "step": 1010
    },
    {
      "epoch": 20.0,
      "learning_rate": 4.9999999999999996e-05,
      "loss": 0.847,
      "step": 1020
    },
    {
      "epoch": 20.0,
      "eval_loss": 0.8455402255058289,
      "eval_runtime": 2.0671,
      "eval_samples_per_second": 1102.533,
      "eval_steps_per_second": 4.354,
      "step": 1020
    },
    {
      "epoch": 20.2,
      "learning_rate": 5.049019607843137e-05,
      "loss": 0.8424,
      "step": 1030
    },
    {
      "epoch": 20.39,
      "learning_rate": 5.0980392156862745e-05,
      "loss": 0.8427,
      "step": 1040
    },
    {
      "epoch": 20.59,
      "learning_rate": 5.147058823529411e-05,
      "loss": 0.8415,
      "step": 1050
    },
    {
      "epoch": 20.78,
      "learning_rate": 5.196078431372548e-05,
      "loss": 0.8443,
      "step": 1060
    },
    {
      "epoch": 20.98,
      "learning_rate": 5.2450980392156856e-05,
      "loss": 0.842,
      "step": 1070
    },
    {
      "epoch": 21.0,
      "eval_loss": 0.8377746939659119,
      "eval_runtime": 2.1007,
      "eval_samples_per_second": 1084.901,
      "eval_steps_per_second": 4.284,
      "step": 1071
    },
    {
      "epoch": 21.18,
      "learning_rate": 5.294117647058824e-05,
      "loss": 0.836,
      "step": 1080
    },
    {
      "epoch": 21.37,
      "learning_rate": 5.3431372549019605e-05,
      "loss": 0.8397,
      "step": 1090
    },
    {
      "epoch": 21.57,
      "learning_rate": 5.3921568627450973e-05,
      "loss": 0.8357,
      "step": 1100
    },
    {
      "epoch": 21.76,
      "learning_rate": 5.441176470588235e-05,
      "loss": 0.8377,
      "step": 1110
    },
    {
      "epoch": 21.96,
      "learning_rate": 5.4901960784313716e-05,
      "loss": 0.8385,
      "step": 1120
    },
    {
      "epoch": 22.0,
      "eval_loss": 0.8358024954795837,
      "eval_runtime": 2.1023,
      "eval_samples_per_second": 1084.065,
      "eval_steps_per_second": 4.281,
      "step": 1122
    },
    {
      "epoch": 22.16,
      "learning_rate": 5.53921568627451e-05,
      "loss": 0.836,
      "step": 1130
    },
    {
      "epoch": 22.35,
      "learning_rate": 5.5882352941176466e-05,
      "loss": 0.8319,
      "step": 1140
    },
    {
      "epoch": 22.55,
      "learning_rate": 5.637254901960784e-05,
      "loss": 0.8307,
      "step": 1150
    },
    {
      "epoch": 22.75,
      "learning_rate": 5.686274509803921e-05,
      "loss": 0.8343,
      "step": 1160
    },
    {
      "epoch": 22.94,
      "learning_rate": 5.7352941176470576e-05,
      "loss": 0.8319,
      "step": 1170
    },
    {
      "epoch": 23.0,
      "eval_loss": 0.8331688046455383,
      "eval_runtime": 2.1797,
      "eval_samples_per_second": 1045.554,
      "eval_steps_per_second": 4.129,
      "step": 1173
    },
    {
      "epoch": 23.14,
      "learning_rate": 5.784313725490196e-05,
      "loss": 0.8339,
      "step": 1180
    },
    {
      "epoch": 23.33,
      "learning_rate": 5.8333333333333326e-05,
      "loss": 0.8361,
      "step": 1190
    },
    {
      "epoch": 23.53,
      "learning_rate": 5.88235294117647e-05,
      "loss": 0.8297,
      "step": 1200
    },
    {
      "epoch": 23.73,
      "learning_rate": 5.931372549019607e-05,
      "loss": 0.83,
      "step": 1210
    },
    {
      "epoch": 23.92,
      "learning_rate": 5.980392156862745e-05,
      "loss": 0.8267,
      "step": 1220
    },
    {
      "epoch": 24.0,
      "eval_loss": 0.8347041606903076,
      "eval_runtime": 2.0517,
      "eval_samples_per_second": 1110.806,
      "eval_steps_per_second": 4.387,
      "step": 1224
    },
    {
      "epoch": 24.12,
      "learning_rate": 6.029411764705882e-05,
      "loss": 0.8316,
      "step": 1230
    },
    {
      "epoch": 24.31,
      "learning_rate": 6.078431372549019e-05,
      "loss": 0.825,
      "step": 1240
    },
    {
      "epoch": 24.51,
      "learning_rate": 6.127450980392157e-05,
      "loss": 0.8269,
      "step": 1250
    },
    {
      "epoch": 24.71,
      "learning_rate": 6.176470588235294e-05,
      "loss": 0.8267,
      "step": 1260
    },
    {
      "epoch": 24.9,
      "learning_rate": 6.225490196078432e-05,
      "loss": 0.8266,
      "step": 1270
    },
    {
      "epoch": 25.0,
      "eval_loss": 0.8246671557426453,
      "eval_runtime": 2.0855,
      "eval_samples_per_second": 1092.759,
      "eval_steps_per_second": 4.315,
      "step": 1275
    },
    {
      "epoch": 25.1,
      "learning_rate": 6.274509803921569e-05,
      "loss": 0.8247,
      "step": 1280
    },
    {
      "epoch": 25.29,
      "learning_rate": 6.323529411764705e-05,
      "loss": 0.8223,
      "step": 1290
    },
    {
      "epoch": 25.49,
      "learning_rate": 6.372549019607842e-05,
      "loss": 0.822,
      "step": 1300
    },
    {
      "epoch": 25.69,
      "learning_rate": 6.421568627450979e-05,
      "loss": 0.8234,
      "step": 1310
    },
    {
      "epoch": 25.88,
      "learning_rate": 6.470588235294117e-05,
      "loss": 0.8242,
      "step": 1320
    },
    {
      "epoch": 26.0,
      "eval_loss": 0.8241580128669739,
      "eval_runtime": 2.044,
      "eval_samples_per_second": 1114.944,
      "eval_steps_per_second": 4.403,
      "step": 1326
    },
    {
      "epoch": 26.08,
      "learning_rate": 6.519607843137254e-05,
      "loss": 0.8246,
      "step": 1330
    },
    {
      "epoch": 26.27,
      "learning_rate": 6.568627450980392e-05,
      "loss": 0.8212,
      "step": 1340
    },
    {
      "epoch": 26.47,
      "learning_rate": 6.617647058823529e-05,
      "loss": 0.8264,
      "step": 1350
    },
    {
      "epoch": 26.67,
      "learning_rate": 6.666666666666666e-05,
      "loss": 0.8215,
      "step": 1360
    },
    {
      "epoch": 26.86,
      "learning_rate": 6.715686274509804e-05,
      "loss": 0.8215,
      "step": 1370
    },
    {
      "epoch": 27.0,
      "eval_loss": 0.8191553354263306,
      "eval_runtime": 2.1872,
      "eval_samples_per_second": 1041.969,
      "eval_steps_per_second": 4.115,
      "step": 1377
    },
    {
      "epoch": 27.06,
      "learning_rate": 6.76470588235294e-05,
      "loss": 0.8234,
      "step": 1380
    },
    {
      "epoch": 27.25,
      "learning_rate": 6.813725490196077e-05,
      "loss": 0.8182,
      "step": 1390
    },
    {
      "epoch": 27.45,
      "learning_rate": 6.862745098039214e-05,
      "loss": 0.8173,
      "step": 1400
    },
    {
      "epoch": 27.65,
      "learning_rate": 6.911764705882352e-05,
      "loss": 0.816,
      "step": 1410
    },
    {
      "epoch": 27.84,
      "learning_rate": 6.96078431372549e-05,
      "loss": 0.8171,
      "step": 1420
    },
    {
      "epoch": 28.0,
      "eval_loss": 0.8213248252868652,
      "eval_runtime": 2.2192,
      "eval_samples_per_second": 1026.926,
      "eval_steps_per_second": 4.055,
      "step": 1428
    },
    {
      "epoch": 28.04,
      "learning_rate": 7.009803921568627e-05,
      "loss": 0.8199,
      "step": 1430
    },
    {
      "epoch": 28.24,
      "learning_rate": 7.058823529411764e-05,
      "loss": 0.8202,
      "step": 1440
    },
    {
      "epoch": 28.43,
      "learning_rate": 7.107843137254901e-05,
      "loss": 0.8149,
      "step": 1450
    },
    {
      "epoch": 28.63,
      "learning_rate": 7.156862745098039e-05,
      "loss": 0.8163,
      "step": 1460
    },
    {
      "epoch": 28.82,
      "learning_rate": 7.205882352941176e-05,
      "loss": 0.8176,
      "step": 1470
    },
    {
      "epoch": 29.0,
      "eval_loss": 0.8160317540168762,
      "eval_runtime": 2.1369,
      "eval_samples_per_second": 1066.475,
      "eval_steps_per_second": 4.212,
      "step": 1479
    },
    {
      "epoch": 29.02,
      "learning_rate": 7.254901960784313e-05,
      "loss": 0.8171,
      "step": 1480
    },
    {
      "epoch": 29.22,
      "learning_rate": 7.303921568627451e-05,
      "loss": 0.8171,
      "step": 1490
    },
    {
      "epoch": 29.41,
      "learning_rate": 7.352941176470588e-05,
      "loss": 0.8127,
      "step": 1500
    },
    {
      "epoch": 29.61,
      "learning_rate": 7.401960784313726e-05,
      "loss": 0.8192,
      "step": 1510
    },
    {
      "epoch": 29.8,
      "learning_rate": 7.450980392156863e-05,
      "loss": 0.8142,
      "step": 1520
    },
    {
      "epoch": 30.0,
      "learning_rate": 7.5e-05,
      "loss": 0.8122,
      "step": 1530
    },
    {
      "epoch": 30.0,
      "eval_loss": 0.8127588629722595,
      "eval_runtime": 2.1677,
      "eval_samples_per_second": 1051.341,
      "eval_steps_per_second": 4.152,
      "step": 1530
    },
    {
      "epoch": 30.2,
      "learning_rate": 7.549019607843136e-05,
      "loss": 0.8164,
      "step": 1540
    },
    {
      "epoch": 30.39,
      "learning_rate": 7.598039215686273e-05,
      "loss": 0.8143,
      "step": 1550
    },
    {
      "epoch": 30.59,
      "learning_rate": 7.647058823529411e-05,
      "loss": 0.8113,
      "step": 1560
    },
    {
      "epoch": 30.78,
      "learning_rate": 7.696078431372548e-05,
      "loss": 0.8075,
      "step": 1570
    },
    {
      "epoch": 30.98,
      "learning_rate": 7.745098039215686e-05,
      "loss": 0.8107,
      "step": 1580
    },
    {
      "epoch": 31.0,
      "eval_loss": 0.803588330745697,
      "eval_runtime": 2.1888,
      "eval_samples_per_second": 1041.189,
      "eval_steps_per_second": 4.112,
      "step": 1581
    },
    {
      "epoch": 31.18,
      "learning_rate": 7.794117647058823e-05,
      "loss": 0.8038,
      "step": 1590
    },
    {
      "epoch": 31.37,
      "learning_rate": 7.843137254901961e-05,
      "loss": 0.8105,
      "step": 1600
    },
    {
      "epoch": 31.57,
      "learning_rate": 7.892156862745098e-05,
      "loss": 0.8057,
      "step": 1610
    },
    {
      "epoch": 31.76,
      "learning_rate": 7.941176470588235e-05,
      "loss": 0.8085,
      "step": 1620
    },
    {
      "epoch": 31.96,
      "learning_rate": 7.990196078431371e-05,
      "loss": 0.8069,
      "step": 1630
    },
    {
      "epoch": 32.0,
      "eval_loss": 0.8068580031394958,
      "eval_runtime": 2.182,
      "eval_samples_per_second": 1044.445,
      "eval_steps_per_second": 4.125,
      "step": 1632
    },
    {
      "epoch": 32.16,
      "learning_rate": 8.039215686274508e-05,
      "loss": 0.8078,
      "step": 1640
    },
    {
      "epoch": 32.35,
      "learning_rate": 8.088235294117646e-05,
      "loss": 0.8101,
      "step": 1650
    },
    {
      "epoch": 32.55,
      "learning_rate": 8.137254901960783e-05,
      "loss": 0.8126,
      "step": 1660
    },
    {
      "epoch": 32.75,
      "learning_rate": 8.18627450980392e-05,
      "loss": 0.8108,
      "step": 1670
    },
    {
      "epoch": 32.94,
      "learning_rate": 8.23529411764706e-05,
      "loss": 0.8081,
      "step": 1680
    },
    {
      "epoch": 33.0,
      "eval_loss": 0.8022666573524475,
      "eval_runtime": 2.2411,
      "eval_samples_per_second": 1016.898,
      "eval_steps_per_second": 4.016,
      "step": 1683
    },
    {
      "epoch": 33.14,
      "learning_rate": 8.284313725490196e-05,
      "loss": 0.8091,
      "step": 1690
    },
    {
      "epoch": 33.33,
      "learning_rate": 8.333333333333333e-05,
      "loss": 0.8027,
      "step": 1700
    },
    {
      "epoch": 33.53,
      "learning_rate": 8.38235294117647e-05,
      "loss": 0.8029,
      "step": 1710
    },
    {
      "epoch": 33.73,
      "learning_rate": 8.431372549019607e-05,
      "loss": 0.8044,
      "step": 1720
    },
    {
      "epoch": 33.92,
      "learning_rate": 8.480392156862745e-05,
      "loss": 0.8043,
      "step": 1730
    },
    {
      "epoch": 34.0,
      "eval_loss": 0.8047605752944946,
      "eval_runtime": 2.0682,
      "eval_samples_per_second": 1101.943,
      "eval_steps_per_second": 4.352,
      "step": 1734
    },
    {
      "epoch": 34.12,
      "learning_rate": 8.529411764705882e-05,
      "loss": 0.8112,
      "step": 1740
    },
    {
      "epoch": 34.31,
      "learning_rate": 8.578431372549018e-05,
      "loss": 0.8091,
      "step": 1750
    },
    {
      "epoch": 34.51,
      "learning_rate": 8.627450980392155e-05,
      "loss": 0.8104,
      "step": 1760
    },
    {
      "epoch": 34.71,
      "learning_rate": 8.676470588235295e-05,
      "loss": 0.8062,
      "step": 1770
    },
    {
      "epoch": 34.9,
      "learning_rate": 8.725490196078432e-05,
      "loss": 0.8071,
      "step": 1780
    },
    {
      "epoch": 35.0,
      "eval_loss": 0.8082063794136047,
      "eval_runtime": 2.0463,
      "eval_samples_per_second": 1113.701,
      "eval_steps_per_second": 4.398,
      "step": 1785
    },
    {
      "epoch": 35.1,
      "learning_rate": 8.774509803921568e-05,
      "loss": 0.8066,
      "step": 1790
    },
    {
      "epoch": 35.29,
      "learning_rate": 8.823529411764705e-05,
      "loss": 0.8041,
      "step": 1800
    },
    {
      "epoch": 35.49,
      "learning_rate": 8.872549019607842e-05,
      "loss": 0.8009,
      "step": 1810
    },
    {
      "epoch": 35.69,
      "learning_rate": 8.92156862745098e-05,
      "loss": 0.7993,
      "step": 1820
    },
    {
      "epoch": 35.88,
      "learning_rate": 8.970588235294117e-05,
      "loss": 0.8017,
      "step": 1830
    },
    {
      "epoch": 36.0,
      "eval_loss": 0.7971303462982178,
      "eval_runtime": 2.1621,
      "eval_samples_per_second": 1054.087,
      "eval_steps_per_second": 4.163,
      "step": 1836
    },
    {
      "epoch": 36.08,
      "learning_rate": 9.019607843137254e-05,
      "loss": 0.7994,
      "step": 1840
    },
    {
      "epoch": 36.27,
      "learning_rate": 9.06862745098039e-05,
      "loss": 0.7953,
      "step": 1850
    },
    {
      "epoch": 36.47,
      "learning_rate": 9.117647058823527e-05,
      "loss": 0.8009,
      "step": 1860
    },
    {
      "epoch": 36.67,
      "learning_rate": 9.166666666666667e-05,
      "loss": 0.7986,
      "step": 1870
    },
    {
      "epoch": 36.86,
      "learning_rate": 9.215686274509804e-05,
      "loss": 0.7965,
      "step": 1880
    },
    {
      "epoch": 37.0,
      "eval_loss": 0.7953115105628967,
      "eval_runtime": 2.096,
      "eval_samples_per_second": 1087.315,
      "eval_steps_per_second": 4.294,
      "step": 1887
    },
    {
      "epoch": 37.06,
      "learning_rate": 9.26470588235294e-05,
      "loss": 0.7974,
      "step": 1890
    },
    {
      "epoch": 37.25,
      "learning_rate": 9.313725490196077e-05,
      "loss": 0.7956,
      "step": 1900
    },
    {
      "epoch": 37.45,
      "learning_rate": 9.362745098039215e-05,
      "loss": 0.7954,
      "step": 1910
    },
    {
      "epoch": 37.65,
      "learning_rate": 9.411764705882352e-05,
      "loss": 0.7934,
      "step": 1920
    },
    {
      "epoch": 37.84,
      "learning_rate": 9.460784313725489e-05,
      "loss": 0.7953,
      "step": 1930
    },
    {
      "epoch": 38.0,
      "eval_loss": 0.8111655712127686,
      "eval_runtime": 2.1785,
      "eval_samples_per_second": 1046.146,
      "eval_steps_per_second": 4.131,
      "step": 1938
    },
    {
      "epoch": 38.04,
      "learning_rate": 9.509803921568626e-05,
      "loss": 0.7976,
      "step": 1940
    },
    {
      "epoch": 38.24,
      "learning_rate": 9.558823529411764e-05,
      "loss": 0.8007,
      "step": 1950
    },
    {
      "epoch": 38.43,
      "learning_rate": 9.6078431372549e-05,
      "loss": 0.8014,
      "step": 1960
    },
    {
      "epoch": 38.63,
      "learning_rate": 9.656862745098039e-05,
      "loss": 0.7939,
      "step": 1970
    },
    {
      "epoch": 38.82,
      "learning_rate": 9.705882352941176e-05,
      "loss": 0.7979,
      "step": 1980
    },
    {
      "epoch": 39.0,
      "eval_loss": 0.7954539656639099,
      "eval_runtime": 2.1921,
      "eval_samples_per_second": 1039.635,
      "eval_steps_per_second": 4.106,
      "step": 1989
    },
    {
      "epoch": 39.02,
      "learning_rate": 9.754901960784314e-05,
      "loss": 0.7966,
      "step": 1990
    },
    {
      "epoch": 39.22,
      "learning_rate": 9.80392156862745e-05,
      "loss": 0.792,
      "step": 2000
    },
    {
      "epoch": 39.41,
      "learning_rate": 9.852941176470587e-05,
      "loss": 0.7913,
      "step": 2010
    },
    {
      "epoch": 39.61,
      "learning_rate": 9.901960784313724e-05,
      "loss": 0.7892,
      "step": 2020
    },
    {
      "epoch": 39.8,
      "learning_rate": 9.950980392156861e-05,
      "loss": 0.7892,
      "step": 2030
    },
    {
      "epoch": 40.0,
      "learning_rate": 9.999999999999999e-05,
      "loss": 0.7887,
      "step": 2040
    },
    {
      "epoch": 40.0,
      "eval_loss": 0.7966196537017822,
      "eval_runtime": 2.1656,
      "eval_samples_per_second": 1052.34,
      "eval_steps_per_second": 4.156,
      "step": 2040
    },
    {
      "epoch": 40.2,
      "learning_rate": 0.00010049019607843136,
      "loss": 0.7982,
      "step": 2050
    },
    {
      "epoch": 40.39,
      "learning_rate": 0.00010098039215686274,
      "loss": 0.7965,
      "step": 2060
    },
    {
      "epoch": 40.59,
      "learning_rate": 0.00010147058823529411,
      "loss": 0.7897,
      "step": 2070
    },
    {
      "epoch": 40.78,
      "learning_rate": 0.00010196078431372549,
      "loss": 0.7892,
      "step": 2080
    },
    {
      "epoch": 40.98,
      "learning_rate": 0.00010245098039215686,
      "loss": 0.7866,
      "step": 2090
    },
    {
      "epoch": 41.0,
      "eval_loss": 0.7878917455673218,
      "eval_runtime": 2.1957,
      "eval_samples_per_second": 1037.957,
      "eval_steps_per_second": 4.099,
      "step": 2091
    },
    {
      "epoch": 41.18,
      "learning_rate": 0.00010294117647058823,
      "loss": 0.7895,
      "step": 2100
    },
    {
      "epoch": 41.37,
      "learning_rate": 0.0001034313725490196,
      "loss": 0.7871,
      "step": 2110
    },
    {
      "epoch": 41.57,
      "learning_rate": 0.00010392156862745096,
      "loss": 0.785,
      "step": 2120
    },
    {
      "epoch": 41.76,
      "learning_rate": 0.00010441176470588234,
      "loss": 0.7827,
      "step": 2130
    },
    {
      "epoch": 41.96,
      "learning_rate": 0.00010490196078431371,
      "loss": 0.7862,
      "step": 2140
    },
    {
      "epoch": 42.0,
      "eval_loss": 0.7828369736671448,
      "eval_runtime": 2.2171,
      "eval_samples_per_second": 1027.911,
      "eval_steps_per_second": 4.059,
      "step": 2142
    },
    {
      "epoch": 42.16,
      "learning_rate": 0.00010539215686274508,
      "loss": 0.7855,
      "step": 2150
    },
    {
      "epoch": 42.35,
      "learning_rate": 0.00010588235294117647,
      "loss": 0.785,
      "step": 2160
    },
    {
      "epoch": 42.55,
      "learning_rate": 0.00010637254901960784,
      "loss": 0.7865,
      "step": 2170
    },
    {
      "epoch": 42.75,
      "learning_rate": 0.00010686274509803921,
      "loss": 0.7823,
      "step": 2180
    },
    {
      "epoch": 42.94,
      "learning_rate": 0.00010735294117647058,
      "loss": 0.7836,
      "step": 2190
    },
    {
      "epoch": 43.0,
      "eval_loss": 0.7864591479301453,
      "eval_runtime": 2.1233,
      "eval_samples_per_second": 1073.307,
      "eval_steps_per_second": 4.239,
      "step": 2193
    },
    {
      "epoch": 43.14,
      "learning_rate": 0.00010784313725490195,
      "loss": 0.7888,
      "step": 2200
    },
    {
      "epoch": 43.33,
      "learning_rate": 0.00010833333333333333,
      "loss": 0.7871,
      "step": 2210
    },
    {
      "epoch": 43.53,
      "learning_rate": 0.0001088235294117647,
      "loss": 0.7861,
      "step": 2220
    },
    {
      "epoch": 43.73,
      "learning_rate": 0.00010931372549019606,
      "loss": 0.7843,
      "step": 2230
    },
    {
      "epoch": 43.92,
      "learning_rate": 0.00010980392156862743,
      "loss": 0.7851,
      "step": 2240
    },
    {
      "epoch": 44.0,
      "eval_loss": 0.7829829454421997,
      "eval_runtime": 2.1348,
      "eval_samples_per_second": 1067.557,
      "eval_steps_per_second": 4.216,
      "step": 2244
    },
    {
      "epoch": 44.12,
      "learning_rate": 0.00011029411764705883,
      "loss": 0.784,
      "step": 2250
    },
    {
      "epoch": 44.31,
      "learning_rate": 0.0001107843137254902,
      "loss": 0.784,
      "step": 2260
    },
    {
      "epoch": 44.51,
      "learning_rate": 0.00011127450980392156,
      "loss": 0.785,
      "step": 2270
    },
    {
      "epoch": 44.71,
      "learning_rate": 0.00011176470588235293,
      "loss": 0.7807,
      "step": 2280
    },
    {
      "epoch": 44.9,
      "learning_rate": 0.0001122549019607843,
      "loss": 0.7813,
      "step": 2290
    },
    {
      "epoch": 45.0,
      "eval_loss": 0.7840399146080017,
      "eval_runtime": 2.1519,
      "eval_samples_per_second": 1059.088,
      "eval_steps_per_second": 4.182,
      "step": 2295
    },
    {
      "epoch": 45.1,
      "learning_rate": 0.00011274509803921568,
      "loss": 0.7796,
      "step": 2300
    },
    {
      "epoch": 45.29,
      "learning_rate": 0.00011323529411764705,
      "loss": 0.7796,
      "step": 2310
    },
    {
      "epoch": 45.49,
      "learning_rate": 0.00011372549019607842,
      "loss": 0.7776,
      "step": 2320
    },
    {
      "epoch": 45.69,
      "learning_rate": 0.00011421568627450978,
      "loss": 0.7792,
      "step": 2330
    },
    {
      "epoch": 45.88,
      "learning_rate": 0.00011470588235294115,
      "loss": 0.78,
      "step": 2340
    },
    {
      "epoch": 46.0,
      "eval_loss": 0.7749137878417969,
      "eval_runtime": 2.1918,
      "eval_samples_per_second": 1039.761,
      "eval_steps_per_second": 4.106,
      "step": 2346
    },
    {
      "epoch": 46.08,
      "learning_rate": 0.00011519607843137255,
      "loss": 0.7761,
      "step": 2350
    },
    {
      "epoch": 46.27,
      "learning_rate": 0.00011568627450980392,
      "loss": 0.7747,
      "step": 2360
    },
    {
      "epoch": 46.47,
      "learning_rate": 0.00011617647058823528,
      "loss": 0.772,
      "step": 2370
    },
    {
      "epoch": 46.67,
      "learning_rate": 0.00011666666666666665,
      "loss": 0.7748,
      "step": 2380
    },
    {
      "epoch": 46.86,
      "learning_rate": 0.00011715686274509803,
      "loss": 0.779,
      "step": 2390
    },
    {
      "epoch": 47.0,
      "eval_loss": 0.7824994325637817,
      "eval_runtime": 2.077,
      "eval_samples_per_second": 1097.254,
      "eval_steps_per_second": 4.333,
      "step": 2397
    },
    {
      "epoch": 47.06,
      "learning_rate": 0.0001176470588235294,
      "loss": 0.7811,
      "step": 2400
    },
    {
      "epoch": 47.25,
      "learning_rate": 0.00011813725490196077,
      "loss": 0.7817,
      "step": 2410
    },
    {
      "epoch": 47.45,
      "learning_rate": 0.00011862745098039214,
      "loss": 0.7805,
      "step": 2420
    },
    {
      "epoch": 47.65,
      "learning_rate": 0.0001191176470588235,
      "loss": 0.7783,
      "step": 2430
    },
    {
      "epoch": 47.84,
      "learning_rate": 0.0001196078431372549,
      "loss": 0.7762,
      "step": 2440
    },
    {
      "epoch": 48.0,
      "eval_loss": 0.7712346911430359,
      "eval_runtime": 2.1789,
      "eval_samples_per_second": 1045.947,
      "eval_steps_per_second": 4.131,
      "step": 2448
    },
    {
      "epoch": 48.04,
      "learning_rate": 0.00012009803921568627,
      "loss": 0.7758,
      "step": 2450
    },
    {
      "epoch": 48.24,
      "learning_rate": 0.00012058823529411764,
      "loss": 0.7734,
      "step": 2460
    },
    {
      "epoch": 48.43,
      "learning_rate": 0.00012107843137254902,
      "loss": 0.7697,
      "step": 2470
    },
    {
      "epoch": 48.63,
      "learning_rate": 0.00012156862745098039,
      "loss": 0.7663,
      "step": 2480
    },
    {
      "epoch": 48.82,
      "learning_rate": 0.00012205882352941175,
      "loss": 0.7676,
      "step": 2490
    },
    {
      "epoch": 49.0,
      "eval_loss": 0.7674837112426758,
      "eval_runtime": 2.1122,
      "eval_samples_per_second": 1078.947,
      "eval_steps_per_second": 4.261,
      "step": 2499
    },
    {
      "epoch": 49.02,
      "learning_rate": 0.00012254901960784314,
      "loss": 0.7657,
      "step": 2500
    },
    {
      "epoch": 49.22,
      "learning_rate": 0.0001230392156862745,
      "loss": 0.7671,
      "step": 2510
    },
    {
      "epoch": 49.41,
      "learning_rate": 0.00012352941176470587,
      "loss": 0.7691,
      "step": 2520
    },
    {
      "epoch": 49.61,
      "learning_rate": 0.00012401960784313724,
      "loss": 0.7623,
      "step": 2530
    },
    {
      "epoch": 49.8,
      "learning_rate": 0.00012450980392156863,
      "loss": 0.7683,
      "step": 2540
    },
    {
      "epoch": 50.0,
      "learning_rate": 0.000125,
      "loss": 0.7638,
      "step": 2550
    },
    {
      "epoch": 50.0,
      "eval_loss": 0.7645083069801331,
      "eval_runtime": 2.1712,
      "eval_samples_per_second": 1049.658,
      "eval_steps_per_second": 4.145,
      "step": 2550
    },
    {
      "epoch": 50.2,
      "learning_rate": 0.00012549019607843137,
      "loss": 0.7679,
      "step": 2560
    },
    {
      "epoch": 50.39,
      "learning_rate": 0.00012598039215686274,
      "loss": 0.7716,
      "step": 2570
    },
    {
      "epoch": 50.59,
      "learning_rate": 0.0001264705882352941,
      "loss": 0.772,
      "step": 2580
    },
    {
      "epoch": 50.78,
      "learning_rate": 0.00012696078431372547,
      "loss": 0.7757,
      "step": 2590
    },
    {
      "epoch": 50.98,
      "learning_rate": 0.00012745098039215684,
      "loss": 0.7826,
      "step": 2600
    },
    {
      "epoch": 51.0,
      "eval_loss": 0.7879320979118347,
      "eval_runtime": 2.139,
      "eval_samples_per_second": 1065.46,
      "eval_steps_per_second": 4.208,
      "step": 2601
    },
    {
      "epoch": 51.18,
      "learning_rate": 0.0001279411764705882,
      "loss": 0.7886,
      "step": 2610
    },
    {
      "epoch": 51.37,
      "learning_rate": 0.00012843137254901958,
      "loss": 0.7883,
      "step": 2620
    },
    {
      "epoch": 51.57,
      "learning_rate": 0.00012892156862745097,
      "loss": 0.7851,
      "step": 2630
    },
    {
      "epoch": 51.76,
      "learning_rate": 0.00012941176470588234,
      "loss": 0.7797,
      "step": 2640
    },
    {
      "epoch": 51.96,
      "learning_rate": 0.0001299019607843137,
      "loss": 0.7728,
      "step": 2650
    },
    {
      "epoch": 52.0,
      "eval_loss": 0.7729543447494507,
      "eval_runtime": 2.2366,
      "eval_samples_per_second": 1018.972,
      "eval_steps_per_second": 4.024,
      "step": 2652
    },
    {
      "epoch": 52.16,
      "learning_rate": 0.00013039215686274508,
      "loss": 0.7681,
      "step": 2660
    },
    {
      "epoch": 52.35,
      "learning_rate": 0.00013088235294117647,
      "loss": 0.7614,
      "step": 2670
    },
    {
      "epoch": 52.55,
      "learning_rate": 0.00013137254901960784,
      "loss": 0.7626,
      "step": 2680
    },
    {
      "epoch": 52.75,
      "learning_rate": 0.0001318627450980392,
      "loss": 0.7621,
      "step": 2690
    },
    {
      "epoch": 52.94,
      "learning_rate": 0.00013235294117647058,
      "loss": 0.7629,
      "step": 2700
    },
    {
      "epoch": 53.0,
      "eval_loss": 0.7606103420257568,
      "eval_runtime": 2.2103,
      "eval_samples_per_second": 1031.088,
      "eval_steps_per_second": 4.072,
      "step": 2703
    },
    {
      "epoch": 53.14,
      "learning_rate": 0.00013284313725490194,
      "loss": 0.7619,
      "step": 2710
    },
    {
      "epoch": 53.33,
      "learning_rate": 0.0001333333333333333,
      "loss": 0.7705,
      "step": 2720
    },
    {
      "epoch": 53.53,
      "learning_rate": 0.0001338235294117647,
      "loss": 0.7831,
      "step": 2730
    },
    {
      "epoch": 53.73,
      "learning_rate": 0.00013431372549019608,
      "loss": 0.7841,
      "step": 2740
    },
    {
      "epoch": 53.92,
      "learning_rate": 0.00013480392156862744,
      "loss": 0.7819,
      "step": 2750
    },
    {
      "epoch": 54.0,
      "eval_loss": 0.7718145847320557,
      "eval_runtime": 2.0561,
      "eval_samples_per_second": 1108.406,
      "eval_steps_per_second": 4.377,
      "step": 2754
    },
    {
      "epoch": 54.12,
      "learning_rate": 0.0001352941176470588,
      "loss": 0.7737,
      "step": 2760
    },
    {
      "epoch": 54.31,
      "learning_rate": 0.00013578431372549018,
      "loss": 0.7763,
      "step": 2770
    },
    {
      "epoch": 54.51,
      "learning_rate": 0.00013627450980392155,
      "loss": 0.7791,
      "step": 2780
    },
    {
      "epoch": 54.71,
      "learning_rate": 0.00013676470588235292,
      "loss": 0.7741,
      "step": 2790
    },
    {
      "epoch": 54.9,
      "learning_rate": 0.00013725490196078428,
      "loss": 0.7802,
      "step": 2800
    },
    {
      "epoch": 55.0,
      "eval_loss": 0.7808622121810913,
      "eval_runtime": 2.1507,
      "eval_samples_per_second": 1059.636,
      "eval_steps_per_second": 4.185,
      "step": 2805
    },
    {
      "epoch": 55.1,
      "learning_rate": 0.00013774509803921568,
      "loss": 0.7777,
      "step": 2810
    },
    {
      "epoch": 55.29,
      "learning_rate": 0.00013823529411764705,
      "loss": 0.781,
      "step": 2820
    },
    {
      "epoch": 55.49,
      "learning_rate": 0.00013872549019607841,
      "loss": 0.7691,
      "step": 2830
    },
    {
      "epoch": 55.69,
      "learning_rate": 0.0001392156862745098,
      "loss": 0.7677,
      "step": 2840
    },
    {
      "epoch": 55.88,
      "learning_rate": 0.00013970588235294118,
      "loss": 0.7632,
      "step": 2850
    },
    {
      "epoch": 56.0,
      "eval_loss": 0.7576876878738403,
      "eval_runtime": 2.1386,
      "eval_samples_per_second": 1065.672,
      "eval_steps_per_second": 4.208,
      "step": 2856
    },
    {
      "epoch": 56.08,
      "learning_rate": 0.00014019607843137255,
      "loss": 0.7594,
      "step": 2860
    },
    {
      "epoch": 56.27,
      "learning_rate": 0.00014068627450980391,
      "loss": 0.7557,
      "step": 2870
    },
    {
      "epoch": 56.47,
      "learning_rate": 0.00014117647058823528,
      "loss": 0.7603,
      "step": 2880
    },
    {
      "epoch": 56.67,
      "learning_rate": 0.00014166666666666665,
      "loss": 0.7581,
      "step": 2890
    },
    {
      "epoch": 56.86,
      "learning_rate": 0.00014215686274509802,
      "loss": 0.7567,
      "step": 2900
    },
    {
      "epoch": 57.0,
      "eval_loss": 0.7653807401657104,
      "eval_runtime": 2.1852,
      "eval_samples_per_second": 1042.923,
      "eval_steps_per_second": 4.119,
      "step": 2907
    },
    {
      "epoch": 57.06,
      "learning_rate": 0.00014264705882352939,
      "loss": 0.7603,
      "step": 2910
    },
    {
      "epoch": 57.25,
      "learning_rate": 0.00014313725490196078,
      "loss": 0.7607,
      "step": 2920
    },
    {
      "epoch": 57.45,
      "learning_rate": 0.00014362745098039215,
      "loss": 0.759,
      "step": 2930
    },
    {
      "epoch": 57.65,
      "learning_rate": 0.00014411764705882352,
      "loss": 0.7567,
      "step": 2940
    },
    {
      "epoch": 57.84,
      "learning_rate": 0.00014460784313725488,
      "loss": 0.7564,
      "step": 2950
    },
    {
      "epoch": 58.0,
      "eval_loss": 0.7573947906494141,
      "eval_runtime": 2.2323,
      "eval_samples_per_second": 1020.928,
      "eval_steps_per_second": 4.032,
      "step": 2958
    },
    {
      "epoch": 58.04,
      "learning_rate": 0.00014509803921568625,
      "loss": 0.7568,
      "step": 2960
    },
    {
      "epoch": 58.24,
      "learning_rate": 0.00014558823529411762,
      "loss": 0.7602,
      "step": 2970
    },
    {
      "epoch": 58.43,
      "learning_rate": 0.00014607843137254902,
      "loss": 0.7537,
      "step": 2980
    },
    {
      "epoch": 58.63,
      "learning_rate": 0.00014656862745098038,
      "loss": 0.752,
      "step": 2990
    },
    {
      "epoch": 58.82,
      "learning_rate": 0.00014705882352941175,
      "loss": 0.7535,
      "step": 3000
    },
    {
      "epoch": 59.0,
      "eval_loss": 0.755523145198822,
      "eval_runtime": 2.1203,
      "eval_samples_per_second": 1074.859,
      "eval_steps_per_second": 4.245,
      "step": 3009
    },
    {
      "epoch": 59.02,
      "learning_rate": 0.00014754901960784312,
      "loss": 0.7549,
      "step": 3010
    },
    {
      "epoch": 59.22,
      "learning_rate": 0.00014803921568627451,
      "loss": 0.7576,
      "step": 3020
    },
    {
      "epoch": 59.41,
      "learning_rate": 0.00014852941176470588,
      "loss": 0.7449,
      "step": 3030
    },
    {
      "epoch": 59.61,
      "learning_rate": 0.00014901960784313725,
      "loss": 0.75,
      "step": 3040
    },
    {
      "epoch": 59.8,
      "learning_rate": 0.00014950980392156862,
      "loss": 0.7489,
      "step": 3050
    },
    {
      "epoch": 60.0,
      "learning_rate": 0.00015,
      "loss": 0.75,
      "step": 3060
    },
    {
      "epoch": 60.0,
      "eval_loss": 0.7484251856803894,
      "eval_runtime": 2.2273,
      "eval_samples_per_second": 1023.23,
      "eval_steps_per_second": 4.041,
      "step": 3060
    },
    {
      "epoch": 60.2,
      "learning_rate": 0.00014999998905083632,
      "loss": 0.7529,
      "step": 3070
    },
    {
      "epoch": 60.39,
      "learning_rate": 0.00014999995620334851,
      "loss": 0.7475,
      "step": 3080
    },
    {
      "epoch": 60.59,
      "learning_rate": 0.00014999990145754617,
      "loss": 0.7475,
      "step": 3090
    },
    {
      "epoch": 60.78,
      "learning_rate": 0.00014999982481344522,
      "loss": 0.7475,
      "step": 3100
    },
    {
      "epoch": 60.98,
      "learning_rate": 0.0001499997262710681,
      "loss": 0.7512,
      "step": 3110
    },
    {
      "epoch": 61.0,
      "eval_loss": 0.7487233877182007,
      "eval_runtime": 2.2297,
      "eval_samples_per_second": 1022.1,
      "eval_steps_per_second": 4.036,
      "step": 3111
    },
    {
      "epoch": 61.18,
      "learning_rate": 0.0001499996058304436,
      "loss": 0.7474,
      "step": 3120
    },
    {
      "epoch": 61.37,
      "learning_rate": 0.0001499994634916068,
      "loss": 0.7481,
      "step": 3130
    },
    {
      "epoch": 61.57,
      "learning_rate": 0.00014999929925459934,
      "loss": 0.7491,
      "step": 3140
    },
    {
      "epoch": 61.76,
      "learning_rate": 0.00014999911311946914,
      "loss": 0.757,
      "step": 3150
    },
    {
      "epoch": 61.96,
      "learning_rate": 0.00014999890508627056,
      "loss": 0.7493,
      "step": 3160
    },
    {
      "epoch": 62.0,
      "eval_loss": 0.7462049722671509,
      "eval_runtime": 2.0885,
      "eval_samples_per_second": 1091.196,
      "eval_steps_per_second": 4.309,
      "step": 3162
    },
    {
      "epoch": 62.16,
      "learning_rate": 0.00014999867515506433,
      "loss": 0.7456,
      "step": 3170
    },
    {
      "epoch": 62.35,
      "learning_rate": 0.00014999842332591757,
      "loss": 0.747,
      "step": 3180
    },
    {
      "epoch": 62.55,
      "learning_rate": 0.00014999814959890383,
      "loss": 0.741,
      "step": 3190
    },
    {
      "epoch": 62.75,
      "learning_rate": 0.00014999785397410304,
      "loss": 0.7395,
      "step": 3200
    },
    {
      "epoch": 62.94,
      "learning_rate": 0.0001499975364516015,
      "loss": 0.742,
      "step": 3210
    },
    {
      "epoch": 63.0,
      "eval_loss": 0.7449880838394165,
      "eval_runtime": 2.2315,
      "eval_samples_per_second": 1021.27,
      "eval_steps_per_second": 4.033,
      "step": 3213
    },
    {
      "epoch": 63.14,
      "learning_rate": 0.00014999719703149192,
      "loss": 0.7464,
      "step": 3220
    },
    {
      "epoch": 63.33,
      "learning_rate": 0.0001499968357138734,
      "loss": 0.7437,
      "step": 3230
    },
    {
      "epoch": 63.53,
      "learning_rate": 0.00014999645249885146,
      "loss": 0.7401,
      "step": 3240
    },
    {
      "epoch": 63.73,
      "learning_rate": 0.00014999604738653798,
      "loss": 0.7441,
      "step": 3250
    },
    {
      "epoch": 63.92,
      "learning_rate": 0.0001499956203770512,
      "loss": 0.7469,
      "step": 3260
    },
    {
      "epoch": 64.0,
      "eval_loss": 0.7464487552642822,
      "eval_runtime": 2.1124,
      "eval_samples_per_second": 1078.89,
      "eval_steps_per_second": 4.261,
      "step": 3264
    },
    {
      "epoch": 64.12,
      "learning_rate": 0.00014999517147051586,
      "loss": 0.744,
      "step": 3270
    },
    {
      "epoch": 64.31,
      "learning_rate": 0.00014999470066706303,
      "loss": 0.7427,
      "step": 3280
    },
    {
      "epoch": 64.51,
      "learning_rate": 0.0001499942079668301,
      "loss": 0.7379,
      "step": 3290
    },
    {
      "epoch": 64.71,
      "learning_rate": 0.00014999369336996101,
      "loss": 0.7426,
      "step": 3300
    },
    {
      "epoch": 64.9,
      "learning_rate": 0.00014999315687660596,
      "loss": 0.7449,
      "step": 3310
    },
    {
      "epoch": 65.0,
      "eval_loss": 0.7393355369567871,
      "eval_runtime": 2.0866,
      "eval_samples_per_second": 1092.226,
      "eval_steps_per_second": 4.313,
      "step": 3315
    },
    {
      "epoch": 65.1,
      "learning_rate": 0.0001499925984869216,
      "loss": 0.7412,
      "step": 3320
    },
    {
      "epoch": 65.29,
      "learning_rate": 0.00014999201820107102,
      "loss": 0.7426,
      "step": 3330
    },
    {
      "epoch": 65.49,
      "learning_rate": 0.0001499914160192236,
      "loss": 0.7328,
      "step": 3340
    },
    {
      "epoch": 65.69,
      "learning_rate": 0.00014999079194155516,
      "loss": 0.7346,
      "step": 3350
    },
    {
      "epoch": 65.88,
      "learning_rate": 0.0001499901459682479,
      "loss": 0.7321,
      "step": 3360
    },
    {
      "epoch": 66.0,
      "eval_loss": 0.7425104975700378,
      "eval_runtime": 2.1171,
      "eval_samples_per_second": 1076.448,
      "eval_steps_per_second": 4.251,
      "step": 3366
    },
    {
      "epoch": 66.08,
      "learning_rate": 0.0001499894780994905,
      "loss": 0.7411,
      "step": 3370
    },
    {
      "epoch": 66.27,
      "learning_rate": 0.0001499887883354779,
      "loss": 0.7411,
      "step": 3380
    },
    {
      "epoch": 66.47,
      "learning_rate": 0.00014998807667641157,
      "loss": 0.7395,
      "step": 3390
    },
    {
      "epoch": 66.67,
      "learning_rate": 0.0001499873431224992,
      "loss": 0.7384,
      "step": 3400
    },
    {
      "epoch": 66.86,
      "learning_rate": 0.00014998658767395503,
      "loss": 0.7411,
      "step": 3410
    },
    {
      "epoch": 67.0,
      "eval_loss": 0.7390904426574707,
      "eval_runtime": 2.1435,
      "eval_samples_per_second": 1063.218,
      "eval_steps_per_second": 4.199,
      "step": 3417
    },
    {
      "epoch": 67.06,
      "learning_rate": 0.00014998581033099962,
      "loss": 0.7368,
      "step": 3420
    },
    {
      "epoch": 67.25,
      "learning_rate": 0.00014998501109385993,
      "loss": 0.7379,
      "step": 3430
    },
    {
      "epoch": 67.45,
      "learning_rate": 0.00014998418996276934,
      "loss": 0.739,
      "step": 3440
    },
    {
      "epoch": 67.65,
      "learning_rate": 0.00014998334693796758,
      "loss": 0.7388,
      "step": 3450
    },
    {
      "epoch": 67.84,
      "learning_rate": 0.00014998248201970082,
      "loss": 0.7394,
      "step": 3460
    },
    {
      "epoch": 68.0,
      "eval_loss": 0.7413014769554138,
      "eval_runtime": 2.1617,
      "eval_samples_per_second": 1054.246,
      "eval_steps_per_second": 4.163,
      "step": 3468
    },
    {
      "epoch": 68.04,
      "learning_rate": 0.00014998159520822156,
      "loss": 0.7424,
      "step": 3470
    },
    {
      "epoch": 68.24,
      "learning_rate": 0.00014998068650378876,
      "loss": 0.7376,
      "step": 3480
    },
    {
      "epoch": 68.43,
      "learning_rate": 0.00014997975590666775,
      "loss": 0.734,
      "step": 3490
    },
    {
      "epoch": 68.63,
      "learning_rate": 0.0001499788034171302,
      "loss": 0.7281,
      "step": 3500
    },
    {
      "epoch": 68.82,
      "learning_rate": 0.00014997782903545428,
      "loss": 0.7301,
      "step": 3510
    },
    {
      "epoch": 69.0,
      "eval_loss": 0.7344282865524292,
      "eval_runtime": 2.1969,
      "eval_samples_per_second": 1037.378,
      "eval_steps_per_second": 4.097,
      "step": 3519
    },
    {
      "epoch": 69.02,
      "learning_rate": 0.0001499768327619244,
      "loss": 0.7302,
      "step": 3520
    },
    {
      "epoch": 69.22,
      "learning_rate": 0.00014997581459683156,
      "loss": 0.7292,
      "step": 3530
    },
    {
      "epoch": 69.41,
      "learning_rate": 0.00014997477454047295,
      "loss": 0.7285,
      "step": 3540
    },
    {
      "epoch": 69.61,
      "learning_rate": 0.00014997371259315226,
      "loss": 0.7297,
      "step": 3550
    },
    {
      "epoch": 69.8,
      "learning_rate": 0.00014997262875517955,
      "loss": 0.7245,
      "step": 3560
    },
    {
      "epoch": 70.0,
      "learning_rate": 0.00014997152302687134,
      "loss": 0.7208,
      "step": 3570
    },
    {
      "epoch": 70.0,
      "eval_loss": 0.7255963683128357,
      "eval_runtime": 2.129,
      "eval_samples_per_second": 1070.465,
      "eval_steps_per_second": 4.227,
      "step": 3570
    },
    {
      "epoch": 70.2,
      "learning_rate": 0.00014997039540855041,
      "loss": 0.7311,
      "step": 3580
    },
    {
      "epoch": 70.39,
      "learning_rate": 0.00014996924590054603,
      "loss": 0.7263,
      "step": 3590
    },
    {
      "epoch": 70.59,
      "learning_rate": 0.00014996807450319381,
      "loss": 0.7231,
      "step": 3600
    },
    {
      "epoch": 70.78,
      "learning_rate": 0.00014996688121683582,
      "loss": 0.7232,
      "step": 3610
    },
    {
      "epoch": 70.98,
      "learning_rate": 0.00014996566604182042,
      "loss": 0.7211,
      "step": 3620
    },
    {
      "epoch": 71.0,
      "eval_loss": 0.7225197553634644,
      "eval_runtime": 2.2345,
      "eval_samples_per_second": 1019.927,
      "eval_steps_per_second": 4.028,
      "step": 3621
    },
    {
      "epoch": 71.18,
      "learning_rate": 0.00014996442897850245,
      "loss": 0.7261,
      "step": 3630
    },
    {
      "epoch": 71.37,
      "learning_rate": 0.00014996317002724305,
      "loss": 0.7247,
      "step": 3640
    },
    {
      "epoch": 71.57,
      "learning_rate": 0.00014996188918840986,
      "loss": 0.7322,
      "step": 3650
    },
    {
      "epoch": 71.76,
      "learning_rate": 0.00014996058646237682,
      "loss": 0.7333,
      "step": 3660
    },
    {
      "epoch": 71.96,
      "learning_rate": 0.00014995926184952434,
      "loss": 0.7273,
      "step": 3670
    },
    {
      "epoch": 72.0,
      "eval_loss": 0.726405918598175,
      "eval_runtime": 2.1479,
      "eval_samples_per_second": 1061.037,
      "eval_steps_per_second": 4.19,
      "step": 3672
    },
    {
      "epoch": 72.16,
      "learning_rate": 0.00014995791535023917,
      "loss": 0.7277,
      "step": 3680
    },
    {
      "epoch": 72.35,
      "learning_rate": 0.0001499565469649144,
      "loss": 0.7324,
      "step": 3690
    },
    {
      "epoch": 72.55,
      "learning_rate": 0.00014995515669394963,
      "loss": 0.7308,
      "step": 3700
    },
    {
      "epoch": 72.75,
      "learning_rate": 0.00014995374453775077,
      "loss": 0.7262,
      "step": 3710
    },
    {
      "epoch": 72.94,
      "learning_rate": 0.00014995231049673012,
      "loss": 0.7267,
      "step": 3720
    },
    {
      "epoch": 73.0,
      "eval_loss": 0.7220990061759949,
      "eval_runtime": 2.1293,
      "eval_samples_per_second": 1070.303,
      "eval_steps_per_second": 4.227,
      "step": 3723
    },
    {
      "epoch": 73.14,
      "learning_rate": 0.00014995085457130645,
      "loss": 0.7224,
      "step": 3730
    },
    {
      "epoch": 73.33,
      "learning_rate": 0.00014994937676190477,
      "loss": 0.7255,
      "step": 3740
    },
    {
      "epoch": 73.53,
      "learning_rate": 0.0001499478770689566,
      "loss": 0.7224,
      "step": 3750
    },
    {
      "epoch": 73.73,
      "learning_rate": 0.00014994635549289985,
      "loss": 0.7241,
      "step": 3760
    },
    {
      "epoch": 73.92,
      "learning_rate": 0.00014994481203417875,
      "loss": 0.7222,
      "step": 3770
    },
    {
      "epoch": 74.0,
      "eval_loss": 0.7255922555923462,
      "eval_runtime": 2.0896,
      "eval_samples_per_second": 1090.633,
      "eval_steps_per_second": 4.307,
      "step": 3774
    },
    {
      "epoch": 74.12,
      "learning_rate": 0.00014994324669324397,
      "loss": 0.7213,
      "step": 3780
    },
    {
      "epoch": 74.31,
      "learning_rate": 0.00014994165947055255,
      "loss": 0.7197,
      "step": 3790
    },
    {
      "epoch": 74.51,
      "learning_rate": 0.00014994005036656795,
      "loss": 0.7233,
      "step": 3800
    },
    {
      "epoch": 74.71,
      "learning_rate": 0.00014993841938175994,
      "loss": 0.7224,
      "step": 3810
    },
    {
      "epoch": 74.9,
      "learning_rate": 0.00014993676651660478,
      "loss": 0.7175,
      "step": 3820
    },
    {
      "epoch": 75.0,
      "eval_loss": 0.7201787829399109,
      "eval_runtime": 2.0903,
      "eval_samples_per_second": 1090.287,
      "eval_steps_per_second": 4.306,
      "step": 3825
    },
    {
      "epoch": 75.1,
      "learning_rate": 0.00014993509177158503,
      "loss": 0.7198,
      "step": 3830
    },
    {
      "epoch": 75.29,
      "learning_rate": 0.00014993339514718972,
      "loss": 0.7277,
      "step": 3840
    },
    {
      "epoch": 75.49,
      "learning_rate": 0.00014993167664391417,
      "loss": 0.7224,
      "step": 3850
    },
    {
      "epoch": 75.69,
      "learning_rate": 0.00014992993626226022,
      "loss": 0.721,
      "step": 3860
    },
    {
      "epoch": 75.88,
      "learning_rate": 0.00014992817400273593,
      "loss": 0.7174,
      "step": 3870
    },
    {
      "epoch": 76.0,
      "eval_loss": 0.714850127696991,
      "eval_runtime": 2.0699,
      "eval_samples_per_second": 1101.043,
      "eval_steps_per_second": 4.348,
      "step": 3876
    },
    {
      "epoch": 76.08,
      "learning_rate": 0.00014992638986585592,
      "loss": 0.717,
      "step": 3880
    },
    {
      "epoch": 76.27,
      "learning_rate": 0.0001499245838521411,
      "loss": 0.7163,
      "step": 3890
    },
    {
      "epoch": 76.47,
      "learning_rate": 0.00014992275596211878,
      "loss": 0.7175,
      "step": 3900
    },
    {
      "epoch": 76.67,
      "learning_rate": 0.00014992090619632265,
      "loss": 0.7098,
      "step": 3910
    },
    {
      "epoch": 76.86,
      "learning_rate": 0.00014991903455529278,
      "loss": 0.7143,
      "step": 3920
    },
    {
      "epoch": 77.0,
      "eval_loss": 0.7127418518066406,
      "eval_runtime": 2.101,
      "eval_samples_per_second": 1084.704,
      "eval_steps_per_second": 4.284,
      "step": 3927
    },
    {
      "epoch": 77.06,
      "learning_rate": 0.00014991714103957572,
      "loss": 0.7136,
      "step": 3930
    },
    {
      "epoch": 77.25,
      "learning_rate": 0.00014991522564972428,
      "loss": 0.7134,
      "step": 3940
    },
    {
      "epoch": 77.45,
      "learning_rate": 0.0001499132883862977,
      "loss": 0.713,
      "step": 3950
    },
    {
      "epoch": 77.65,
      "learning_rate": 0.00014991132924986164,
      "loss": 0.7119,
      "step": 3960
    },
    {
      "epoch": 77.84,
      "learning_rate": 0.00014990934824098815,
      "loss": 0.7106,
      "step": 3970
    },
    {
      "epoch": 78.0,
      "eval_loss": 0.7061274647712708,
      "eval_runtime": 2.0952,
      "eval_samples_per_second": 1087.724,
      "eval_steps_per_second": 4.296,
      "step": 3978
    },
    {
      "epoch": 78.04,
      "learning_rate": 0.0001499073453602556,
      "loss": 0.7079,
      "step": 3980
    },
    {
      "epoch": 78.24,
      "learning_rate": 0.00014990532060824878,
      "loss": 0.7104,
      "step": 3990
    },
    {
      "epoch": 78.43,
      "learning_rate": 0.00014990327398555894,
      "loss": 0.7088,
      "step": 4000
    },
    {
      "epoch": 78.63,
      "learning_rate": 0.00014990120549278357,
      "loss": 0.7098,
      "step": 4010
    },
    {
      "epoch": 78.82,
      "learning_rate": 0.00014989911513052666,
      "loss": 0.7188,
      "step": 4020
    },
    {
      "epoch": 79.0,
      "eval_loss": 0.7153338193893433,
      "eval_runtime": 2.0939,
      "eval_samples_per_second": 1088.393,
      "eval_steps_per_second": 4.298,
      "step": 4029
    },
    {
      "epoch": 79.02,
      "learning_rate": 0.00014989700289939854,
      "loss": 0.7183,
      "step": 4030
    },
    {
      "epoch": 79.22,
      "learning_rate": 0.00014989486880001595,
      "loss": 0.7099,
      "step": 4040
    },
    {
      "epoch": 79.41,
      "learning_rate": 0.00014989271283300198,
      "loss": 0.7068,
      "step": 4050
    },
    {
      "epoch": 79.61,
      "learning_rate": 0.00014989053499898613,
      "loss": 0.707,
      "step": 4060
    },
    {
      "epoch": 79.8,
      "learning_rate": 0.0001498883352986043,
      "loss": 0.7039,
      "step": 4070
    },
    {
      "epoch": 80.0,
      "learning_rate": 0.0001498861137324987,
      "loss": 0.7103,
      "step": 4080
    },
    {
      "epoch": 80.0,
      "eval_loss": 0.7086203694343567,
      "eval_runtime": 2.1491,
      "eval_samples_per_second": 1060.423,
      "eval_steps_per_second": 4.188,
      "step": 4080
    },
    {
      "epoch": 80.2,
      "learning_rate": 0.00014988387030131803,
      "loss": 0.7066,
      "step": 4090
    },
    {
      "epoch": 80.39,
      "learning_rate": 0.0001498816050057173,
      "loss": 0.705,
      "step": 4100
    },
    {
      "epoch": 80.59,
      "learning_rate": 0.00014987931784635796,
      "loss": 0.7077,
      "step": 4110
    },
    {
      "epoch": 80.78,
      "learning_rate": 0.00014987700882390775,
      "loss": 0.7073,
      "step": 4120
    },
    {
      "epoch": 80.98,
      "learning_rate": 0.0001498746779390409,
      "loss": 0.7055,
      "step": 4130
    },
    {
      "epoch": 81.0,
      "eval_loss": 0.709750235080719,
      "eval_runtime": 2.1143,
      "eval_samples_per_second": 1077.874,
      "eval_steps_per_second": 4.257,
      "step": 4131
    },
    {
      "epoch": 81.18,
      "learning_rate": 0.00014987232519243792,
      "loss": 0.7106,
      "step": 4140
    },
    {
      "epoch": 81.37,
      "learning_rate": 0.00014986995058478584,
      "loss": 0.7064,
      "step": 4150
    },
    {
      "epoch": 81.57,
      "learning_rate": 0.00014986755411677794,
      "loss": 0.7061,
      "step": 4160
    },
    {
      "epoch": 81.76,
      "learning_rate": 0.00014986513578911395,
      "loss": 0.7081,
      "step": 4170
    },
    {
      "epoch": 81.96,
      "learning_rate": 0.00014986269560249995,
      "loss": 0.7026,
      "step": 4180
    },
    {
      "epoch": 82.0,
      "eval_loss": 0.7075186967849731,
      "eval_runtime": 2.1061,
      "eval_samples_per_second": 1082.105,
      "eval_steps_per_second": 4.273,
      "step": 4182
    },
    {
      "epoch": 82.16,
      "learning_rate": 0.00014986023355764846,
      "loss": 0.7069,
      "step": 4190
    },
    {
      "epoch": 82.35,
      "learning_rate": 0.0001498577496552783,
      "loss": 0.7038,
      "step": 4200
    },
    {
      "epoch": 82.55,
      "learning_rate": 0.0001498552438961147,
      "loss": 0.7068,
      "step": 4210
    },
    {
      "epoch": 82.75,
      "learning_rate": 0.00014985271628088938,
      "loss": 0.7073,
      "step": 4220
    },
    {
      "epoch": 82.94,
      "learning_rate": 0.00014985016681034024,
      "loss": 0.7191,
      "step": 4230
    },
    {
      "epoch": 83.0,
      "eval_loss": 0.7127190828323364,
      "eval_runtime": 2.1082,
      "eval_samples_per_second": 1081.004,
      "eval_steps_per_second": 4.269,
      "step": 4233
    },
    {
      "epoch": 83.14,
      "learning_rate": 0.00014984759548521172,
      "loss": 0.7117,
      "step": 4240
    },
    {
      "epoch": 83.33,
      "learning_rate": 0.0001498450023062546,
      "loss": 0.7083,
      "step": 4250
    },
    {
      "epoch": 83.53,
      "learning_rate": 0.00014984238727422597,
      "loss": 0.7064,
      "step": 4260
    },
    {
      "epoch": 83.73,
      "learning_rate": 0.00014983975038988944,
      "loss": 0.7066,
      "step": 4270
    },
    {
      "epoch": 83.92,
      "learning_rate": 0.00014983709165401489,
      "loss": 0.7027,
      "step": 4280
    },
    {
      "epoch": 84.0,
      "eval_loss": 0.7171905040740967,
      "eval_runtime": 2.2202,
      "eval_samples_per_second": 1026.505,
      "eval_steps_per_second": 4.054,
      "step": 4284
    },
    {
      "epoch": 84.12,
      "learning_rate": 0.00014983441106737857,
      "loss": 0.7064,
      "step": 4290
    },
    {
      "epoch": 84.31,
      "learning_rate": 0.0001498317086307632,
      "loss": 0.7106,
      "step": 4300
    },
    {
      "epoch": 84.51,
      "learning_rate": 0.00014982898434495783,
      "loss": 0.7057,
      "step": 4310
    },
    {
      "epoch": 84.71,
      "learning_rate": 0.0001498262382107579,
      "loss": 0.7022,
      "step": 4320
    },
    {
      "epoch": 84.9,
      "learning_rate": 0.00014982347022896516,
      "loss": 0.6981,
      "step": 4330
    },
    {
      "epoch": 85.0,
      "eval_loss": 0.7069874405860901,
      "eval_runtime": 2.0965,
      "eval_samples_per_second": 1087.073,
      "eval_steps_per_second": 4.293,
      "step": 4335
    },
    {
      "epoch": 85.1,
      "learning_rate": 0.00014982068040038786,
      "loss": 0.7042,
      "step": 4340
    },
    {
      "epoch": 85.29,
      "learning_rate": 0.00014981786872584056,
      "loss": 0.7022,
      "step": 4350
    },
    {
      "epoch": 85.49,
      "learning_rate": 0.00014981503520614415,
      "loss": 0.6987,
      "step": 4360
    },
    {
      "epoch": 85.69,
      "learning_rate": 0.000149812179842126,
      "loss": 0.699,
      "step": 4370
    },
    {
      "epoch": 85.88,
      "learning_rate": 0.00014980930263461985,
      "loss": 0.7064,
      "step": 4380
    },
    {
      "epoch": 86.0,
      "eval_loss": 0.7029294371604919,
      "eval_runtime": 2.1186,
      "eval_samples_per_second": 1075.695,
      "eval_steps_per_second": 4.248,
      "step": 4386
    },
    {
      "epoch": 86.08,
      "learning_rate": 0.00014980640358446573,
      "loss": 0.6995,
      "step": 4390
    },
    {
      "epoch": 86.27,
      "learning_rate": 0.0001498034826925101,
      "loss": 0.7056,
      "step": 4400
    },
    {
      "epoch": 86.47,
      "learning_rate": 0.0001498005399596058,
      "loss": 0.7014,
      "step": 4410
    },
    {
      "epoch": 86.67,
      "learning_rate": 0.00014979757538661204,
      "loss": 0.6983,
      "step": 4420
    },
    {
      "epoch": 86.86,
      "learning_rate": 0.00014979458897439442,
      "loss": 0.6943,
      "step": 4430
    },
    {
      "epoch": 87.0,
      "eval_loss": 0.7045770883560181,
      "eval_runtime": 2.1001,
      "eval_samples_per_second": 1085.211,
      "eval_steps_per_second": 4.286,
      "step": 4437
    },
    {
      "epoch": 87.06,
      "learning_rate": 0.0001497915807238249,
      "loss": 0.6975,
      "step": 4440
    },
    {
      "epoch": 87.25,
      "learning_rate": 0.00014978855063578183,
      "loss": 0.7033,
      "step": 4450
    },
    {
      "epoch": 87.45,
      "learning_rate": 0.00014978549871114992,
      "loss": 0.6967,
      "step": 4460
    },
    {
      "epoch": 87.65,
      "learning_rate": 0.00014978242495082024,
      "loss": 0.7053,
      "step": 4470
    },
    {
      "epoch": 87.84,
      "learning_rate": 0.00014977932935569032,
      "loss": 0.7025,
      "step": 4480
    },
    {
      "epoch": 88.0,
      "eval_loss": 0.7035739421844482,
      "eval_runtime": 2.0997,
      "eval_samples_per_second": 1085.417,
      "eval_steps_per_second": 4.286,
      "step": 4488
    },
    {
      "epoch": 88.04,
      "learning_rate": 0.00014977621192666395,
      "loss": 0.7019,
      "step": 4490
    },
    {
      "epoch": 88.24,
      "learning_rate": 0.00014977307266465139,
      "loss": 0.7036,
      "step": 4500
    },
    {
      "epoch": 88.43,
      "learning_rate": 0.00014976991157056917,
      "loss": 0.7015,
      "step": 4510
    },
    {
      "epoch": 88.63,
      "learning_rate": 0.00014976672864534034,
      "loss": 0.6985,
      "step": 4520
    },
    {
      "epoch": 88.82,
      "learning_rate": 0.0001497635238898942,
      "loss": 0.6959,
      "step": 4530
    },
    {
      "epoch": 89.0,
      "eval_loss": 0.7093929648399353,
      "eval_runtime": 2.2076,
      "eval_samples_per_second": 1032.357,
      "eval_steps_per_second": 4.077,
      "step": 4539
    },
    {
      "epoch": 89.02,
      "learning_rate": 0.00014976029730516646,
      "loss": 0.7044,
      "step": 4540
    },
    {
      "epoch": 89.22,
      "learning_rate": 0.00014975704889209923,
      "loss": 0.7057,
      "step": 4550
    },
    {
      "epoch": 89.41,
      "learning_rate": 0.00014975377865164097,
      "loss": 0.7022,
      "step": 4560
    },
    {
      "epoch": 89.61,
      "learning_rate": 0.00014975048658474652,
      "loss": 0.695,
      "step": 4570
    },
    {
      "epoch": 89.8,
      "learning_rate": 0.00014974717269237707,
      "loss": 0.6957,
      "step": 4580
    },
    {
      "epoch": 90.0,
      "learning_rate": 0.00014974383697550022,
      "loss": 0.6988,
      "step": 4590
    },
    {
      "epoch": 90.0,
      "eval_loss": 0.691733717918396,
      "eval_runtime": 2.1923,
      "eval_samples_per_second": 1039.543,
      "eval_steps_per_second": 4.105,
      "step": 4590
    },
    {
      "epoch": 90.2,
      "learning_rate": 0.00014974047943508995,
      "loss": 0.6922,
      "step": 4600
    },
    {
      "epoch": 90.39,
      "learning_rate": 0.00014973710007212652,
      "loss": 0.6949,
      "step": 4610
    },
    {
      "epoch": 90.59,
      "learning_rate": 0.00014973369888759668,
      "loss": 0.693,
      "step": 4620
    },
    {
      "epoch": 90.78,
      "learning_rate": 0.0001497302758824935,
      "loss": 0.6976,
      "step": 4630
    },
    {
      "epoch": 90.98,
      "learning_rate": 0.00014972683105781638,
      "loss": 0.6912,
      "step": 4640
    },
    {
      "epoch": 91.0,
      "eval_loss": 0.6925643682479858,
      "eval_runtime": 2.18,
      "eval_samples_per_second": 1045.407,
      "eval_steps_per_second": 4.128,
      "step": 4641
    },
    {
      "epoch": 91.18,
      "learning_rate": 0.00014972336441457118,
      "loss": 0.6917,
      "step": 4650
    },
    {
      "epoch": 91.37,
      "learning_rate": 0.00014971987595377008,
      "loss": 0.6871,
      "step": 4660
    },
    {
      "epoch": 91.57,
      "learning_rate": 0.00014971636567643161,
      "loss": 0.6927,
      "step": 4670
    },
    {
      "epoch": 91.76,
      "learning_rate": 0.0001497128335835807,
      "loss": 0.6945,
      "step": 4680
    },
    {
      "epoch": 91.96,
      "learning_rate": 0.00014970927967624864,
      "loss": 0.689,
      "step": 4690
    },
    {
      "epoch": 92.0,
      "eval_loss": 0.6880647540092468,
      "eval_runtime": 2.0762,
      "eval_samples_per_second": 1097.663,
      "eval_steps_per_second": 4.335,
      "step": 4692
    },
    {
      "epoch": 92.16,
      "learning_rate": 0.00014970570395547307,
      "loss": 0.6964,
      "step": 4700
    },
    {
      "epoch": 92.35,
      "learning_rate": 0.00014970210642229807,
      "loss": 0.6949,
      "step": 4710
    },
    {
      "epoch": 92.55,
      "learning_rate": 0.000149698487077774,
      "loss": 0.69,
      "step": 4720
    },
    {
      "epoch": 92.75,
      "learning_rate": 0.00014969484592295765,
      "loss": 0.6878,
      "step": 4730
    },
    {
      "epoch": 92.94,
      "learning_rate": 0.00014969118295891215,
      "loss": 0.687,
      "step": 4740
    },
    {
      "epoch": 93.0,
      "eval_loss": 0.6865754127502441,
      "eval_runtime": 2.2287,
      "eval_samples_per_second": 1022.574,
      "eval_steps_per_second": 4.038,
      "step": 4743
    },
    {
      "epoch": 93.14,
      "learning_rate": 0.000149687498186707,
      "loss": 0.689,
      "step": 4750
    },
    {
      "epoch": 93.33,
      "learning_rate": 0.00014968379160741805,
      "loss": 0.6867,
      "step": 4760
    },
    {
      "epoch": 93.53,
      "learning_rate": 0.00014968006322212758,
      "loss": 0.6896,
      "step": 4770
    },
    {
      "epoch": 93.73,
      "learning_rate": 0.00014967631303192417,
      "loss": 0.6887,
      "step": 4780
    },
    {
      "epoch": 93.92,
      "learning_rate": 0.0001496725410379028,
      "loss": 0.6867,
      "step": 4790
    },
    {
      "epoch": 94.0,
      "eval_loss": 0.6873466372489929,
      "eval_runtime": 2.114,
      "eval_samples_per_second": 1078.052,
      "eval_steps_per_second": 4.257,
      "step": 4794
    },
    {
      "epoch": 94.12,
      "learning_rate": 0.0001496687472411648,
      "loss": 0.6861,
      "step": 4800
    },
    {
      "epoch": 94.31,
      "learning_rate": 0.0001496649316428179,
      "loss": 0.6911,
      "step": 4810
    },
    {
      "epoch": 94.51,
      "learning_rate": 0.00014966109424397614,
      "loss": 0.6865,
      "step": 4820
    },
    {
      "epoch": 94.71,
      "learning_rate": 0.00014965723504575996,
      "loss": 0.6789,
      "step": 4830
    },
    {
      "epoch": 94.9,
      "learning_rate": 0.00014965335404929617,
      "loss": 0.6832,
      "step": 4840
    },
    {
      "epoch": 95.0,
      "eval_loss": 0.6820151805877686,
      "eval_runtime": 2.1799,
      "eval_samples_per_second": 1045.479,
      "eval_steps_per_second": 4.129,
      "step": 4845
    },
    {
      "epoch": 95.1,
      "learning_rate": 0.00014964945125571792,
      "loss": 0.6821,
      "step": 4850
    },
    {
      "epoch": 95.29,
      "learning_rate": 0.00014964552666616476,
      "loss": 0.6875,
      "step": 4860
    },
    {
      "epoch": 95.49,
      "learning_rate": 0.00014964158028178256,
      "loss": 0.7012,
      "step": 4870
    },
    {
      "epoch": 95.69,
      "learning_rate": 0.00014963761210372357,
      "loss": 0.6934,
      "step": 4880
    },
    {
      "epoch": 95.88,
      "learning_rate": 0.00014963362213314647,
      "loss": 0.6863,
      "step": 4890
    },
    {
      "epoch": 96.0,
      "eval_loss": 0.6808879375457764,
      "eval_runtime": 2.1682,
      "eval_samples_per_second": 1051.107,
      "eval_steps_per_second": 4.151,
      "step": 4896
    },
    {
      "epoch": 96.08,
      "learning_rate": 0.00014962961037121616,
      "loss": 0.6835,
      "step": 4900
    },
    {
      "epoch": 96.27,
      "learning_rate": 0.00014962557681910406,
      "loss": 0.6891,
      "step": 4910
    },
    {
      "epoch": 96.47,
      "learning_rate": 0.00014962152147798778,
      "loss": 0.6867,
      "step": 4920
    },
    {
      "epoch": 96.67,
      "learning_rate": 0.0001496174443490515,
      "loss": 0.678,
      "step": 4930
    },
    {
      "epoch": 96.86,
      "learning_rate": 0.0001496133454334856,
      "loss": 0.6908,
      "step": 4940
    },
    {
      "epoch": 97.0,
      "eval_loss": 0.6791673898696899,
      "eval_runtime": 2.094,
      "eval_samples_per_second": 1088.337,
      "eval_steps_per_second": 4.298,
      "step": 4947
    },
    {
      "epoch": 97.06,
      "learning_rate": 0.0001496092247324869,
      "loss": 0.6815,
      "step": 4950
    },
    {
      "epoch": 97.25,
      "learning_rate": 0.00014960508224725846,
      "loss": 0.6837,
      "step": 4960
    },
    {
      "epoch": 97.45,
      "learning_rate": 0.00014960091797900987,
      "loss": 0.6784,
      "step": 4970
    },
    {
      "epoch": 97.65,
      "learning_rate": 0.00014959673192895703,
      "loss": 0.6837,
      "step": 4980
    },
    {
      "epoch": 97.84,
      "learning_rate": 0.0001495925240983221,
      "loss": 0.6891,
      "step": 4990
    },
    {
      "epoch": 98.0,
      "eval_loss": 0.67962646484375,
      "eval_runtime": 2.1402,
      "eval_samples_per_second": 1064.861,
      "eval_steps_per_second": 4.205,
      "step": 4998
    },
    {
      "epoch": 98.04,
      "learning_rate": 0.0001495882944883337,
      "loss": 0.6784,
      "step": 5000
    },
    {
      "epoch": 98.24,
      "learning_rate": 0.00014958404310022683,
      "loss": 0.68,
      "step": 5010
    },
    {
      "epoch": 98.43,
      "learning_rate": 0.00014957976993524276,
      "loss": 0.6756,
      "step": 5020
    },
    {
      "epoch": 98.63,
      "learning_rate": 0.00014957547499462912,
      "loss": 0.6841,
      "step": 5030
    },
    {
      "epoch": 98.82,
      "learning_rate": 0.00014957115827964,
      "loss": 0.6803,
      "step": 5040
    },
    {
      "epoch": 99.0,
      "eval_loss": 0.6792941689491272,
      "eval_runtime": 2.1861,
      "eval_samples_per_second": 1042.487,
      "eval_steps_per_second": 4.117,
      "step": 5049
    },
    {
      "epoch": 99.02,
      "learning_rate": 0.00014956681979153577,
      "loss": 0.682,
      "step": 5050
    },
    {
      "epoch": 99.22,
      "learning_rate": 0.00014956245953158314,
      "loss": 0.6795,
      "step": 5060
    },
    {
      "epoch": 99.41,
      "learning_rate": 0.00014955807750105524,
      "loss": 0.6753,
      "step": 5070
    },
    {
      "epoch": 99.61,
      "learning_rate": 0.00014955367370123152,
      "loss": 0.6752,
      "step": 5080
    },
    {
      "epoch": 99.8,
      "learning_rate": 0.00014954924813339777,
      "loss": 0.676,
      "step": 5090
    },
    {
      "epoch": 100.0,
      "learning_rate": 0.0001495448007988462,
      "loss": 0.6755,
      "step": 5100
    },
    {
      "epoch": 100.0,
      "eval_loss": 0.6737886071205139,
      "eval_runtime": 2.1396,
      "eval_samples_per_second": 1065.176,
      "eval_steps_per_second": 4.206,
      "step": 5100
    },
    {
      "epoch": 100.2,
      "learning_rate": 0.0001495403316988753,
      "loss": 0.6741,
      "step": 5110
    },
    {
      "epoch": 100.39,
      "learning_rate": 0.00014953584083478993,
      "loss": 0.6756,
      "step": 5120
    },
    {
      "epoch": 100.59,
      "learning_rate": 0.0001495313282079014,
      "loss": 0.6759,
      "step": 5130
    },
    {
      "epoch": 100.78,
      "learning_rate": 0.00014952679381952718,
      "loss": 0.6725,
      "step": 5140
    },
    {
      "epoch": 100.98,
      "learning_rate": 0.0001495222376709913,
      "loss": 0.6735,
      "step": 5150
    },
    {
      "epoch": 101.0,
      "eval_loss": 0.6750496029853821,
      "eval_runtime": 2.2168,
      "eval_samples_per_second": 1028.06,
      "eval_steps_per_second": 4.06,
      "step": 5151
    },
    {
      "epoch": 101.18,
      "learning_rate": 0.00014951765976362405,
      "loss": 0.6753,
      "step": 5160
    },
    {
      "epoch": 101.37,
      "learning_rate": 0.00014951306009876203,
      "loss": 0.6732,
      "step": 5170
    },
    {
      "epoch": 101.57,
      "learning_rate": 0.00014950843867774828,
      "loss": 0.6717,
      "step": 5180
    },
    {
      "epoch": 101.76,
      "learning_rate": 0.00014950379550193212,
      "loss": 0.6704,
      "step": 5190
    },
    {
      "epoch": 101.96,
      "learning_rate": 0.00014949913057266928,
      "loss": 0.6727,
      "step": 5200
    },
    {
      "epoch": 102.0,
      "eval_loss": 0.672935962677002,
      "eval_runtime": 2.1734,
      "eval_samples_per_second": 1048.602,
      "eval_steps_per_second": 4.141,
      "step": 5202
    },
    {
      "epoch": 102.16,
      "learning_rate": 0.0001494944438913218,
      "loss": 0.6736,
      "step": 5210
    },
    {
      "epoch": 102.35,
      "learning_rate": 0.00014948973545925807,
      "loss": 0.6732,
      "step": 5220
    },
    {
      "epoch": 102.55,
      "learning_rate": 0.0001494850052778529,
      "loss": 0.6703,
      "step": 5230
    },
    {
      "epoch": 102.75,
      "learning_rate": 0.00014948025334848736,
      "loss": 0.6721,
      "step": 5240
    },
    {
      "epoch": 102.94,
      "learning_rate": 0.0001494754796725489,
      "loss": 0.6695,
      "step": 5250
    },
    {
      "epoch": 103.0,
      "eval_loss": 0.6733797192573547,
      "eval_runtime": 2.1812,
      "eval_samples_per_second": 1044.839,
      "eval_steps_per_second": 4.126,
      "step": 5253
    },
    {
      "epoch": 103.14,
      "learning_rate": 0.00014947068425143136,
      "loss": 0.6728,
      "step": 5260
    },
    {
      "epoch": 103.33,
      "learning_rate": 0.00014946586708653486,
      "loss": 0.6684,
      "step": 5270
    },
    {
      "epoch": 103.53,
      "learning_rate": 0.0001494610281792659,
      "loss": 0.6702,
      "step": 5280
    },
    {
      "epoch": 103.73,
      "learning_rate": 0.0001494561675310374,
      "loss": 0.6705,
      "step": 5290
    },
    {
      "epoch": 103.92,
      "learning_rate": 0.0001494512851432685,
      "loss": 0.6678,
      "step": 5300
    },
    {
      "epoch": 104.0,
      "eval_loss": 0.6701691746711731,
      "eval_runtime": 2.1386,
      "eval_samples_per_second": 1065.675,
      "eval_steps_per_second": 4.208,
      "step": 5304
    },
    {
      "epoch": 104.12,
      "learning_rate": 0.00014944638101738474,
      "loss": 0.6684,
      "step": 5310
    },
    {
      "epoch": 104.31,
      "learning_rate": 0.00014944145515481805,
      "loss": 0.6648,
      "step": 5320
    },
    {
      "epoch": 104.51,
      "learning_rate": 0.00014943650755700667,
      "loss": 0.6702,
      "step": 5330
    },
    {
      "epoch": 104.71,
      "learning_rate": 0.0001494315382253952,
      "loss": 0.671,
      "step": 5340
    },
    {
      "epoch": 104.9,
      "learning_rate": 0.0001494265471614345,
      "loss": 0.671,
      "step": 5350
    },
    {
      "epoch": 105.0,
      "eval_loss": 0.6720392107963562,
      "eval_runtime": 2.1432,
      "eval_samples_per_second": 1063.36,
      "eval_steps_per_second": 4.199,
      "step": 5355
    },
    {
      "epoch": 105.1,
      "learning_rate": 0.0001494215343665819,
      "loss": 0.6686,
      "step": 5360
    },
    {
      "epoch": 105.29,
      "learning_rate": 0.00014941649984230107,
      "loss": 0.6669,
      "step": 5370
    },
    {
      "epoch": 105.49,
      "learning_rate": 0.00014941144359006194,
      "loss": 0.6654,
      "step": 5380
    },
    {
      "epoch": 105.69,
      "learning_rate": 0.00014940636561134078,
      "loss": 0.6645,
      "step": 5390
    },
    {
      "epoch": 105.88,
      "learning_rate": 0.0001494012659076203,
      "loss": 0.6654,
      "step": 5400
    },
    {
      "epoch": 106.0,
      "eval_loss": 0.6686482429504395,
      "eval_runtime": 2.244,
      "eval_samples_per_second": 1015.59,
      "eval_steps_per_second": 4.011,
      "step": 5406
    },
    {
      "epoch": 106.08,
      "learning_rate": 0.00014939614448038948,
      "loss": 0.6674,
      "step": 5410
    },
    {
      "epoch": 106.27,
      "learning_rate": 0.00014939100133114368,
      "loss": 0.6675,
      "step": 5420
    },
    {
      "epoch": 106.47,
      "learning_rate": 0.00014938583646138457,
      "loss": 0.6667,
      "step": 5430
    },
    {
      "epoch": 106.67,
      "learning_rate": 0.00014938064987262016,
      "loss": 0.6673,
      "step": 5440
    },
    {
      "epoch": 106.86,
      "learning_rate": 0.00014937544156636484,
      "loss": 0.669,
      "step": 5450
    },
    {
      "epoch": 107.0,
      "eval_loss": 0.6682608723640442,
      "eval_runtime": 2.2531,
      "eval_samples_per_second": 1011.487,
      "eval_steps_per_second": 3.994,
      "step": 5457
    },
    {
      "epoch": 107.06,
      "learning_rate": 0.00014937021154413932,
      "loss": 0.6636,
      "step": 5460
    },
    {
      "epoch": 107.25,
      "learning_rate": 0.00014936495980747065,
      "loss": 0.6646,
      "step": 5470
    },
    {
      "epoch": 107.45,
      "learning_rate": 0.00014935968635789224,
      "loss": 0.6677,
      "step": 5480
    },
    {
      "epoch": 107.65,
      "learning_rate": 0.00014935439119694377,
      "loss": 0.6651,
      "step": 5490
    },
    {
      "epoch": 107.84,
      "learning_rate": 0.00014934907432617134,
      "loss": 0.6628,
      "step": 5500
    },
    {
      "epoch": 108.0,
      "eval_loss": 0.6639227867126465,
      "eval_runtime": 2.2629,
      "eval_samples_per_second": 1007.134,
      "eval_steps_per_second": 3.977,
      "step": 5508
    },
    {
      "epoch": 108.04,
      "learning_rate": 0.00014934373574712734,
      "loss": 0.6611,
      "step": 5510
    },
    {
      "epoch": 108.24,
      "learning_rate": 0.00014933837546137054,
      "loss": 0.6629,
      "step": 5520
    },
    {
      "epoch": 108.43,
      "learning_rate": 0.000149332993470466,
      "loss": 0.6639,
      "step": 5530
    },
    {
      "epoch": 108.63,
      "learning_rate": 0.00014932758977598514,
      "loss": 0.6703,
      "step": 5540
    },
    {
      "epoch": 108.82,
      "learning_rate": 0.0001493221643795058,
      "loss": 0.6655,
      "step": 5550
    },
    {
      "epoch": 109.0,
      "eval_loss": 0.6662523150444031,
      "eval_runtime": 2.2626,
      "eval_samples_per_second": 1007.256,
      "eval_steps_per_second": 3.978,
      "step": 5559
    },
    {
      "epoch": 109.02,
      "learning_rate": 0.00014931671728261195,
      "loss": 0.6633,
      "step": 5560
    },
    {
      "epoch": 109.22,
      "learning_rate": 0.00014931124848689407,
      "loss": 0.6672,
      "step": 5570
    },
    {
      "epoch": 109.41,
      "learning_rate": 0.00014930575799394893,
      "loss": 0.6585,
      "step": 5580
    },
    {
      "epoch": 109.61,
      "learning_rate": 0.00014930024580537968,
      "loss": 0.6637,
      "step": 5590
    },
    {
      "epoch": 109.8,
      "learning_rate": 0.00014929471192279568,
      "loss": 0.6653,
      "step": 5600
    },
    {
      "epoch": 110.0,
      "learning_rate": 0.00014928915634781272,
      "loss": 0.6637,
      "step": 5610
    },
    {
      "epoch": 110.0,
      "eval_loss": 0.6650734543800354,
      "eval_runtime": 2.1716,
      "eval_samples_per_second": 1049.462,
      "eval_steps_per_second": 4.144,
      "step": 5610
    },
    {
      "epoch": 110.2,
      "learning_rate": 0.00014928357908205295,
      "loss": 0.6677,
      "step": 5620
    },
    {
      "epoch": 110.39,
      "learning_rate": 0.00014927798012714477,
      "loss": 0.665,
      "step": 5630
    },
    {
      "epoch": 110.59,
      "learning_rate": 0.00014927235948472293,
      "loss": 0.6645,
      "step": 5640
    },
    {
      "epoch": 110.78,
      "learning_rate": 0.00014926671715642854,
      "loss": 0.6612,
      "step": 5650
    },
    {
      "epoch": 110.98,
      "learning_rate": 0.0001492610531439091,
      "loss": 0.6643,
      "step": 5660
    },
    {
      "epoch": 111.0,
      "eval_loss": 0.6638761162757874,
      "eval_runtime": 2.1014,
      "eval_samples_per_second": 1084.505,
      "eval_steps_per_second": 4.283,
      "step": 5661
    },
    {
      "epoch": 111.18,
      "learning_rate": 0.00014925536744881827,
      "loss": 0.6655,
      "step": 5670
    },
    {
      "epoch": 111.37,
      "learning_rate": 0.00014924966007281624,
      "loss": 0.6648,
      "step": 5680
    },
    {
      "epoch": 111.57,
      "learning_rate": 0.00014924393101756938,
      "loss": 0.662,
      "step": 5690
    },
    {
      "epoch": 111.76,
      "learning_rate": 0.00014923818028475045,
      "loss": 0.6596,
      "step": 5700
    },
    {
      "epoch": 111.96,
      "learning_rate": 0.0001492324078760386,
      "loss": 0.6607,
      "step": 5710
    },
    {
      "epoch": 112.0,
      "eval_loss": 0.656067967414856,
      "eval_runtime": 2.1149,
      "eval_samples_per_second": 1077.6,
      "eval_steps_per_second": 4.256,
      "step": 5712
    },
    {
      "epoch": 112.16,
      "learning_rate": 0.00014922661379311914,
      "loss": 0.6633,
      "step": 5720
    },
    {
      "epoch": 112.35,
      "learning_rate": 0.00014922079803768388,
      "loss": 0.6635,
      "step": 5730
    },
    {
      "epoch": 112.55,
      "learning_rate": 0.0001492149606114309,
      "loss": 0.6634,
      "step": 5740
    },
    {
      "epoch": 112.75,
      "learning_rate": 0.00014920910151606454,
      "loss": 0.6635,
      "step": 5750
    },
    {
      "epoch": 112.94,
      "learning_rate": 0.00014920322075329557,
      "loss": 0.6598,
      "step": 5760
    },
    {
      "epoch": 113.0,
      "eval_loss": 0.6590579748153687,
      "eval_runtime": 2.1383,
      "eval_samples_per_second": 1065.808,
      "eval_steps_per_second": 4.209,
      "step": 5763
    },
    {
      "epoch": 113.14,
      "learning_rate": 0.00014919731832484104,
      "loss": 0.6608,
      "step": 5770
    },
    {
      "epoch": 113.33,
      "learning_rate": 0.0001491913942324243,
      "loss": 0.6601,
      "step": 5780
    },
    {
      "epoch": 113.53,
      "learning_rate": 0.00014918544847777513,
      "loss": 0.6647,
      "step": 5790
    },
    {
      "epoch": 113.73,
      "learning_rate": 0.00014917948106262947,
      "loss": 0.6605,
      "step": 5800
    },
    {
      "epoch": 113.92,
      "learning_rate": 0.00014917349198872968,
      "loss": 0.6589,
      "step": 5810
    },
    {
      "epoch": 114.0,
      "eval_loss": 0.6609504818916321,
      "eval_runtime": 2.1322,
      "eval_samples_per_second": 1068.831,
      "eval_steps_per_second": 4.221,
      "step": 5814
    },
    {
      "epoch": 114.12,
      "learning_rate": 0.0001491674812578245,
      "loss": 0.6534,
      "step": 5820
    },
    {
      "epoch": 114.31,
      "learning_rate": 0.00014916144887166884,
      "loss": 0.6593,
      "step": 5830
    },
    {
      "epoch": 114.51,
      "learning_rate": 0.0001491553948320241,
      "loss": 0.6607,
      "step": 5840
    },
    {
      "epoch": 114.71,
      "learning_rate": 0.0001491493191406579,
      "loss": 0.6595,
      "step": 5850
    },
    {
      "epoch": 114.9,
      "learning_rate": 0.00014914322179934418,
      "loss": 0.6566,
      "step": 5860
    },
    {
      "epoch": 115.0,
      "eval_loss": 0.6566076874732971,
      "eval_runtime": 2.1529,
      "eval_samples_per_second": 1058.561,
      "eval_steps_per_second": 4.18,
      "step": 5865
    },
    {
      "epoch": 115.1,
      "learning_rate": 0.00014913710280986328,
      "loss": 0.6598,
      "step": 5870
    },
    {
      "epoch": 115.29,
      "learning_rate": 0.00014913096217400175,
      "loss": 0.6645,
      "step": 5880
    },
    {
      "epoch": 115.49,
      "learning_rate": 0.00014912479989355254,
      "loss": 0.6665,
      "step": 5890
    },
    {
      "epoch": 115.69,
      "learning_rate": 0.00014911861597031493,
      "loss": 0.6694,
      "step": 5900
    },
    {
      "epoch": 115.88,
      "learning_rate": 0.00014911241040609444,
      "loss": 0.6706,
      "step": 5910
    },
    {
      "epoch": 116.0,
      "eval_loss": 0.6748928427696228,
      "eval_runtime": 2.1111,
      "eval_samples_per_second": 1079.51,
      "eval_steps_per_second": 4.263,
      "step": 5916
    },
    {
      "epoch": 116.08,
      "learning_rate": 0.000149106183202703,
      "loss": 0.6744,
      "step": 5920
    },
    {
      "epoch": 116.27,
      "learning_rate": 0.0001490999343619588,
      "loss": 0.665,
      "step": 5930
    },
    {
      "epoch": 116.47,
      "learning_rate": 0.0001490936638856863,
      "loss": 0.6654,
      "step": 5940
    },
    {
      "epoch": 116.67,
      "learning_rate": 0.00014908737177571644,
      "loss": 0.6701,
      "step": 5950
    },
    {
      "epoch": 116.86,
      "learning_rate": 0.00014908105803388634,
      "loss": 0.6688,
      "step": 5960
    },
    {
      "epoch": 117.0,
      "eval_loss": 0.667015016078949,
      "eval_runtime": 2.2347,
      "eval_samples_per_second": 1019.841,
      "eval_steps_per_second": 4.027,
      "step": 5967
    },
    {
      "epoch": 117.06,
      "learning_rate": 0.00014907472266203944,
      "loss": 0.6653,
      "step": 5970
    },
    {
      "epoch": 117.25,
      "learning_rate": 0.00014906836566202554,
      "loss": 0.6631,
      "step": 5980
    },
    {
      "epoch": 117.45,
      "learning_rate": 0.00014906198703570076,
      "loss": 0.6656,
      "step": 5990
    },
    {
      "epoch": 117.65,
      "learning_rate": 0.0001490555867849275,
      "loss": 0.6625,
      "step": 6000
    },
    {
      "epoch": 117.84,
      "learning_rate": 0.00014904916491157452,
      "loss": 0.6657,
      "step": 6010
    },
    {
      "epoch": 118.0,
      "eval_loss": 0.6599269509315491,
      "eval_runtime": 2.1838,
      "eval_samples_per_second": 1043.574,
      "eval_steps_per_second": 4.121,
      "step": 6018
    },
    {
      "epoch": 118.04,
      "learning_rate": 0.00014904272141751684,
      "loss": 0.661,
      "step": 6020
    },
    {
      "epoch": 118.24,
      "learning_rate": 0.00014903625630463581,
      "loss": 0.658,
      "step": 6030
    },
    {
      "epoch": 118.43,
      "learning_rate": 0.0001490297695748191,
      "loss": 0.6598,
      "step": 6040
    },
    {
      "epoch": 118.63,
      "learning_rate": 0.0001490232612299607,
      "loss": 0.6664,
      "step": 6050
    },
    {
      "epoch": 118.82,
      "learning_rate": 0.00014901673127196092,
      "loss": 0.6611,
      "step": 6060
    },
    {
      "epoch": 119.0,
      "eval_loss": 0.6566824913024902,
      "eval_runtime": 2.1748,
      "eval_samples_per_second": 1047.897,
      "eval_steps_per_second": 4.138,
      "step": 6069
    },
    {
      "epoch": 119.02,
      "learning_rate": 0.00014901017970272634,
      "loss": 0.6568,
      "step": 6070
    },
    {
      "epoch": 119.22,
      "learning_rate": 0.00014900360652416987,
      "loss": 0.6577,
      "step": 6080
    },
    {
      "epoch": 119.41,
      "learning_rate": 0.00014899701173821071,
      "loss": 0.6559,
      "step": 6090
    },
    {
      "epoch": 119.61,
      "learning_rate": 0.00014899039534677444,
      "loss": 0.6552,
      "step": 6100
    },
    {
      "epoch": 119.8,
      "learning_rate": 0.00014898375735179287,
      "loss": 0.6548,
      "step": 6110
    },
    {
      "epoch": 120.0,
      "learning_rate": 0.00014897709775520417,
      "loss": 0.6528,
      "step": 6120
    },
    {
      "epoch": 120.0,
      "eval_loss": 0.6591194868087769,
      "eval_runtime": 2.2152,
      "eval_samples_per_second": 1028.818,
      "eval_steps_per_second": 4.063,
      "step": 6120
    },
    {
      "epoch": 120.2,
      "learning_rate": 0.00014897041655895276,
      "loss": 0.6594,
      "step": 6130
    },
    {
      "epoch": 120.39,
      "learning_rate": 0.0001489637137649894,
      "loss": 0.6593,
      "step": 6140
    },
    {
      "epoch": 120.59,
      "learning_rate": 0.0001489569893752712,
      "loss": 0.6523,
      "step": 6150
    },
    {
      "epoch": 120.78,
      "learning_rate": 0.00014895024339176149,
      "loss": 0.657,
      "step": 6160
    },
    {
      "epoch": 120.98,
      "learning_rate": 0.00014894347581642994,
      "loss": 0.652,
      "step": 6170
    },
    {
      "epoch": 121.0,
      "eval_loss": 0.6566243171691895,
      "eval_runtime": 2.1086,
      "eval_samples_per_second": 1080.825,
      "eval_steps_per_second": 4.268,
      "step": 6171
    },
    {
      "epoch": 121.18,
      "learning_rate": 0.00014893668665125258,
      "loss": 0.6498,
      "step": 6180
    },
    {
      "epoch": 121.37,
      "learning_rate": 0.00014892987589821164,
      "loss": 0.652,
      "step": 6190
    },
    {
      "epoch": 121.57,
      "learning_rate": 0.00014892304355929576,
      "loss": 0.6503,
      "step": 6200
    },
    {
      "epoch": 121.76,
      "learning_rate": 0.00014891618963649978,
      "loss": 0.6514,
      "step": 6210
    },
    {
      "epoch": 121.96,
      "learning_rate": 0.00014890931413182493,
      "loss": 0.6488,
      "step": 6220
    },
    {
      "epoch": 122.0,
      "eval_loss": 0.6527683734893799,
      "eval_runtime": 2.162,
      "eval_samples_per_second": 1054.109,
      "eval_steps_per_second": 4.163,
      "step": 6222
    },
    {
      "epoch": 122.16,
      "learning_rate": 0.0001489024170472787,
      "loss": 0.6491,
      "step": 6230
    },
    {
      "epoch": 122.35,
      "learning_rate": 0.00014889549838487486,
      "loss": 0.6536,
      "step": 6240
    },
    {
      "epoch": 122.55,
      "learning_rate": 0.00014888855814663355,
      "loss": 0.6554,
      "step": 6250
    },
    {
      "epoch": 122.75,
      "learning_rate": 0.0001488815963345811,
      "loss": 0.6561,
      "step": 6260
    },
    {
      "epoch": 122.94,
      "learning_rate": 0.00014887461295075025,
      "loss": 0.6538,
      "step": 6270
    },
    {
      "epoch": 123.0,
      "eval_loss": 0.6558259129524231,
      "eval_runtime": 2.1735,
      "eval_samples_per_second": 1048.543,
      "eval_steps_per_second": 4.141,
      "step": 6273
    },
    {
      "epoch": 123.14,
      "learning_rate": 0.00014886760799717998,
      "loss": 0.6462,
      "step": 6280
    },
    {
      "epoch": 123.33,
      "learning_rate": 0.0001488605814759156,
      "loss": 0.6557,
      "step": 6290
    },
    {
      "epoch": 123.53,
      "learning_rate": 0.00014885353338900867,
      "loss": 0.6523,
      "step": 6300
    },
    {
      "epoch": 123.73,
      "learning_rate": 0.00014884646373851707,
      "loss": 0.6496,
      "step": 6310
    },
    {
      "epoch": 123.92,
      "learning_rate": 0.000148839372526505,
      "loss": 0.6457,
      "step": 6320
    },
    {
      "epoch": 124.0,
      "eval_loss": 0.6509066820144653,
      "eval_runtime": 2.2241,
      "eval_samples_per_second": 1024.675,
      "eval_steps_per_second": 4.047,
      "step": 6324
    },
    {
      "epoch": 124.12,
      "learning_rate": 0.00014883225975504294,
      "loss": 0.6514,
      "step": 6330
    },
    {
      "epoch": 124.31,
      "learning_rate": 0.00014882512542620764,
      "loss": 0.648,
      "step": 6340
    },
    {
      "epoch": 124.51,
      "learning_rate": 0.0001488179695420822,
      "loss": 0.6467,
      "step": 6350
    },
    {
      "epoch": 124.71,
      "learning_rate": 0.00014881079210475593,
      "loss": 0.6431,
      "step": 6360
    },
    {
      "epoch": 124.9,
      "learning_rate": 0.00014880359311632453,
      "loss": 0.643,
      "step": 6370
    },
    {
      "epoch": 125.0,
      "eval_loss": 0.6462063789367676,
      "eval_runtime": 2.2405,
      "eval_samples_per_second": 1017.192,
      "eval_steps_per_second": 4.017,
      "step": 6375
    },
    {
      "epoch": 125.1,
      "learning_rate": 0.0001487963725788899,
      "loss": 0.6473,
      "step": 6380
    },
    {
      "epoch": 125.29,
      "learning_rate": 0.00014878913049456028,
      "loss": 0.649,
      "step": 6390
    },
    {
      "epoch": 125.49,
      "learning_rate": 0.00014878186686545026,
      "loss": 0.6446,
      "step": 6400
    },
    {
      "epoch": 125.69,
      "learning_rate": 0.00014877458169368056,
      "loss": 0.6455,
      "step": 6410
    },
    {
      "epoch": 125.88,
      "learning_rate": 0.00014876727498137836,
      "loss": 0.6433,
      "step": 6420
    },
    {
      "epoch": 126.0,
      "eval_loss": 0.645854651927948,
      "eval_runtime": 2.0792,
      "eval_samples_per_second": 1096.098,
      "eval_steps_per_second": 4.329,
      "step": 6426
    },
    {
      "epoch": 126.08,
      "learning_rate": 0.00014875994673067703,
      "loss": 0.6448,
      "step": 6430
    },
    {
      "epoch": 126.27,
      "learning_rate": 0.0001487525969437163,
      "loss": 0.6438,
      "step": 6440
    },
    {
      "epoch": 126.47,
      "learning_rate": 0.00014874522562264206,
      "loss": 0.6462,
      "step": 6450
    },
    {
      "epoch": 126.67,
      "learning_rate": 0.0001487378327696066,
      "loss": 0.6419,
      "step": 6460
    },
    {
      "epoch": 126.86,
      "learning_rate": 0.00014873041838676853,
      "loss": 0.6451,
      "step": 6470
    },
    {
      "epoch": 127.0,
      "eval_loss": 0.6453904509544373,
      "eval_runtime": 2.1225,
      "eval_samples_per_second": 1073.748,
      "eval_steps_per_second": 4.24,
      "step": 6477
    },
    {
      "epoch": 127.06,
      "learning_rate": 0.00014872298247629263,
      "loss": 0.6439,
      "step": 6480
    },
    {
      "epoch": 127.25,
      "learning_rate": 0.00014871552504035,
      "loss": 0.6429,
      "step": 6490
    },
    {
      "epoch": 127.45,
      "learning_rate": 0.00014870804608111812,
      "loss": 0.6456,
      "step": 6500
    },
    {
      "epoch": 127.65,
      "learning_rate": 0.00014870054560078057,
      "loss": 0.646,
      "step": 6510
    },
    {
      "epoch": 127.84,
      "learning_rate": 0.00014869302360152745,
      "loss": 0.6413,
      "step": 6520
    },
    {
      "epoch": 128.0,
      "eval_loss": 0.6441250443458557,
      "eval_runtime": 2.2111,
      "eval_samples_per_second": 1030.7,
      "eval_steps_per_second": 4.07,
      "step": 6528
    },
    {
      "epoch": 128.04,
      "learning_rate": 0.00014868548008555493,
      "loss": 0.6426,
      "step": 6530
    },
    {
      "epoch": 128.24,
      "learning_rate": 0.00014867791505506557,
      "loss": 0.6458,
      "step": 6540
    },
    {
      "epoch": 128.43,
      "learning_rate": 0.0001486703285122682,
      "loss": 0.6405,
      "step": 6550
    },
    {
      "epoch": 128.63,
      "learning_rate": 0.00014866272045937787,
      "loss": 0.6432,
      "step": 6560
    },
    {
      "epoch": 128.82,
      "learning_rate": 0.00014865509089861603,
      "loss": 0.6407,
      "step": 6570
    },
    {
      "epoch": 129.0,
      "eval_loss": 0.6409056782722473,
      "eval_runtime": 2.2046,
      "eval_samples_per_second": 1033.764,
      "eval_steps_per_second": 4.082,
      "step": 6579
    },
    {
      "epoch": 129.02,
      "learning_rate": 0.00014864743983221033,
      "loss": 0.6424,
      "step": 6580
    },
    {
      "epoch": 129.22,
      "learning_rate": 0.00014863976726239468,
      "loss": 0.6441,
      "step": 6590
    },
    {
      "epoch": 129.41,
      "learning_rate": 0.00014863207319140934,
      "loss": 0.6386,
      "step": 6600
    },
    {
      "epoch": 129.61,
      "learning_rate": 0.00014862435762150075,
      "loss": 0.6421,
      "step": 6610
    },
    {
      "epoch": 129.8,
      "learning_rate": 0.00014861662055492173,
      "loss": 0.6409,
      "step": 6620
    },
    {
      "epoch": 130.0,
      "learning_rate": 0.00014860886199393134,
      "loss": 0.6381,
      "step": 6630
    },
    {
      "epoch": 130.0,
      "eval_loss": 0.6422334909439087,
      "eval_runtime": 2.2457,
      "eval_samples_per_second": 1014.81,
      "eval_steps_per_second": 4.008,
      "step": 6630
    },
    {
      "epoch": 130.2,
      "learning_rate": 0.00014860108194079486,
      "loss": 0.6419,
      "step": 6640
    },
    {
      "epoch": 130.39,
      "learning_rate": 0.0001485932803977839,
      "loss": 0.6369,
      "step": 6650
    },
    {
      "epoch": 130.59,
      "learning_rate": 0.0001485854573671764,
      "loss": 0.6383,
      "step": 6660
    },
    {
      "epoch": 130.78,
      "learning_rate": 0.00014857761285125642,
      "loss": 0.6396,
      "step": 6670
    },
    {
      "epoch": 130.98,
      "learning_rate": 0.00014856974685231446,
      "loss": 0.6408,
      "step": 6680
    },
    {
      "epoch": 131.0,
      "eval_loss": 0.6432426571846008,
      "eval_runtime": 2.2309,
      "eval_samples_per_second": 1021.546,
      "eval_steps_per_second": 4.034,
      "step": 6681
    },
    {
      "epoch": 131.18,
      "learning_rate": 0.00014856185937264717,
      "loss": 0.6373,
      "step": 6690
    },
    {
      "epoch": 131.37,
      "learning_rate": 0.00014855395041455752,
      "loss": 0.6412,
      "step": 6700
    },
    {
      "epoch": 131.57,
      "learning_rate": 0.00014854601998035477,
      "loss": 0.6391,
      "step": 6710
    },
    {
      "epoch": 131.76,
      "learning_rate": 0.00014853806807235443,
      "loss": 0.6364,
      "step": 6720
    },
    {
      "epoch": 131.96,
      "learning_rate": 0.00014853009469287826,
      "loss": 0.6404,
      "step": 6730
    },
    {
      "epoch": 132.0,
      "eval_loss": 0.640821099281311,
      "eval_runtime": 2.0959,
      "eval_samples_per_second": 1087.358,
      "eval_steps_per_second": 4.294,
      "step": 6732
    },
    {
      "epoch": 132.16,
      "learning_rate": 0.00014852209984425434,
      "loss": 0.6456,
      "step": 6740
    },
    {
      "epoch": 132.35,
      "learning_rate": 0.00014851408352881693,
      "loss": 0.6469,
      "step": 6750
    },
    {
      "epoch": 132.55,
      "learning_rate": 0.0001485060457489067,
      "loss": 0.6374,
      "step": 6760
    },
    {
      "epoch": 132.75,
      "learning_rate": 0.0001484979865068704,
      "loss": 0.6421,
      "step": 6770
    },
    {
      "epoch": 132.94,
      "learning_rate": 0.00014848990580506124,
      "loss": 0.6412,
      "step": 6780
    },
    {
      "epoch": 133.0,
      "eval_loss": 0.635369598865509,
      "eval_runtime": 2.1408,
      "eval_samples_per_second": 1064.58,
      "eval_steps_per_second": 4.204,
      "step": 6783
    },
    {
      "epoch": 133.14,
      "learning_rate": 0.00014848180364583857,
      "loss": 0.6387,
      "step": 6790
    },
    {
      "epoch": 133.33,
      "learning_rate": 0.00014847368003156804,
      "loss": 0.6349,
      "step": 6800
    },
    {
      "epoch": 133.53,
      "learning_rate": 0.00014846553496462153,
      "loss": 0.638,
      "step": 6810
    },
    {
      "epoch": 133.73,
      "learning_rate": 0.00014845736844737727,
      "loss": 0.6346,
      "step": 6820
    },
    {
      "epoch": 133.92,
      "learning_rate": 0.0001484491804822197,
      "loss": 0.6348,
      "step": 6830
    },
    {
      "epoch": 134.0,
      "eval_loss": 0.6349772810935974,
      "eval_runtime": 2.174,
      "eval_samples_per_second": 1048.301,
      "eval_steps_per_second": 4.14,
      "step": 6834
    },
    {
      "epoch": 134.12,
      "learning_rate": 0.0001484409710715395,
      "loss": 0.6331,
      "step": 6840
    },
    {
      "epoch": 134.31,
      "learning_rate": 0.00014843274021773364,
      "loss": 0.638,
      "step": 6850
    },
    {
      "epoch": 134.51,
      "learning_rate": 0.00014842448792320534,
      "loss": 0.638,
      "step": 6860
    },
    {
      "epoch": 134.71,
      "learning_rate": 0.00014841621419036408,
      "loss": 0.6346,
      "step": 6870
    },
    {
      "epoch": 134.9,
      "learning_rate": 0.00014840791902162562,
      "loss": 0.6307,
      "step": 6880
    },
    {
      "epoch": 135.0,
      "eval_loss": 0.6389310956001282,
      "eval_runtime": 2.1053,
      "eval_samples_per_second": 1082.49,
      "eval_steps_per_second": 4.275,
      "step": 6885
    },
    {
      "epoch": 135.1,
      "learning_rate": 0.00014839960241941198,
      "loss": 0.6345,
      "step": 6890
    },
    {
      "epoch": 135.29,
      "learning_rate": 0.00014839126438615137,
      "loss": 0.6352,
      "step": 6900
    },
    {
      "epoch": 135.49,
      "learning_rate": 0.00014838290492427838,
      "loss": 0.6297,
      "step": 6910
    },
    {
      "epoch": 135.69,
      "learning_rate": 0.00014837452403623373,
      "loss": 0.6367,
      "step": 6920
    },
    {
      "epoch": 135.88,
      "learning_rate": 0.00014836612172446447,
      "loss": 0.639,
      "step": 6930
    },
    {
      "epoch": 136.0,
      "eval_loss": 0.6417258381843567,
      "eval_runtime": 2.2192,
      "eval_samples_per_second": 1026.924,
      "eval_steps_per_second": 4.055,
      "step": 6936
    },
    {
      "epoch": 136.08,
      "learning_rate": 0.00014835769799142389,
      "loss": 0.6377,
      "step": 6940
    },
    {
      "epoch": 136.27,
      "learning_rate": 0.00014834925283957153,
      "loss": 0.6389,
      "step": 6950
    },
    {
      "epoch": 136.47,
      "learning_rate": 0.0001483407862713732,
      "loss": 0.6385,
      "step": 6960
    },
    {
      "epoch": 136.67,
      "learning_rate": 0.00014833229828930094,
      "loss": 0.6331,
      "step": 6970
    },
    {
      "epoch": 136.86,
      "learning_rate": 0.00014832378889583303,
      "loss": 0.6319,
      "step": 6980
    },
    {
      "epoch": 137.0,
      "eval_loss": 0.6353015899658203,
      "eval_runtime": 2.2601,
      "eval_samples_per_second": 1008.349,
      "eval_steps_per_second": 3.982,
      "step": 6987
    },
    {
      "epoch": 137.06,
      "learning_rate": 0.00014831525809345404,
      "loss": 0.6331,
      "step": 6990
    },
    {
      "epoch": 137.25,
      "learning_rate": 0.0001483067058846548,
      "loss": 0.634,
      "step": 7000
    },
    {
      "epoch": 137.45,
      "learning_rate": 0.00014829813227193233,
      "loss": 0.6321,
      "step": 7010
    },
    {
      "epoch": 137.65,
      "learning_rate": 0.00014828953725778995,
      "loss": 0.6313,
      "step": 7020
    },
    {
      "epoch": 137.84,
      "learning_rate": 0.0001482809208447372,
      "loss": 0.6306,
      "step": 7030
    },
    {
      "epoch": 138.0,
      "eval_loss": 0.6385012269020081,
      "eval_runtime": 2.1538,
      "eval_samples_per_second": 1058.12,
      "eval_steps_per_second": 4.179,
      "step": 7038
    },
    {
      "epoch": 138.04,
      "learning_rate": 0.00014827228303528986,
      "loss": 0.6387,
      "step": 7040
    },
    {
      "epoch": 138.24,
      "learning_rate": 0.00014826362383197004,
      "loss": 0.6332,
      "step": 7050
    },
    {
      "epoch": 138.43,
      "learning_rate": 0.00014825494323730598,
      "loss": 0.6369,
      "step": 7060
    },
    {
      "epoch": 138.63,
      "learning_rate": 0.00014824624125383225,
      "loss": 0.6319,
      "step": 7070
    },
    {
      "epoch": 138.82,
      "learning_rate": 0.0001482375178840896,
      "loss": 0.6307,
      "step": 7080
    },
    {
      "epoch": 139.0,
      "eval_loss": 0.6411579251289368,
      "eval_runtime": 2.2349,
      "eval_samples_per_second": 1019.731,
      "eval_steps_per_second": 4.027,
      "step": 7089
    },
    {
      "epoch": 139.02,
      "learning_rate": 0.00014822877313062512,
      "loss": 0.6336,
      "step": 7090
    },
    {
      "epoch": 139.22,
      "learning_rate": 0.00014822000699599204,
      "loss": 0.6396,
      "step": 7100
    },
    {
      "epoch": 139.41,
      "learning_rate": 0.00014821121948274985,
      "loss": 0.6287,
      "step": 7110
    },
    {
      "epoch": 139.61,
      "learning_rate": 0.00014820241059346437,
      "loss": 0.6303,
      "step": 7120
    },
    {
      "epoch": 139.8,
      "learning_rate": 0.00014819358033070756,
      "loss": 0.6306,
      "step": 7130
    },
    {
      "epoch": 140.0,
      "learning_rate": 0.00014818472869705765,
      "loss": 0.6343,
      "step": 7140
    },
    {
      "epoch": 140.0,
      "eval_loss": 0.6308197379112244,
      "eval_runtime": 2.1192,
      "eval_samples_per_second": 1075.425,
      "eval_steps_per_second": 4.247,
      "step": 7140
    },
    {
      "epoch": 140.2,
      "learning_rate": 0.00014817585569509918,
      "loss": 0.6315,
      "step": 7150
    },
    {
      "epoch": 140.39,
      "learning_rate": 0.0001481669613274228,
      "loss": 0.6305,
      "step": 7160
    },
    {
      "epoch": 140.59,
      "learning_rate": 0.00014815804559662547,
      "loss": 0.6292,
      "step": 7170
    },
    {
      "epoch": 140.78,
      "learning_rate": 0.00014814910850531046,
      "loss": 0.6275,
      "step": 7180
    },
    {
      "epoch": 140.98,
      "learning_rate": 0.0001481401500560871,
      "loss": 0.6289,
      "step": 7190
    },
    {
      "epoch": 141.0,
      "eval_loss": 0.6336754560470581,
      "eval_runtime": 2.185,
      "eval_samples_per_second": 1043.027,
      "eval_steps_per_second": 4.119,
      "step": 7191
    },
    {
      "epoch": 141.18,
      "learning_rate": 0.00014813117025157114,
      "loss": 0.6284,
      "step": 7200
    },
    {
      "epoch": 141.37,
      "learning_rate": 0.00014812216909438443,
      "loss": 0.6286,
      "step": 7210
    },
    {
      "epoch": 141.57,
      "learning_rate": 0.00014811314658715516,
      "loss": 0.6321,
      "step": 7220
    },
    {
      "epoch": 141.76,
      "learning_rate": 0.00014810410273251762,
      "loss": 0.6281,
      "step": 7230
    },
    {
      "epoch": 141.96,
      "learning_rate": 0.00014809503753311252,
      "loss": 0.6298,
      "step": 7240
    },
    {
      "epoch": 142.0,
      "eval_loss": 0.6342359781265259,
      "eval_runtime": 2.2299,
      "eval_samples_per_second": 1022.019,
      "eval_steps_per_second": 4.036,
      "step": 7242
    },
    {
      "epoch": 142.16,
      "learning_rate": 0.0001480859509915866,
      "loss": 0.6277,
      "step": 7250
    },
    {
      "epoch": 142.35,
      "learning_rate": 0.00014807684311059297,
      "loss": 0.6304,
      "step": 7260
    },
    {
      "epoch": 142.55,
      "learning_rate": 0.0001480677138927909,
      "loss": 0.6329,
      "step": 7270
    },
    {
      "epoch": 142.75,
      "learning_rate": 0.000148058563340846,
      "loss": 0.6289,
      "step": 7280
    },
    {
      "epoch": 142.94,
      "learning_rate": 0.00014804939145742993,
      "loss": 0.6284,
      "step": 7290
    },
    {
      "epoch": 143.0,
      "eval_loss": 0.6286506056785583,
      "eval_runtime": 2.2504,
      "eval_samples_per_second": 1012.705,
      "eval_steps_per_second": 3.999,
      "step": 7293
    },
    {
      "epoch": 143.14,
      "learning_rate": 0.00014804019824522072,
      "loss": 0.6306,
      "step": 7300
    },
    {
      "epoch": 143.33,
      "learning_rate": 0.00014803098370690256,
      "loss": 0.6258,
      "step": 7310
    },
    {
      "epoch": 143.53,
      "learning_rate": 0.00014802174784516592,
      "loss": 0.6242,
      "step": 7320
    },
    {
      "epoch": 143.73,
      "learning_rate": 0.00014801249066270745,
      "loss": 0.6251,
      "step": 7330
    },
    {
      "epoch": 143.92,
      "learning_rate": 0.00014800321216223004,
      "loss": 0.624,
      "step": 7340
    },
    {
      "epoch": 144.0,
      "eval_loss": 0.6305137872695923,
      "eval_runtime": 2.1855,
      "eval_samples_per_second": 1042.771,
      "eval_steps_per_second": 4.118,
      "step": 7344
    },
    {
      "epoch": 144.12,
      "learning_rate": 0.00014799391234644282,
      "loss": 0.6305,
      "step": 7350
    },
    {
      "epoch": 144.31,
      "learning_rate": 0.00014798459121806112,
      "loss": 0.6235,
      "step": 7360
    },
    {
      "epoch": 144.51,
      "learning_rate": 0.0001479752487798065,
      "loss": 0.6233,
      "step": 7370
    },
    {
      "epoch": 144.71,
      "learning_rate": 0.00014796588503440675,
      "loss": 0.6252,
      "step": 7380
    },
    {
      "epoch": 144.9,
      "learning_rate": 0.00014795649998459583,
      "loss": 0.6266,
      "step": 7390
    },
    {
      "epoch": 145.0,
      "eval_loss": 0.6337530612945557,
      "eval_runtime": 2.1245,
      "eval_samples_per_second": 1072.699,
      "eval_steps_per_second": 4.236,
      "step": 7395
    },
    {
      "epoch": 145.1,
      "learning_rate": 0.000147947093633114,
      "loss": 0.6315,
      "step": 7400
    },
    {
      "epoch": 145.29,
      "learning_rate": 0.00014793766598270773,
      "loss": 0.6313,
      "step": 7410
    },
    {
      "epoch": 145.49,
      "learning_rate": 0.00014792821703612968,
      "loss": 0.6256,
      "step": 7420
    },
    {
      "epoch": 145.69,
      "learning_rate": 0.0001479187467961387,
      "loss": 0.6237,
      "step": 7430
    },
    {
      "epoch": 145.88,
      "learning_rate": 0.00014790925526549987,
      "loss": 0.6253,
      "step": 7440
    },
    {
      "epoch": 146.0,
      "eval_loss": 0.6281046271324158,
      "eval_runtime": 2.2095,
      "eval_samples_per_second": 1031.434,
      "eval_steps_per_second": 4.073,
      "step": 7446
    },
    {
      "epoch": 146.08,
      "learning_rate": 0.0001478997424469846,
      "loss": 0.6263,
      "step": 7450
    },
    {
      "epoch": 146.27,
      "learning_rate": 0.0001478902083433703,
      "loss": 0.625,
      "step": 7460
    },
    {
      "epoch": 146.47,
      "learning_rate": 0.0001478806529574408,
      "loss": 0.6256,
      "step": 7470
    },
    {
      "epoch": 146.67,
      "learning_rate": 0.00014787107629198601,
      "loss": 0.6251,
      "step": 7480
    },
    {
      "epoch": 146.86,
      "learning_rate": 0.00014786147834980218,
      "loss": 0.6204,
      "step": 7490
    },
    {
      "epoch": 147.0,
      "eval_loss": 0.624106764793396,
      "eval_runtime": 2.317,
      "eval_samples_per_second": 983.579,
      "eval_steps_per_second": 3.884,
      "step": 7497
    },
    {
      "epoch": 147.06,
      "learning_rate": 0.00014785185913369157,
      "loss": 0.621,
      "step": 7500
    },
    {
      "epoch": 147.25,
      "learning_rate": 0.00014784221864646289,
      "loss": 0.6257,
      "step": 7510
    },
    {
      "epoch": 147.45,
      "learning_rate": 0.0001478325568909309,
      "loss": 0.6257,
      "step": 7520
    },
    {
      "epoch": 147.65,
      "learning_rate": 0.0001478228738699166,
      "loss": 0.6245,
      "step": 7530
    },
    {
      "epoch": 147.84,
      "learning_rate": 0.00014781316958624726,
      "loss": 0.6232,
      "step": 7540
    },
    {
      "epoch": 148.0,
      "eval_loss": 0.6222416758537292,
      "eval_runtime": 2.1817,
      "eval_samples_per_second": 1044.619,
      "eval_steps_per_second": 4.125,
      "step": 7548
    },
    {
      "epoch": 148.04,
      "learning_rate": 0.00014780344404275627,
      "loss": 0.6219,
      "step": 7550
    },
    {
      "epoch": 148.24,
      "learning_rate": 0.00014779369724228332,
      "loss": 0.6228,
      "step": 7560
    },
    {
      "epoch": 148.43,
      "learning_rate": 0.00014778392918767422,
      "loss": 0.626,
      "step": 7570
    },
    {
      "epoch": 148.63,
      "learning_rate": 0.00014777413988178103,
      "loss": 0.6252,
      "step": 7580
    },
    {
      "epoch": 148.82,
      "learning_rate": 0.00014776432932746202,
      "loss": 0.6213,
      "step": 7590
    },
    {
      "epoch": 149.0,
      "eval_loss": 0.620071530342102,
      "eval_runtime": 2.1112,
      "eval_samples_per_second": 1079.463,
      "eval_steps_per_second": 4.263,
      "step": 7599
    },
    {
      "epoch": 149.02,
      "learning_rate": 0.00014775449752758166,
      "loss": 0.6174,
      "step": 7600
    },
    {
      "epoch": 149.22,
      "learning_rate": 0.00014774464448501058,
      "loss": 0.6262,
      "step": 7610
    },
    {
      "epoch": 149.41,
      "learning_rate": 0.0001477347702026257,
      "loss": 0.6249,
      "step": 7620
    },
    {
      "epoch": 149.61,
      "learning_rate": 0.00014772487468331006,
      "loss": 0.6219,
      "step": 7630
    },
    {
      "epoch": 149.8,
      "learning_rate": 0.00014771495792995293,
      "loss": 0.6219,
      "step": 7640
    },
    {
      "epoch": 150.0,
      "learning_rate": 0.00014770501994544976,
      "loss": 0.6225,
      "step": 7650
    },
    {
      "epoch": 150.0,
      "eval_loss": 0.6237109303474426,
      "eval_runtime": 2.0993,
      "eval_samples_per_second": 1085.616,
      "eval_steps_per_second": 4.287,
      "step": 7650
    },
    {
      "epoch": 150.2,
      "learning_rate": 0.00014769506073270228,
      "loss": 0.6222,
      "step": 7660
    },
    {
      "epoch": 150.39,
      "learning_rate": 0.0001476850802946183,
      "loss": 0.626,
      "step": 7670
    },
    {
      "epoch": 150.59,
      "learning_rate": 0.00014767507863411194,
      "loss": 0.622,
      "step": 7680
    },
    {
      "epoch": 150.78,
      "learning_rate": 0.0001476650557541034,
      "loss": 0.6205,
      "step": 7690
    },
    {
      "epoch": 150.98,
      "learning_rate": 0.00014765501165751917,
      "loss": 0.6228,
      "step": 7700
    },
    {
      "epoch": 151.0,
      "eval_loss": 0.6192641258239746,
      "eval_runtime": 2.0691,
      "eval_samples_per_second": 1101.464,
      "eval_steps_per_second": 4.35,
      "step": 7701
    },
    {
      "epoch": 151.18,
      "learning_rate": 0.0001476449463472919,
      "loss": 0.6194,
      "step": 7710
    },
    {
      "epoch": 151.37,
      "learning_rate": 0.00014763485982636045,
      "loss": 0.6193,
      "step": 7720
    },
    {
      "epoch": 151.57,
      "learning_rate": 0.00014762475209766985,
      "loss": 0.6174,
      "step": 7730
    },
    {
      "epoch": 151.76,
      "learning_rate": 0.00014761462316417132,
      "loss": 0.6191,
      "step": 7740
    },
    {
      "epoch": 151.96,
      "learning_rate": 0.00014760447302882227,
      "loss": 0.6191,
      "step": 7750
    },
    {
      "epoch": 152.0,
      "eval_loss": 0.6199597120285034,
      "eval_runtime": 2.2126,
      "eval_samples_per_second": 1029.988,
      "eval_steps_per_second": 4.068,
      "step": 7752
    },
    {
      "epoch": 152.16,
      "learning_rate": 0.00014759430169458636,
      "loss": 0.6251,
      "step": 7760
    },
    {
      "epoch": 152.35,
      "learning_rate": 0.00014758410916443333,
      "loss": 0.6229,
      "step": 7770
    },
    {
      "epoch": 152.55,
      "learning_rate": 0.00014757389544133926,
      "loss": 0.6175,
      "step": 7780
    },
    {
      "epoch": 152.75,
      "learning_rate": 0.00014756366052828622,
      "loss": 0.6195,
      "step": 7790
    },
    {
      "epoch": 152.94,
      "learning_rate": 0.00014755340442826266,
      "loss": 0.6198,
      "step": 7800
    },
    {
      "epoch": 153.0,
      "eval_loss": 0.6229197978973389,
      "eval_runtime": 2.1172,
      "eval_samples_per_second": 1076.425,
      "eval_steps_per_second": 4.251,
      "step": 7803
    },
    {
      "epoch": 153.14,
      "learning_rate": 0.0001475431271442631,
      "loss": 0.6181,
      "step": 7810
    },
    {
      "epoch": 153.33,
      "learning_rate": 0.0001475328286792883,
      "loss": 0.6236,
      "step": 7820
    },
    {
      "epoch": 153.53,
      "learning_rate": 0.00014752250903634514,
      "loss": 0.621,
      "step": 7830
    },
    {
      "epoch": 153.73,
      "learning_rate": 0.00014751216821844677,
      "loss": 0.6167,
      "step": 7840
    },
    {
      "epoch": 153.92,
      "learning_rate": 0.00014750180622861243,
      "loss": 0.6183,
      "step": 7850
    },
    {
      "epoch": 154.0,
      "eval_loss": 0.6212825179100037,
      "eval_runtime": 2.2545,
      "eval_samples_per_second": 1010.847,
      "eval_steps_per_second": 3.992,
      "step": 7854
    },
    {
      "epoch": 154.12,
      "learning_rate": 0.00014749142306986763,
      "loss": 0.6227,
      "step": 7860
    },
    {
      "epoch": 154.31,
      "learning_rate": 0.00014748101874524402,
      "loss": 0.62,
      "step": 7870
    },
    {
      "epoch": 154.51,
      "learning_rate": 0.00014747059325777943,
      "loss": 0.6211,
      "step": 7880
    },
    {
      "epoch": 154.71,
      "learning_rate": 0.00014746014661051784,
      "loss": 0.6164,
      "step": 7890
    },
    {
      "epoch": 154.9,
      "learning_rate": 0.00014744967880650947,
      "loss": 0.6181,
      "step": 7900
    },
    {
      "epoch": 155.0,
      "eval_loss": 0.6212865114212036,
      "eval_runtime": 2.1579,
      "eval_samples_per_second": 1056.104,
      "eval_steps_per_second": 4.171,
      "step": 7905
    },
    {
      "epoch": 155.1,
      "learning_rate": 0.00014743918984881066,
      "loss": 0.6198,
      "step": 7910
    },
    {
      "epoch": 155.29,
      "learning_rate": 0.000147428679740484,
      "loss": 0.6242,
      "step": 7920
    },
    {
      "epoch": 155.49,
      "learning_rate": 0.00014741814848459812,
      "loss": 0.6169,
      "step": 7930
    },
    {
      "epoch": 155.69,
      "learning_rate": 0.000147407596084228,
      "loss": 0.6203,
      "step": 7940
    },
    {
      "epoch": 155.88,
      "learning_rate": 0.00014739702254245465,
      "loss": 0.6168,
      "step": 7950
    },
    {
      "epoch": 156.0,
      "eval_loss": 0.6163668036460876,
      "eval_runtime": 2.143,
      "eval_samples_per_second": 1063.445,
      "eval_steps_per_second": 4.2,
      "step": 7956
    },
    {
      "epoch": 156.08,
      "learning_rate": 0.00014738642786236533,
      "loss": 0.6208,
      "step": 7960
    },
    {
      "epoch": 156.27,
      "learning_rate": 0.00014737581204705345,
      "loss": 0.62,
      "step": 7970
    },
    {
      "epoch": 156.47,
      "learning_rate": 0.0001473651750996186,
      "loss": 0.6165,
      "step": 7980
    },
    {
      "epoch": 156.67,
      "learning_rate": 0.0001473545170231665,
      "loss": 0.6187,
      "step": 7990
    },
    {
      "epoch": 156.86,
      "learning_rate": 0.00014734383782080912,
      "loss": 0.6156,
      "step": 8000
    },
    {
      "epoch": 157.0,
      "eval_loss": 0.6160290241241455,
      "eval_runtime": 2.1391,
      "eval_samples_per_second": 1065.42,
      "eval_steps_per_second": 4.207,
      "step": 8007
    },
    {
      "epoch": 157.06,
      "learning_rate": 0.0001473331374956645,
      "loss": 0.619,
      "step": 8010
    },
    {
      "epoch": 157.25,
      "learning_rate": 0.00014732241605085693,
      "loss": 0.6117,
      "step": 8020
    },
    {
      "epoch": 157.45,
      "learning_rate": 0.0001473116734895168,
      "loss": 0.615,
      "step": 8030
    },
    {
      "epoch": 157.65,
      "learning_rate": 0.00014730090981478075,
      "loss": 0.6147,
      "step": 8040
    },
    {
      "epoch": 157.84,
      "learning_rate": 0.00014729012502979146,
      "loss": 0.6125,
      "step": 8050
    },
    {
      "epoch": 158.0,
      "eval_loss": 0.6153013110160828,
      "eval_runtime": 2.256,
      "eval_samples_per_second": 1010.206,
      "eval_steps_per_second": 3.989,
      "step": 8058
    },
    {
      "epoch": 158.04,
      "learning_rate": 0.00014727931913769793,
      "loss": 0.6186,
      "step": 8060
    },
    {
      "epoch": 158.24,
      "learning_rate": 0.00014726849214165516,
      "loss": 0.6138,
      "step": 8070
    },
    {
      "epoch": 158.43,
      "learning_rate": 0.00014725764404482445,
      "loss": 0.6207,
      "step": 8080
    },
    {
      "epoch": 158.63,
      "learning_rate": 0.00014724677485037317,
      "loss": 0.6155,
      "step": 8090
    },
    {
      "epoch": 158.82,
      "learning_rate": 0.0001472358845614749,
      "loss": 0.6126,
      "step": 8100
    },
    {
      "epoch": 159.0,
      "eval_loss": 0.6150580048561096,
      "eval_runtime": 2.1863,
      "eval_samples_per_second": 1042.382,
      "eval_steps_per_second": 4.116,
      "step": 8109
    },
    {
      "epoch": 159.02,
      "learning_rate": 0.00014722497318130935,
      "loss": 0.6151,
      "step": 8110
    },
    {
      "epoch": 159.22,
      "learning_rate": 0.0001472140407130624,
      "loss": 0.61,
      "step": 8120
    },
    {
      "epoch": 159.41,
      "learning_rate": 0.00014720308715992613,
      "loss": 0.6128,
      "step": 8130
    },
    {
      "epoch": 159.61,
      "learning_rate": 0.00014719211252509865,
      "loss": 0.6123,
      "step": 8140
    },
    {
      "epoch": 159.8,
      "learning_rate": 0.00014718111681178437,
      "loss": 0.6129,
      "step": 8150
    },
    {
      "epoch": 160.0,
      "learning_rate": 0.00014717010002319376,
      "loss": 0.6115,
      "step": 8160
    },
    {
      "epoch": 160.0,
      "eval_loss": 0.6163375377655029,
      "eval_runtime": 2.1353,
      "eval_samples_per_second": 1067.303,
      "eval_steps_per_second": 4.215,
      "step": 8160
    },
    {
      "epoch": 160.2,
      "learning_rate": 0.0001471590621625435,
      "loss": 0.6117,
      "step": 8170
    },
    {
      "epoch": 160.39,
      "learning_rate": 0.00014714800323305642,
      "loss": 0.6116,
      "step": 8180
    },
    {
      "epoch": 160.59,
      "learning_rate": 0.00014713692323796142,
      "loss": 0.6091,
      "step": 8190
    },
    {
      "epoch": 160.78,
      "learning_rate": 0.00014712582218049365,
      "loss": 0.6147,
      "step": 8200
    },
    {
      "epoch": 160.98,
      "learning_rate": 0.00014711470006389436,
      "loss": 0.611,
      "step": 8210
    },
    {
      "epoch": 161.0,
      "eval_loss": 0.6166603565216064,
      "eval_runtime": 2.1988,
      "eval_samples_per_second": 1036.453,
      "eval_steps_per_second": 4.093,
      "step": 8211
    },
    {
      "epoch": 161.18,
      "learning_rate": 0.000147103556891411,
      "loss": 0.6208,
      "step": 8220
    },
    {
      "epoch": 161.37,
      "learning_rate": 0.00014709239266629705,
      "loss": 0.6114,
      "step": 8230
    },
    {
      "epoch": 161.57,
      "learning_rate": 0.00014708120739181227,
      "loss": 0.612,
      "step": 8240
    },
    {
      "epoch": 161.76,
      "learning_rate": 0.0001470700010712225,
      "loss": 0.6107,
      "step": 8250
    },
    {
      "epoch": 161.96,
      "learning_rate": 0.00014705877370779975,
      "loss": 0.6099,
      "step": 8260
    },
    {
      "epoch": 162.0,
      "eval_loss": 0.608273446559906,
      "eval_runtime": 2.1536,
      "eval_samples_per_second": 1058.242,
      "eval_steps_per_second": 4.179,
      "step": 8262
    },
    {
      "epoch": 162.16,
      "learning_rate": 0.00014704752530482213,
      "loss": 0.6117,
      "step": 8270
    },
    {
      "epoch": 162.35,
      "learning_rate": 0.00014703625586557392,
      "loss": 0.6114,
      "step": 8280
    },
    {
      "epoch": 162.55,
      "learning_rate": 0.00014702496539334558,
      "loss": 0.6113,
      "step": 8290
    },
    {
      "epoch": 162.75,
      "learning_rate": 0.00014701365389143366,
      "loss": 0.6121,
      "step": 8300
    },
    {
      "epoch": 162.94,
      "learning_rate": 0.00014700232136314085,
      "loss": 0.6089,
      "step": 8310
    },
    {
      "epoch": 163.0,
      "eval_loss": 0.6103874444961548,
      "eval_runtime": 2.2403,
      "eval_samples_per_second": 1017.264,
      "eval_steps_per_second": 4.017,
      "step": 8313
    },
    {
      "epoch": 163.14,
      "learning_rate": 0.00014699096781177603,
      "loss": 0.6081,
      "step": 8320
    },
    {
      "epoch": 163.33,
      "learning_rate": 0.00014697959324065415,
      "loss": 0.6117,
      "step": 8330
    },
    {
      "epoch": 163.53,
      "learning_rate": 0.00014696819765309637,
      "loss": 0.6091,
      "step": 8340
    },
    {
      "epoch": 163.73,
      "learning_rate": 0.0001469567810524299,
      "loss": 0.6109,
      "step": 8350
    },
    {
      "epoch": 163.92,
      "learning_rate": 0.00014694534344198814,
      "loss": 0.6091,
      "step": 8360
    },
    {
      "epoch": 164.0,
      "eval_loss": 0.6139717698097229,
      "eval_runtime": 2.2739,
      "eval_samples_per_second": 1002.243,
      "eval_steps_per_second": 3.958,
      "step": 8364
    },
    {
      "epoch": 164.12,
      "learning_rate": 0.00014693388482511067,
      "loss": 0.6104,
      "step": 8370
    },
    {
      "epoch": 164.31,
      "learning_rate": 0.00014692240520514308,
      "loss": 0.6059,
      "step": 8380
    },
    {
      "epoch": 164.51,
      "learning_rate": 0.0001469109045854372,
      "loss": 0.6079,
      "step": 8390
    },
    {
      "epoch": 164.71,
      "learning_rate": 0.00014689938296935095,
      "loss": 0.6097,
      "step": 8400
    },
    {
      "epoch": 164.9,
      "learning_rate": 0.0001468878403602484,
      "loss": 0.6105,
      "step": 8410
    },
    {
      "epoch": 165.0,
      "eval_loss": 0.6122100949287415,
      "eval_runtime": 2.0978,
      "eval_samples_per_second": 1086.385,
      "eval_steps_per_second": 4.29,
      "step": 8415
    },
    {
      "epoch": 165.1,
      "learning_rate": 0.0001468762767614997,
      "loss": 0.6108,
      "step": 8420
    },
    {
      "epoch": 165.29,
      "learning_rate": 0.0001468646921764812,
      "loss": 0.6138,
      "step": 8430
    },
    {
      "epoch": 165.49,
      "learning_rate": 0.0001468530866085753,
      "loss": 0.6102,
      "step": 8440
    },
    {
      "epoch": 165.69,
      "learning_rate": 0.0001468414600611706,
      "loss": 0.6078,
      "step": 8450
    },
    {
      "epoch": 165.88,
      "learning_rate": 0.0001468298125376618,
      "loss": 0.61,
      "step": 8460
    },
    {
      "epoch": 166.0,
      "eval_loss": 0.6105751395225525,
      "eval_runtime": 2.2305,
      "eval_samples_per_second": 1021.739,
      "eval_steps_per_second": 4.035,
      "step": 8466
    },
    {
      "epoch": 166.08,
      "learning_rate": 0.0001468181440414497,
      "loss": 0.608,
      "step": 8470
    },
    {
      "epoch": 166.27,
      "learning_rate": 0.0001468064545759412,
      "loss": 0.6077,
      "step": 8480
    },
    {
      "epoch": 166.47,
      "learning_rate": 0.00014679474414454942,
      "loss": 0.6073,
      "step": 8490
    },
    {
      "epoch": 166.67,
      "learning_rate": 0.00014678301275069353,
      "loss": 0.6081,
      "step": 8500
    },
    {
      "epoch": 166.86,
      "learning_rate": 0.00014677126039779886,
      "loss": 0.6104,
      "step": 8510
    },
    {
      "epoch": 167.0,
      "eval_loss": 0.6062180399894714,
      "eval_runtime": 2.2377,
      "eval_samples_per_second": 1018.474,
      "eval_steps_per_second": 4.022,
      "step": 8517
    },
    {
      "epoch": 167.06,
      "learning_rate": 0.0001467594870892968,
      "loss": 0.61,
      "step": 8520
    },
    {
      "epoch": 167.25,
      "learning_rate": 0.00014674769282862487,
      "loss": 0.6098,
      "step": 8530
    },
    {
      "epoch": 167.45,
      "learning_rate": 0.0001467358776192268,
      "loss": 0.6099,
      "step": 8540
    },
    {
      "epoch": 167.65,
      "learning_rate": 0.0001467240414645523,
      "loss": 0.6036,
      "step": 8550
    },
    {
      "epoch": 167.84,
      "learning_rate": 0.00014671218436805732,
      "loss": 0.6067,
      "step": 8560
    },
    {
      "epoch": 168.0,
      "eval_loss": 0.6094751358032227,
      "eval_runtime": 2.1511,
      "eval_samples_per_second": 1059.437,
      "eval_steps_per_second": 4.184,
      "step": 8568
    },
    {
      "epoch": 168.04,
      "learning_rate": 0.00014670030633320383,
      "loss": 0.6032,
      "step": 8570
    },
    {
      "epoch": 168.24,
      "learning_rate": 0.00014668840736345993,
      "loss": 0.607,
      "step": 8580
    },
    {
      "epoch": 168.43,
      "learning_rate": 0.00014667648746229993,
      "loss": 0.6061,
      "step": 8590
    },
    {
      "epoch": 168.63,
      "learning_rate": 0.0001466645466332041,
      "loss": 0.608,
      "step": 8600
    },
    {
      "epoch": 168.82,
      "learning_rate": 0.00014665258487965896,
      "loss": 0.6056,
      "step": 8610
    },
    {
      "epoch": 169.0,
      "eval_loss": 0.606715202331543,
      "eval_runtime": 2.1396,
      "eval_samples_per_second": 1065.129,
      "eval_steps_per_second": 4.206,
      "step": 8619
    },
    {
      "epoch": 169.02,
      "learning_rate": 0.00014664060220515704,
      "loss": 0.6008,
      "step": 8620
    },
    {
      "epoch": 169.22,
      "learning_rate": 0.00014662859861319698,
      "loss": 0.6066,
      "step": 8630
    },
    {
      "epoch": 169.41,
      "learning_rate": 0.00014661657410728365,
      "loss": 0.604,
      "step": 8640
    },
    {
      "epoch": 169.61,
      "learning_rate": 0.00014660452869092786,
      "loss": 0.6058,
      "step": 8650
    },
    {
      "epoch": 169.8,
      "learning_rate": 0.0001465924623676466,
      "loss": 0.6037,
      "step": 8660
    },
    {
      "epoch": 170.0,
      "learning_rate": 0.00014658037514096305,
      "loss": 0.607,
      "step": 8670
    },
    {
      "epoch": 170.0,
      "eval_loss": 0.6091219782829285,
      "eval_runtime": 2.2153,
      "eval_samples_per_second": 1028.74,
      "eval_steps_per_second": 4.063,
      "step": 8670
    },
    {
      "epoch": 170.2,
      "learning_rate": 0.00014656826701440632,
      "loss": 0.6046,
      "step": 8680
    },
    {
      "epoch": 170.39,
      "learning_rate": 0.00014655613799151177,
      "loss": 0.6135,
      "step": 8690
    },
    {
      "epoch": 170.59,
      "learning_rate": 0.00014654398807582074,
      "loss": 0.6052,
      "step": 8700
    },
    {
      "epoch": 170.78,
      "learning_rate": 0.00014653181727088084,
      "loss": 0.6088,
      "step": 8710
    },
    {
      "epoch": 170.98,
      "learning_rate": 0.00014651962558024558,
      "loss": 0.6032,
      "step": 8720
    },
    {
      "epoch": 171.0,
      "eval_loss": 0.6041246652603149,
      "eval_runtime": 2.1575,
      "eval_samples_per_second": 1056.316,
      "eval_steps_per_second": 4.171,
      "step": 8721
    },
    {
      "epoch": 171.18,
      "learning_rate": 0.00014650741300747467,
      "loss": 0.6048,
      "step": 8730
    },
    {
      "epoch": 171.37,
      "learning_rate": 0.00014649517955613397,
      "loss": 0.6034,
      "step": 8740
    },
    {
      "epoch": 171.57,
      "learning_rate": 0.0001464829252297953,
      "loss": 0.6044,
      "step": 8750
    },
    {
      "epoch": 171.76,
      "learning_rate": 0.00014647065003203674,
      "loss": 0.6014,
      "step": 8760
    },
    {
      "epoch": 171.96,
      "learning_rate": 0.00014645835396644228,
      "loss": 0.6038,
      "step": 8770
    },
    {
      "epoch": 172.0,
      "eval_loss": 0.610372006893158,
      "eval_runtime": 2.2748,
      "eval_samples_per_second": 1001.839,
      "eval_steps_per_second": 3.956,
      "step": 8772
    },
    {
      "epoch": 172.16,
      "learning_rate": 0.00014644603703660214,
      "loss": 0.6019,
      "step": 8780
    },
    {
      "epoch": 172.35,
      "learning_rate": 0.0001464336992461126,
      "loss": 0.6056,
      "step": 8790
    },
    {
      "epoch": 172.55,
      "learning_rate": 0.000146421340598576,
      "loss": 0.6053,
      "step": 8800
    },
    {
      "epoch": 172.75,
      "learning_rate": 0.0001464089610976008,
      "loss": 0.6066,
      "step": 8810
    },
    {
      "epoch": 172.94,
      "learning_rate": 0.0001463965607468015,
      "loss": 0.605,
      "step": 8820
    },
    {
      "epoch": 173.0,
      "eval_loss": 0.606823742389679,
      "eval_runtime": 2.2188,
      "eval_samples_per_second": 1027.155,
      "eval_steps_per_second": 4.056,
      "step": 8823
    },
    {
      "epoch": 173.14,
      "learning_rate": 0.0001463841395497988,
      "loss": 0.6055,
      "step": 8830
    },
    {
      "epoch": 173.33,
      "learning_rate": 0.00014637169751021938,
      "loss": 0.602,
      "step": 8840
    },
    {
      "epoch": 173.53,
      "learning_rate": 0.000146359234631696,
      "loss": 0.6031,
      "step": 8850
    },
    {
      "epoch": 173.73,
      "learning_rate": 0.00014634675091786757,
      "loss": 0.6029,
      "step": 8860
    },
    {
      "epoch": 173.92,
      "learning_rate": 0.0001463342463723791,
      "loss": 0.6036,
      "step": 8870
    },
    {
      "epoch": 174.0,
      "eval_loss": 0.6004641056060791,
      "eval_runtime": 2.1823,
      "eval_samples_per_second": 1044.294,
      "eval_steps_per_second": 4.124,
      "step": 8874
    },
    {
      "epoch": 174.12,
      "learning_rate": 0.00014632172099888157,
      "loss": 0.6014,
      "step": 8880
    },
    {
      "epoch": 174.31,
      "learning_rate": 0.00014630917480103214,
      "loss": 0.5998,
      "step": 8890
    },
    {
      "epoch": 174.51,
      "learning_rate": 0.000146296607782494,
      "loss": 0.6006,
      "step": 8900
    },
    {
      "epoch": 174.71,
      "learning_rate": 0.0001462840199469365,
      "loss": 0.5982,
      "step": 8910
    },
    {
      "epoch": 174.9,
      "learning_rate": 0.00014627141129803492,
      "loss": 0.6035,
      "step": 8920
    },
    {
      "epoch": 175.0,
      "eval_loss": 0.605520486831665,
      "eval_runtime": 2.0997,
      "eval_samples_per_second": 1085.379,
      "eval_steps_per_second": 4.286,
      "step": 8925
    },
    {
      "epoch": 175.1,
      "learning_rate": 0.00014625878183947076,
      "loss": 0.6024,
      "step": 8930
    },
    {
      "epoch": 175.29,
      "learning_rate": 0.00014624613157493153,
      "loss": 0.6016,
      "step": 8940
    },
    {
      "epoch": 175.49,
      "learning_rate": 0.00014623346050811085,
      "loss": 0.6036,
      "step": 8950
    },
    {
      "epoch": 175.69,
      "learning_rate": 0.0001462207686427083,
      "loss": 0.6034,
      "step": 8960
    },
    {
      "epoch": 175.88,
      "learning_rate": 0.0001462080559824297,
      "loss": 0.6026,
      "step": 8970
    },
    {
      "epoch": 176.0,
      "eval_loss": 0.6013907194137573,
      "eval_runtime": 2.2617,
      "eval_samples_per_second": 1007.639,
      "eval_steps_per_second": 3.979,
      "step": 8976
    },
    {
      "epoch": 176.08,
      "learning_rate": 0.0001461953225309869,
      "loss": 0.5985,
      "step": 8980
    },
    {
      "epoch": 176.27,
      "learning_rate": 0.0001461825682920977,
      "loss": 0.6,
      "step": 8990
    },
    {
      "epoch": 176.47,
      "learning_rate": 0.00014616979326948607,
      "loss": 0.6012,
      "step": 9000
    },
    {
      "epoch": 176.67,
      "learning_rate": 0.00014615699746688206,
      "loss": 0.6005,
      "step": 9010
    },
    {
      "epoch": 176.86,
      "learning_rate": 0.00014614418088802173,
      "loss": 0.6012,
      "step": 9020
    },
    {
      "epoch": 177.0,
      "eval_loss": 0.6028780341148376,
      "eval_runtime": 2.2208,
      "eval_samples_per_second": 1026.22,
      "eval_steps_per_second": 4.053,
      "step": 9027
    },
    {
      "epoch": 177.06,
      "learning_rate": 0.0001461313435366473,
      "loss": 0.6033,
      "step": 9030
    },
    {
      "epoch": 177.25,
      "learning_rate": 0.00014611848541650686,
      "loss": 0.6005,
      "step": 9040
    },
    {
      "epoch": 177.45,
      "learning_rate": 0.00014610560653135482,
      "loss": 0.5972,
      "step": 9050
    },
    {
      "epoch": 177.65,
      "learning_rate": 0.0001460927068849515,
      "loss": 0.5979,
      "step": 9060
    },
    {
      "epoch": 177.84,
      "learning_rate": 0.00014607978648106327,
      "loss": 0.5945,
      "step": 9070
    },
    {
      "epoch": 178.0,
      "eval_loss": 0.5966967344284058,
      "eval_runtime": 2.2013,
      "eval_samples_per_second": 1035.296,
      "eval_steps_per_second": 4.088,
      "step": 9078
    },
    {
      "epoch": 178.04,
      "learning_rate": 0.0001460668453234626,
      "loss": 0.5976,
      "step": 9080
    },
    {
      "epoch": 178.24,
      "learning_rate": 0.00014605388341592805,
      "loss": 0.597,
      "step": 9090
    },
    {
      "epoch": 178.43,
      "learning_rate": 0.00014604090076224423,
      "loss": 0.5998,
      "step": 9100
    },
    {
      "epoch": 178.63,
      "learning_rate": 0.0001460278973662017,
      "loss": 0.5972,
      "step": 9110
    },
    {
      "epoch": 178.82,
      "learning_rate": 0.00014601487323159728,
      "loss": 0.6011,
      "step": 9120
    },
    {
      "epoch": 179.0,
      "eval_loss": 0.5920745730400085,
      "eval_runtime": 2.1356,
      "eval_samples_per_second": 1067.143,
      "eval_steps_per_second": 4.214,
      "step": 9129
    },
    {
      "epoch": 179.02,
      "learning_rate": 0.0001460018283622336,
      "loss": 0.6004,
      "step": 9130
    },
    {
      "epoch": 179.22,
      "learning_rate": 0.00014598876276191957,
      "loss": 0.597,
      "step": 9140
    },
    {
      "epoch": 179.41,
      "learning_rate": 0.00014597567643447,
      "loss": 0.5967,
      "step": 9150
    },
    {
      "epoch": 179.61,
      "learning_rate": 0.00014596256938370584,
      "loss": 0.5986,
      "step": 9160
    },
    {
      "epoch": 179.8,
      "learning_rate": 0.00014594944161345404,
      "loss": 0.5954,
      "step": 9170
    },
    {
      "epoch": 180.0,
      "learning_rate": 0.00014593629312754756,
      "loss": 0.5929,
      "step": 9180
    },
    {
      "epoch": 180.0,
      "eval_loss": 0.5991100668907166,
      "eval_runtime": 2.2402,
      "eval_samples_per_second": 1017.3,
      "eval_steps_per_second": 4.017,
      "step": 9180
    },
    {
      "epoch": 180.2,
      "learning_rate": 0.00014592312392982558,
      "loss": 0.5966,
      "step": 9190
    },
    {
      "epoch": 180.39,
      "learning_rate": 0.00014590993402413313,
      "loss": 0.5993,
      "step": 9200
    },
    {
      "epoch": 180.59,
      "learning_rate": 0.0001458967234143214,
      "loss": 0.6039,
      "step": 9210
    },
    {
      "epoch": 180.78,
      "learning_rate": 0.00014588349210424757,
      "loss": 0.5962,
      "step": 9220
    },
    {
      "epoch": 180.98,
      "learning_rate": 0.00014587024009777492,
      "loss": 0.5981,
      "step": 9230
    },
    {
      "epoch": 181.0,
      "eval_loss": 0.5953816175460815,
      "eval_runtime": 2.1845,
      "eval_samples_per_second": 1043.242,
      "eval_steps_per_second": 4.12,
      "step": 9231
    },
    {
      "epoch": 181.18,
      "learning_rate": 0.0001458569673987727,
      "loss": 0.5913,
      "step": 9240
    },
    {
      "epoch": 181.37,
      "learning_rate": 0.00014584367401111628,
      "loss": 0.5993,
      "step": 9250
    },
    {
      "epoch": 181.57,
      "learning_rate": 0.00014583035993868701,
      "loss": 0.5983,
      "step": 9260
    },
    {
      "epoch": 181.76,
      "learning_rate": 0.0001458170251853723,
      "loss": 0.5953,
      "step": 9270
    },
    {
      "epoch": 181.96,
      "learning_rate": 0.00014580366975506563,
      "loss": 0.6011,
      "step": 9280
    },
    {
      "epoch": 182.0,
      "eval_loss": 0.6006762385368347,
      "eval_runtime": 2.2479,
      "eval_samples_per_second": 1013.832,
      "eval_steps_per_second": 4.004,
      "step": 9282
    },
    {
      "epoch": 182.16,
      "learning_rate": 0.00014579029365166646,
      "loss": 0.6002,
      "step": 9290
    },
    {
      "epoch": 182.35,
      "learning_rate": 0.0001457768968790803,
      "loss": 0.596,
      "step": 9300
    },
    {
      "epoch": 182.55,
      "learning_rate": 0.00014576347944121872,
      "loss": 0.5964,
      "step": 9310
    },
    {
      "epoch": 182.75,
      "learning_rate": 0.00014575004134199937,
      "loss": 0.5929,
      "step": 9320
    },
    {
      "epoch": 182.94,
      "learning_rate": 0.00014573658258534578,
      "loss": 0.5977,
      "step": 9330
    },
    {
      "epoch": 183.0,
      "eval_loss": 0.6013053059577942,
      "eval_runtime": 2.1277,
      "eval_samples_per_second": 1071.122,
      "eval_steps_per_second": 4.23,
      "step": 9333
    },
    {
      "epoch": 183.14,
      "learning_rate": 0.0001457231031751877,
      "loss": 0.5967,
      "step": 9340
    },
    {
      "epoch": 183.33,
      "learning_rate": 0.00014570960311546073,
      "loss": 0.5993,
      "step": 9350
    },
    {
      "epoch": 183.53,
      "learning_rate": 0.00014569608241010663,
      "loss": 0.5945,
      "step": 9360
    },
    {
      "epoch": 183.73,
      "learning_rate": 0.00014568254106307318,
      "loss": 0.5928,
      "step": 9370
    },
    {
      "epoch": 183.92,
      "learning_rate": 0.00014566897907831408,
      "loss": 0.5947,
      "step": 9380
    },
    {
      "epoch": 184.0,
      "eval_loss": 0.602336049079895,
      "eval_runtime": 2.2459,
      "eval_samples_per_second": 1014.742,
      "eval_steps_per_second": 4.007,
      "step": 9384
    },
    {
      "epoch": 184.12,
      "learning_rate": 0.00014565539645978917,
      "loss": 0.5934,
      "step": 9390
    },
    {
      "epoch": 184.31,
      "learning_rate": 0.00014564179321146427,
      "loss": 0.5975,
      "step": 9400
    },
    {
      "epoch": 184.51,
      "learning_rate": 0.0001456281693373112,
      "loss": 0.5974,
      "step": 9410
    },
    {
      "epoch": 184.71,
      "learning_rate": 0.00014561452484130786,
      "loss": 0.5978,
      "step": 9420
    },
    {
      "epoch": 184.9,
      "learning_rate": 0.0001456008597274381,
      "loss": 0.59,
      "step": 9430
    },
    {
      "epoch": 185.0,
      "eval_loss": 0.5967941284179688,
      "eval_runtime": 2.1353,
      "eval_samples_per_second": 1067.295,
      "eval_steps_per_second": 4.215,
      "step": 9435
    },
    {
      "epoch": 185.1,
      "learning_rate": 0.00014558717399969188,
      "loss": 0.5959,
      "step": 9440
    },
    {
      "epoch": 185.29,
      "learning_rate": 0.00014557346766206508,
      "loss": 0.5968,
      "step": 9450
    },
    {
      "epoch": 185.49,
      "learning_rate": 0.00014555974071855967,
      "loss": 0.5948,
      "step": 9460
    },
    {
      "epoch": 185.69,
      "learning_rate": 0.0001455459931731836,
      "loss": 0.5959,
      "step": 9470
    },
    {
      "epoch": 185.88,
      "learning_rate": 0.00014553222502995087,
      "loss": 0.5924,
      "step": 9480
    },
    {
      "epoch": 186.0,
      "eval_loss": 0.5987167954444885,
      "eval_runtime": 2.2188,
      "eval_samples_per_second": 1027.115,
      "eval_steps_per_second": 4.056,
      "step": 9486
    },
    {
      "epoch": 186.08,
      "learning_rate": 0.00014551843629288143,
      "loss": 0.5948,
      "step": 9490
    },
    {
      "epoch": 186.27,
      "learning_rate": 0.00014550462696600133,
      "loss": 0.5946,
      "step": 9500
    },
    {
      "epoch": 186.47,
      "learning_rate": 0.00014549079705334253,
      "loss": 0.5933,
      "step": 9510
    },
    {
      "epoch": 186.67,
      "learning_rate": 0.0001454769465589431,
      "loss": 0.5963,
      "step": 9520
    },
    {
      "epoch": 186.86,
      "learning_rate": 0.00014546307548684708,
      "loss": 0.5906,
      "step": 9530
    },
    {
      "epoch": 187.0,
      "eval_loss": 0.5914626121520996,
      "eval_runtime": 2.1056,
      "eval_samples_per_second": 1082.37,
      "eval_steps_per_second": 4.274,
      "step": 9537
    },
    {
      "epoch": 187.06,
      "learning_rate": 0.0001454491838411045,
      "loss": 0.5908,
      "step": 9540
    },
    {
      "epoch": 187.25,
      "learning_rate": 0.00014543527162577137,
      "loss": 0.5945,
      "step": 9550
    },
    {
      "epoch": 187.45,
      "learning_rate": 0.00014542133884490983,
      "loss": 0.5961,
      "step": 9560
    },
    {
      "epoch": 187.65,
      "learning_rate": 0.00014540738550258787,
      "loss": 0.5961,
      "step": 9570
    },
    {
      "epoch": 187.84,
      "learning_rate": 0.00014539341160287958,
      "loss": 0.5928,
      "step": 9580
    },
    {
      "epoch": 188.0,
      "eval_loss": 0.5877456665039062,
      "eval_runtime": 2.2344,
      "eval_samples_per_second": 1019.947,
      "eval_steps_per_second": 4.028,
      "step": 9588
    },
    {
      "epoch": 188.04,
      "learning_rate": 0.00014537941714986503,
      "loss": 0.5913,
      "step": 9590
    },
    {
      "epoch": 188.24,
      "learning_rate": 0.0001453654021476303,
      "loss": 0.5938,
      "step": 9600
    },
    {
      "epoch": 188.43,
      "learning_rate": 0.00014535136660026742,
      "loss": 0.5895,
      "step": 9610
    },
    {
      "epoch": 188.63,
      "learning_rate": 0.00014533731051187448,
      "loss": 0.5888,
      "step": 9620
    },
    {
      "epoch": 188.82,
      "learning_rate": 0.00014532323388655557,
      "loss": 0.5849,
      "step": 9630
    },
    {
      "epoch": 189.0,
      "eval_loss": 0.5910800695419312,
      "eval_runtime": 2.1237,
      "eval_samples_per_second": 1073.117,
      "eval_steps_per_second": 4.238,
      "step": 9639
    },
    {
      "epoch": 189.02,
      "learning_rate": 0.0001453091367284207,
      "loss": 0.5896,
      "step": 9640
    },
    {
      "epoch": 189.22,
      "learning_rate": 0.00014529501904158597,
      "loss": 0.5961,
      "step": 9650
    },
    {
      "epoch": 189.41,
      "learning_rate": 0.00014528088083017339,
      "loss": 0.5835,
      "step": 9660
    },
    {
      "epoch": 189.61,
      "learning_rate": 0.00014526672209831104,
      "loss": 0.5849,
      "step": 9670
    },
    {
      "epoch": 189.8,
      "learning_rate": 0.00014525254285013294,
      "loss": 0.5893,
      "step": 9680
    },
    {
      "epoch": 190.0,
      "learning_rate": 0.0001452383430897791,
      "loss": 0.5913,
      "step": 9690
    },
    {
      "epoch": 190.0,
      "eval_loss": 0.5954359769821167,
      "eval_runtime": 2.2008,
      "eval_samples_per_second": 1035.542,
      "eval_steps_per_second": 4.089,
      "step": 9690
    },
    {
      "epoch": 190.2,
      "learning_rate": 0.00014522412282139555,
      "loss": 0.5899,
      "step": 9700
    },
    {
      "epoch": 190.39,
      "learning_rate": 0.00014520988204913426,
      "loss": 0.5912,
      "step": 9710
    },
    {
      "epoch": 190.59,
      "learning_rate": 0.0001451956207771533,
      "loss": 0.5932,
      "step": 9720
    },
    {
      "epoch": 190.78,
      "learning_rate": 0.00014518133900961653,
      "loss": 0.5892,
      "step": 9730
    },
    {
      "epoch": 190.98,
      "learning_rate": 0.00014516703675069401,
      "loss": 0.5863,
      "step": 9740
    },
    {
      "epoch": 191.0,
      "eval_loss": 0.5905748009681702,
      "eval_runtime": 2.1806,
      "eval_samples_per_second": 1045.123,
      "eval_steps_per_second": 4.127,
      "step": 9741
    },
    {
      "epoch": 191.18,
      "learning_rate": 0.00014515271400456162,
      "loss": 0.5901,
      "step": 9750
    },
    {
      "epoch": 191.37,
      "learning_rate": 0.0001451383707754013,
      "loss": 0.5891,
      "step": 9760
    },
    {
      "epoch": 191.57,
      "learning_rate": 0.00014512400706740095,
      "loss": 0.5917,
      "step": 9770
    },
    {
      "epoch": 191.76,
      "learning_rate": 0.00014510962288475445,
      "loss": 0.5881,
      "step": 9780
    },
    {
      "epoch": 191.96,
      "learning_rate": 0.00014509521823166164,
      "loss": 0.588,
      "step": 9790
    },
    {
      "epoch": 192.0,
      "eval_loss": 0.5942443013191223,
      "eval_runtime": 2.2206,
      "eval_samples_per_second": 1026.291,
      "eval_steps_per_second": 4.053,
      "step": 9792
    },
    {
      "epoch": 192.16,
      "learning_rate": 0.00014508079311232843,
      "loss": 0.5859,
      "step": 9800
    },
    {
      "epoch": 192.35,
      "learning_rate": 0.00014506634753096655,
      "loss": 0.5939,
      "step": 9810
    },
    {
      "epoch": 192.55,
      "learning_rate": 0.00014505188149179383,
      "loss": 0.5893,
      "step": 9820
    },
    {
      "epoch": 192.75,
      "learning_rate": 0.00014503739499903404,
      "loss": 0.5914,
      "step": 9830
    },
    {
      "epoch": 192.94,
      "learning_rate": 0.00014502288805691687,
      "loss": 0.5906,
      "step": 9840
    },
    {
      "epoch": 193.0,
      "eval_loss": 0.5924288034439087,
      "eval_runtime": 2.1443,
      "eval_samples_per_second": 1062.813,
      "eval_steps_per_second": 4.197,
      "step": 9843
    },
    {
      "epoch": 193.14,
      "learning_rate": 0.00014500836066967806,
      "loss": 0.5851,
      "step": 9850
    },
    {
      "epoch": 193.33,
      "learning_rate": 0.00014499381284155928,
      "loss": 0.5909,
      "step": 9860
    },
    {
      "epoch": 193.53,
      "learning_rate": 0.00014497924457680813,
      "loss": 0.5898,
      "step": 9870
    },
    {
      "epoch": 193.73,
      "learning_rate": 0.00014496465587967832,
      "loss": 0.591,
      "step": 9880
    },
    {
      "epoch": 193.92,
      "learning_rate": 0.0001449500467544293,
      "loss": 0.5927,
      "step": 9890
    },
    {
      "epoch": 194.0,
      "eval_loss": 0.5911122560501099,
      "eval_runtime": 2.1852,
      "eval_samples_per_second": 1042.912,
      "eval_steps_per_second": 4.119,
      "step": 9894
    },
    {
      "epoch": 194.12,
      "learning_rate": 0.00014493541720532666,
      "loss": 0.588,
      "step": 9900
    },
    {
      "epoch": 194.31,
      "learning_rate": 0.00014492076723664194,
      "loss": 0.5881,
      "step": 9910
    },
    {
      "epoch": 194.51,
      "learning_rate": 0.00014490609685265256,
      "loss": 0.5875,
      "step": 9920
    },
    {
      "epoch": 194.71,
      "learning_rate": 0.00014489140605764196,
      "loss": 0.5895,
      "step": 9930
    },
    {
      "epoch": 194.9,
      "learning_rate": 0.00014487669485589952,
      "loss": 0.5857,
      "step": 9940
    },
    {
      "epoch": 195.0,
      "eval_loss": 0.5852168202400208,
      "eval_runtime": 2.3015,
      "eval_samples_per_second": 990.24,
      "eval_steps_per_second": 3.911,
      "step": 9945
    },
    {
      "epoch": 195.1,
      "learning_rate": 0.00014486196325172058,
      "loss": 0.582,
      "step": 9950
    },
    {
      "epoch": 195.29,
      "learning_rate": 0.00014484721124940643,
      "loss": 0.5834,
      "step": 9960
    },
    {
      "epoch": 195.49,
      "learning_rate": 0.00014483243885326437,
      "loss": 0.5891,
      "step": 9970
    },
    {
      "epoch": 195.69,
      "learning_rate": 0.00014481764606760755,
      "loss": 0.589,
      "step": 9980
    },
    {
      "epoch": 195.88,
      "learning_rate": 0.00014480283289675517,
      "loss": 0.5859,
      "step": 9990
    },
    {
      "epoch": 196.0,
      "eval_loss": 0.5909630060195923,
      "eval_runtime": 2.2494,
      "eval_samples_per_second": 1013.138,
      "eval_steps_per_second": 4.001,
      "step": 9996
    },
    {
      "epoch": 196.08,
      "learning_rate": 0.00014478799934503233,
      "loss": 0.5859,
      "step": 10000
    },
    {
      "epoch": 196.27,
      "learning_rate": 0.00014477314541677016,
      "loss": 0.5885,
      "step": 10010
    },
    {
      "epoch": 196.47,
      "learning_rate": 0.00014475827111630555,
      "loss": 0.5799,
      "step": 10020
    },
    {
      "epoch": 196.67,
      "learning_rate": 0.00014474337644798159,
      "loss": 0.583,
      "step": 10030
    },
    {
      "epoch": 196.86,
      "learning_rate": 0.00014472846141614707,
      "loss": 0.5775,
      "step": 10040
    },
    {
      "epoch": 197.0,
      "eval_loss": 0.5853325128555298,
      "eval_runtime": 2.1195,
      "eval_samples_per_second": 1075.278,
      "eval_steps_per_second": 4.246,
      "step": 10047
    },
    {
      "epoch": 197.06,
      "learning_rate": 0.00014471352602515695,
      "loss": 0.5791,
      "step": 10050
    },
    {
      "epoch": 197.25,
      "learning_rate": 0.000144698570279372,
      "loss": 0.582,
      "step": 10060
    },
    {
      "epoch": 197.45,
      "learning_rate": 0.00014468359418315894,
      "loss": 0.5823,
      "step": 10070
    },
    {
      "epoch": 197.65,
      "learning_rate": 0.0001446685977408905,
      "loss": 0.5861,
      "step": 10080
    },
    {
      "epoch": 197.84,
      "learning_rate": 0.00014465358095694527,
      "loss": 0.586,
      "step": 10090
    },
    {
      "epoch": 198.0,
      "eval_loss": 0.5876543521881104,
      "eval_runtime": 2.0896,
      "eval_samples_per_second": 1090.616,
      "eval_steps_per_second": 4.307,
      "step": 10098
    },
    {
      "epoch": 198.04,
      "learning_rate": 0.00014463854383570782,
      "loss": 0.5862,
      "step": 10100
    },
    {
      "epoch": 198.24,
      "learning_rate": 0.00014462348638156865,
      "loss": 0.5902,
      "step": 10110
    },
    {
      "epoch": 198.43,
      "learning_rate": 0.00014460840859892424,
      "loss": 0.5845,
      "step": 10120
    },
    {
      "epoch": 198.63,
      "learning_rate": 0.0001445933104921769,
      "loss": 0.5818,
      "step": 10130
    },
    {
      "epoch": 198.82,
      "learning_rate": 0.000144578192065735,
      "loss": 0.5853,
      "step": 10140
    },
    {
      "epoch": 199.0,
      "eval_loss": 0.5847514867782593,
      "eval_runtime": 2.1429,
      "eval_samples_per_second": 1063.513,
      "eval_steps_per_second": 4.2,
      "step": 10149
    },
    {
      "epoch": 199.02,
      "learning_rate": 0.00014456305332401277,
      "loss": 0.5841,
      "step": 10150
    },
    {
      "epoch": 199.22,
      "learning_rate": 0.00014454789427143034,
      "loss": 0.5864,
      "step": 10160
    },
    {
      "epoch": 199.41,
      "learning_rate": 0.0001445327149124139,
      "loss": 0.582,
      "step": 10170
    },
    {
      "epoch": 199.61,
      "learning_rate": 0.00014451751525139538,
      "loss": 0.5867,
      "step": 10180
    },
    {
      "epoch": 199.8,
      "learning_rate": 0.00014450229529281285,
      "loss": 0.5813,
      "step": 10190
    },
    {
      "epoch": 200.0,
      "learning_rate": 0.0001444870550411101,
      "loss": 0.5824,
      "step": 10200
    },
    {
      "epoch": 200.0,
      "eval_loss": 0.5854251384735107,
      "eval_runtime": 2.1252,
      "eval_samples_per_second": 1072.384,
      "eval_steps_per_second": 4.235,
      "step": 10200
    },
    {
      "epoch": 200.2,
      "learning_rate": 0.00014447179450073703,
      "loss": 0.5841,
      "step": 10210
    },
    {
      "epoch": 200.39,
      "learning_rate": 0.00014445651367614933,
      "loss": 0.5785,
      "step": 10220
    },
    {
      "epoch": 200.59,
      "learning_rate": 0.00014444121257180866,
      "loss": 0.5868,
      "step": 10230
    },
    {
      "epoch": 200.78,
      "learning_rate": 0.0001444258911921826,
      "loss": 0.5842,
      "step": 10240
    },
    {
      "epoch": 200.98,
      "learning_rate": 0.0001444105495417447,
      "loss": 0.5797,
      "step": 10250
    },
    {
      "epoch": 201.0,
      "eval_loss": 0.5834174752235413,
      "eval_runtime": 2.1546,
      "eval_samples_per_second": 1057.713,
      "eval_steps_per_second": 4.177,
      "step": 10251
    },
    {
      "epoch": 201.18,
      "learning_rate": 0.00014439518762497428,
      "loss": 0.5814,
      "step": 10260
    },
    {
      "epoch": 201.37,
      "learning_rate": 0.00014437980544635675,
      "loss": 0.576,
      "step": 10270
    },
    {
      "epoch": 201.57,
      "learning_rate": 0.00014436440301038335,
      "loss": 0.5806,
      "step": 10280
    },
    {
      "epoch": 201.76,
      "learning_rate": 0.00014434898032155127,
      "loss": 0.5845,
      "step": 10290
    },
    {
      "epoch": 201.96,
      "learning_rate": 0.00014433353738436359,
      "loss": 0.5857,
      "step": 10300
    },
    {
      "epoch": 202.0,
      "eval_loss": 0.5791680216789246,
      "eval_runtime": 2.098,
      "eval_samples_per_second": 1086.25,
      "eval_steps_per_second": 4.29,
      "step": 10302
    },
    {
      "epoch": 202.16,
      "learning_rate": 0.00014431807420332921,
      "loss": 0.5806,
      "step": 10310
    },
    {
      "epoch": 202.35,
      "learning_rate": 0.00014430259078296317,
      "loss": 0.581,
      "step": 10320
    },
    {
      "epoch": 202.55,
      "learning_rate": 0.00014428708712778618,
      "loss": 0.579,
      "step": 10330
    },
    {
      "epoch": 202.75,
      "learning_rate": 0.000144271563242325,
      "loss": 0.5746,
      "step": 10340
    },
    {
      "epoch": 202.94,
      "learning_rate": 0.0001442560191311123,
      "loss": 0.5863,
      "step": 10350
    },
    {
      "epoch": 203.0,
      "eval_loss": 0.5824128985404968,
      "eval_runtime": 2.1448,
      "eval_samples_per_second": 1062.581,
      "eval_steps_per_second": 4.196,
      "step": 10353
    },
    {
      "epoch": 203.14,
      "learning_rate": 0.00014424045479868655,
      "loss": 0.5802,
      "step": 10360
    },
    {
      "epoch": 203.33,
      "learning_rate": 0.0001442248702495922,
      "loss": 0.5826,
      "step": 10370
    },
    {
      "epoch": 203.53,
      "learning_rate": 0.00014420926548837959,
      "loss": 0.5813,
      "step": 10380
    },
    {
      "epoch": 203.73,
      "learning_rate": 0.000144193640519605,
      "loss": 0.5836,
      "step": 10390
    },
    {
      "epoch": 203.92,
      "learning_rate": 0.00014417799534783055,
      "loss": 0.5826,
      "step": 10400
    },
    {
      "epoch": 204.0,
      "eval_loss": 0.5838117003440857,
      "eval_runtime": 2.1558,
      "eval_samples_per_second": 1057.159,
      "eval_steps_per_second": 4.175,
      "step": 10404
    },
    {
      "epoch": 204.12,
      "learning_rate": 0.00014416232997762428,
      "loss": 0.5853,
      "step": 10410
    },
    {
      "epoch": 204.31,
      "learning_rate": 0.00014414664441356008,
      "loss": 0.5776,
      "step": 10420
    },
    {
      "epoch": 204.51,
      "learning_rate": 0.00014413093866021788,
      "loss": 0.581,
      "step": 10430
    },
    {
      "epoch": 204.71,
      "learning_rate": 0.00014411521272218335,
      "loss": 0.5787,
      "step": 10440
    },
    {
      "epoch": 204.9,
      "learning_rate": 0.0001440994666040481,
      "loss": 0.579,
      "step": 10450
    },
    {
      "epoch": 205.0,
      "eval_loss": 0.5807640552520752,
      "eval_runtime": 2.1947,
      "eval_samples_per_second": 1038.42,
      "eval_steps_per_second": 4.101,
      "step": 10455
    },
    {
      "epoch": 205.1,
      "learning_rate": 0.0001440837003104097,
      "loss": 0.5808,
      "step": 10460
    },
    {
      "epoch": 205.29,
      "learning_rate": 0.0001440679138458715,
      "loss": 0.5786,
      "step": 10470
    },
    {
      "epoch": 205.49,
      "learning_rate": 0.00014405210721504284,
      "loss": 0.5807,
      "step": 10480
    },
    {
      "epoch": 205.69,
      "learning_rate": 0.00014403628042253887,
      "loss": 0.5794,
      "step": 10490
    },
    {
      "epoch": 205.88,
      "learning_rate": 0.0001440204334729807,
      "loss": 0.5758,
      "step": 10500
    },
    {
      "epoch": 206.0,
      "eval_loss": 0.58095782995224,
      "eval_runtime": 2.09,
      "eval_samples_per_second": 1090.42,
      "eval_steps_per_second": 4.306,
      "step": 10506
    },
    {
      "epoch": 206.08,
      "learning_rate": 0.00014400456637099525,
      "loss": 0.5798,
      "step": 10510
    },
    {
      "epoch": 206.27,
      "learning_rate": 0.00014398867912121538,
      "loss": 0.5726,
      "step": 10520
    },
    {
      "epoch": 206.47,
      "learning_rate": 0.00014397277172827977,
      "loss": 0.5783,
      "step": 10530
    },
    {
      "epoch": 206.67,
      "learning_rate": 0.00014395684419683306,
      "loss": 0.5765,
      "step": 10540
    },
    {
      "epoch": 206.86,
      "learning_rate": 0.00014394089653152576,
      "loss": 0.5798,
      "step": 10550
    },
    {
      "epoch": 207.0,
      "eval_loss": 0.5782448649406433,
      "eval_runtime": 2.1817,
      "eval_samples_per_second": 1044.609,
      "eval_steps_per_second": 4.125,
      "step": 10557
    },
    {
      "epoch": 207.06,
      "learning_rate": 0.0001439249287370142,
      "loss": 0.5779,
      "step": 10560
    },
    {
      "epoch": 207.25,
      "learning_rate": 0.0001439089408179606,
      "loss": 0.5839,
      "step": 10570
    },
    {
      "epoch": 207.45,
      "learning_rate": 0.00014389293277903312,
      "loss": 0.5778,
      "step": 10580
    },
    {
      "epoch": 207.65,
      "learning_rate": 0.00014387690462490572,
      "loss": 0.574,
      "step": 10590
    },
    {
      "epoch": 207.84,
      "learning_rate": 0.00014386085636025828,
      "loss": 0.576,
      "step": 10600
    },
    {
      "epoch": 208.0,
      "eval_loss": 0.5818247199058533,
      "eval_runtime": 2.2327,
      "eval_samples_per_second": 1020.751,
      "eval_steps_per_second": 4.031,
      "step": 10608
    },
    {
      "epoch": 208.04,
      "learning_rate": 0.00014384478798977655,
      "loss": 0.5776,
      "step": 10610
    },
    {
      "epoch": 208.24,
      "learning_rate": 0.00014382869951815207,
      "loss": 0.5749,
      "step": 10620
    },
    {
      "epoch": 208.43,
      "learning_rate": 0.00014381259095008238,
      "loss": 0.581,
      "step": 10630
    },
    {
      "epoch": 208.63,
      "learning_rate": 0.0001437964622902708,
      "loss": 0.5839,
      "step": 10640
    },
    {
      "epoch": 208.82,
      "learning_rate": 0.00014378031354342656,
      "loss": 0.5717,
      "step": 10650
    },
    {
      "epoch": 209.0,
      "eval_loss": 0.5826478600502014,
      "eval_runtime": 2.1857,
      "eval_samples_per_second": 1042.691,
      "eval_steps_per_second": 4.118,
      "step": 10659
    },
    {
      "epoch": 209.02,
      "learning_rate": 0.00014376414471426472,
      "loss": 0.5762,
      "step": 10660
    },
    {
      "epoch": 209.22,
      "learning_rate": 0.00014374795580750617,
      "loss": 0.5745,
      "step": 10670
    },
    {
      "epoch": 209.41,
      "learning_rate": 0.0001437317468278778,
      "loss": 0.5766,
      "step": 10680
    },
    {
      "epoch": 209.61,
      "learning_rate": 0.00014371551778011218,
      "loss": 0.5757,
      "step": 10690
    },
    {
      "epoch": 209.8,
      "learning_rate": 0.0001436992686689479,
      "loss": 0.5771,
      "step": 10700
    },
    {
      "epoch": 210.0,
      "learning_rate": 0.00014368299949912928,
      "loss": 0.5774,
      "step": 10710
    },
    {
      "epoch": 210.0,
      "eval_loss": 0.5800108313560486,
      "eval_runtime": 2.1291,
      "eval_samples_per_second": 1070.401,
      "eval_steps_per_second": 4.227,
      "step": 10710
    },
    {
      "epoch": 210.2,
      "learning_rate": 0.0001436667102754066,
      "loss": 0.5743,
      "step": 10720
    },
    {
      "epoch": 210.39,
      "learning_rate": 0.00014365040100253597,
      "loss": 0.5747,
      "step": 10730
    },
    {
      "epoch": 210.59,
      "learning_rate": 0.00014363407168527928,
      "loss": 0.5781,
      "step": 10740
    },
    {
      "epoch": 210.78,
      "learning_rate": 0.00014361772232840433,
      "loss": 0.5735,
      "step": 10750
    },
    {
      "epoch": 210.98,
      "learning_rate": 0.0001436013529366848,
      "loss": 0.5724,
      "step": 10760
    },
    {
      "epoch": 211.0,
      "eval_loss": 0.5812757611274719,
      "eval_runtime": 2.1877,
      "eval_samples_per_second": 1041.728,
      "eval_steps_per_second": 4.114,
      "step": 10761
    },
    {
      "epoch": 211.18,
      "learning_rate": 0.00014358496351490015,
      "loss": 0.5782,
      "step": 10770
    },
    {
      "epoch": 211.37,
      "learning_rate": 0.00014356855406783578,
      "loss": 0.5756,
      "step": 10780
    },
    {
      "epoch": 211.57,
      "learning_rate": 0.00014355212460028283,
      "loss": 0.5755,
      "step": 10790
    },
    {
      "epoch": 211.76,
      "learning_rate": 0.00014353567511703836,
      "loss": 0.5736,
      "step": 10800
    },
    {
      "epoch": 211.96,
      "learning_rate": 0.00014351920562290525,
      "loss": 0.5706,
      "step": 10810
    },
    {
      "epoch": 212.0,
      "eval_loss": 0.575522243976593,
      "eval_runtime": 2.1831,
      "eval_samples_per_second": 1043.938,
      "eval_steps_per_second": 4.123,
      "step": 10812
    },
    {
      "epoch": 212.16,
      "learning_rate": 0.00014350271612269223,
      "loss": 0.5736,
      "step": 10820
    },
    {
      "epoch": 212.35,
      "learning_rate": 0.00014348620662121386,
      "loss": 0.5775,
      "step": 10830
    },
    {
      "epoch": 212.55,
      "learning_rate": 0.00014346967712329053,
      "loss": 0.573,
      "step": 10840
    },
    {
      "epoch": 212.75,
      "learning_rate": 0.00014345312763374852,
      "loss": 0.5774,
      "step": 10850
    },
    {
      "epoch": 212.94,
      "learning_rate": 0.00014343655815741987,
      "loss": 0.5737,
      "step": 10860
    },
    {
      "epoch": 213.0,
      "eval_loss": 0.5787567496299744,
      "eval_runtime": 2.1398,
      "eval_samples_per_second": 1065.048,
      "eval_steps_per_second": 4.206,
      "step": 10863
    },
    {
      "epoch": 213.14,
      "learning_rate": 0.00014341996869914254,
      "loss": 0.5767,
      "step": 10870
    },
    {
      "epoch": 213.33,
      "learning_rate": 0.00014340335926376027,
      "loss": 0.5779,
      "step": 10880
    },
    {
      "epoch": 213.53,
      "learning_rate": 0.00014338672985612263,
      "loss": 0.5761,
      "step": 10890
    },
    {
      "epoch": 213.73,
      "learning_rate": 0.00014337008048108504,
      "loss": 0.5742,
      "step": 10900
    },
    {
      "epoch": 213.92,
      "learning_rate": 0.00014335341114350876,
      "loss": 0.5791,
      "step": 10910
    },
    {
      "epoch": 214.0,
      "eval_loss": 0.576858639717102,
      "eval_runtime": 2.1295,
      "eval_samples_per_second": 1070.195,
      "eval_steps_per_second": 4.226,
      "step": 10914
    },
    {
      "epoch": 214.12,
      "learning_rate": 0.00014333672184826086,
      "loss": 0.5749,
      "step": 10920
    },
    {
      "epoch": 214.31,
      "learning_rate": 0.00014332001260021422,
      "loss": 0.574,
      "step": 10930
    },
    {
      "epoch": 214.51,
      "learning_rate": 0.00014330328340424759,
      "loss": 0.5756,
      "step": 10940
    },
    {
      "epoch": 214.71,
      "learning_rate": 0.0001432865342652455,
      "loss": 0.5759,
      "step": 10950
    },
    {
      "epoch": 214.9,
      "learning_rate": 0.00014326976518809836,
      "loss": 0.5712,
      "step": 10960
    },
    {
      "epoch": 215.0,
      "eval_loss": 0.576650083065033,
      "eval_runtime": 2.2593,
      "eval_samples_per_second": 1008.739,
      "eval_steps_per_second": 3.984,
      "step": 10965
    },
    {
      "epoch": 215.1,
      "learning_rate": 0.00014325297617770238,
      "loss": 0.5725,
      "step": 10970
    },
    {
      "epoch": 215.29,
      "learning_rate": 0.00014323616723895953,
      "loss": 0.5747,
      "step": 10980
    },
    {
      "epoch": 215.49,
      "learning_rate": 0.00014321933837677762,
      "loss": 0.5712,
      "step": 10990
    },
    {
      "epoch": 215.69,
      "learning_rate": 0.00014320248959607038,
      "loss": 0.5758,
      "step": 11000
    },
    {
      "epoch": 215.88,
      "learning_rate": 0.00014318562090175722,
      "loss": 0.567,
      "step": 11010
    },
    {
      "epoch": 216.0,
      "eval_loss": 0.5790178179740906,
      "eval_runtime": 2.1116,
      "eval_samples_per_second": 1079.269,
      "eval_steps_per_second": 4.262,
      "step": 11016
    },
    {
      "epoch": 216.08,
      "learning_rate": 0.00014316873229876345,
      "loss": 0.5795,
      "step": 11020
    },
    {
      "epoch": 216.27,
      "learning_rate": 0.00014315182379202017,
      "loss": 0.5833,
      "step": 11030
    },
    {
      "epoch": 216.47,
      "learning_rate": 0.00014313489538646425,
      "loss": 0.579,
      "step": 11040
    },
    {
      "epoch": 216.67,
      "learning_rate": 0.00014311794708703847,
      "loss": 0.5771,
      "step": 11050
    },
    {
      "epoch": 216.86,
      "learning_rate": 0.00014310097889869128,
      "loss": 0.5671,
      "step": 11060
    },
    {
      "epoch": 217.0,
      "eval_loss": 0.5734152793884277,
      "eval_runtime": 2.2121,
      "eval_samples_per_second": 1030.244,
      "eval_steps_per_second": 4.069,
      "step": 11067
    },
    {
      "epoch": 217.06,
      "learning_rate": 0.0001430839908263771,
      "loss": 0.5713,
      "step": 11070
    },
    {
      "epoch": 217.25,
      "learning_rate": 0.00014306698287505596,
      "loss": 0.576,
      "step": 11080
    },
    {
      "epoch": 217.45,
      "learning_rate": 0.00014304995504969392,
      "loss": 0.5701,
      "step": 11090
    },
    {
      "epoch": 217.65,
      "learning_rate": 0.00014303290735526262,
      "loss": 0.5727,
      "step": 11100
    },
    {
      "epoch": 217.84,
      "learning_rate": 0.00014301583979673966,
      "loss": 0.5733,
      "step": 11110
    },
    {
      "epoch": 218.0,
      "eval_loss": 0.5721628665924072,
      "eval_runtime": 2.1562,
      "eval_samples_per_second": 1056.94,
      "eval_steps_per_second": 4.174,
      "step": 11118
    },
    {
      "epoch": 218.04,
      "learning_rate": 0.0001429987523791084,
      "loss": 0.5717,
      "step": 11120
    },
    {
      "epoch": 218.24,
      "learning_rate": 0.00014298164510735795,
      "loss": 0.5692,
      "step": 11130
    },
    {
      "epoch": 218.43,
      "learning_rate": 0.00014296451798648328,
      "loss": 0.5677,
      "step": 11140
    },
    {
      "epoch": 218.63,
      "learning_rate": 0.0001429473710214851,
      "loss": 0.5708,
      "step": 11150
    },
    {
      "epoch": 218.82,
      "learning_rate": 0.00014293020421736997,
      "loss": 0.5673,
      "step": 11160
    },
    {
      "epoch": 219.0,
      "eval_loss": 0.5806319117546082,
      "eval_runtime": 2.2602,
      "eval_samples_per_second": 1008.303,
      "eval_steps_per_second": 3.982,
      "step": 11169
    },
    {
      "epoch": 219.02,
      "learning_rate": 0.0001429130175791502,
      "loss": 0.5765,
      "step": 11170
    },
    {
      "epoch": 219.22,
      "learning_rate": 0.00014289581111184388,
      "loss": 0.5706,
      "step": 11180
    },
    {
      "epoch": 219.41,
      "learning_rate": 0.00014287858482047493,
      "loss": 0.5729,
      "step": 11190
    },
    {
      "epoch": 219.61,
      "learning_rate": 0.0001428613387100731,
      "loss": 0.5661,
      "step": 11200
    },
    {
      "epoch": 219.8,
      "learning_rate": 0.0001428440727856738,
      "loss": 0.5713,
      "step": 11210
    },
    {
      "epoch": 220.0,
      "learning_rate": 0.00014282678705231832,
      "loss": 0.5713,
      "step": 11220
    },
    {
      "epoch": 220.0,
      "eval_loss": 0.5764245986938477,
      "eval_runtime": 2.235,
      "eval_samples_per_second": 1019.686,
      "eval_steps_per_second": 4.027,
      "step": 11220
    },
    {
      "epoch": 220.2,
      "learning_rate": 0.00014280948151505367,
      "loss": 0.5748,
      "step": 11230
    },
    {
      "epoch": 220.39,
      "learning_rate": 0.00014279215617893275,
      "loss": 0.5672,
      "step": 11240
    },
    {
      "epoch": 220.59,
      "learning_rate": 0.00014277481104901413,
      "loss": 0.5696,
      "step": 11250
    },
    {
      "epoch": 220.78,
      "learning_rate": 0.00014275744613036223,
      "loss": 0.5736,
      "step": 11260
    },
    {
      "epoch": 220.98,
      "learning_rate": 0.00014274006142804714,
      "loss": 0.5669,
      "step": 11270
    },
    {
      "epoch": 221.0,
      "eval_loss": 0.5693748593330383,
      "eval_runtime": 2.174,
      "eval_samples_per_second": 1048.299,
      "eval_steps_per_second": 4.14,
      "step": 11271
    },
    {
      "epoch": 221.18,
      "learning_rate": 0.00014272265694714492,
      "loss": 0.5725,
      "step": 11280
    },
    {
      "epoch": 221.37,
      "learning_rate": 0.0001427052326927372,
      "loss": 0.5697,
      "step": 11290
    },
    {
      "epoch": 221.57,
      "learning_rate": 0.0001426877886699115,
      "loss": 0.5718,
      "step": 11300
    },
    {
      "epoch": 221.76,
      "learning_rate": 0.00014267032488376113,
      "loss": 0.5724,
      "step": 11310
    },
    {
      "epoch": 221.96,
      "learning_rate": 0.00014265284133938507,
      "loss": 0.5669,
      "step": 11320
    },
    {
      "epoch": 222.0,
      "eval_loss": 0.5748663544654846,
      "eval_runtime": 2.1119,
      "eval_samples_per_second": 1079.109,
      "eval_steps_per_second": 4.262,
      "step": 11322
    },
    {
      "epoch": 222.16,
      "learning_rate": 0.00014263533804188813,
      "loss": 0.5645,
      "step": 11330
    },
    {
      "epoch": 222.35,
      "learning_rate": 0.00014261781499638092,
      "loss": 0.5696,
      "step": 11340
    },
    {
      "epoch": 222.55,
      "learning_rate": 0.00014260027220797976,
      "loss": 0.5726,
      "step": 11350
    },
    {
      "epoch": 222.75,
      "learning_rate": 0.00014258270968180674,
      "loss": 0.5702,
      "step": 11360
    },
    {
      "epoch": 222.94,
      "learning_rate": 0.0001425651274229897,
      "loss": 0.5665,
      "step": 11370
    },
    {
      "epoch": 223.0,
      "eval_loss": 0.573235273361206,
      "eval_runtime": 2.1302,
      "eval_samples_per_second": 1069.829,
      "eval_steps_per_second": 4.225,
      "step": 11373
    },
    {
      "epoch": 223.14,
      "learning_rate": 0.00014254752543666234,
      "loss": 0.5678,
      "step": 11380
    },
    {
      "epoch": 223.33,
      "learning_rate": 0.000142529903727964,
      "loss": 0.5682,
      "step": 11390
    },
    {
      "epoch": 223.53,
      "learning_rate": 0.00014251226230203984,
      "loss": 0.5727,
      "step": 11400
    },
    {
      "epoch": 223.73,
      "learning_rate": 0.00014249460116404073,
      "loss": 0.5643,
      "step": 11410
    },
    {
      "epoch": 223.92,
      "learning_rate": 0.0001424769203191234,
      "loss": 0.5676,
      "step": 11420
    },
    {
      "epoch": 224.0,
      "eval_loss": 0.5675996541976929,
      "eval_runtime": 2.2583,
      "eval_samples_per_second": 1009.18,
      "eval_steps_per_second": 3.985,
      "step": 11424
    },
    {
      "epoch": 224.12,
      "learning_rate": 0.00014245921977245018,
      "loss": 0.5733,
      "step": 11430
    },
    {
      "epoch": 224.31,
      "learning_rate": 0.00014244149952918927,
      "loss": 0.5716,
      "step": 11440
    },
    {
      "epoch": 224.51,
      "learning_rate": 0.00014242375959451462,
      "loss": 0.5697,
      "step": 11450
    },
    {
      "epoch": 224.71,
      "learning_rate": 0.00014240599997360583,
      "loss": 0.5662,
      "step": 11460
    },
    {
      "epoch": 224.9,
      "learning_rate": 0.00014238822067164837,
      "loss": 0.5621,
      "step": 11470
    },
    {
      "epoch": 225.0,
      "eval_loss": 0.5676630735397339,
      "eval_runtime": 2.1447,
      "eval_samples_per_second": 1062.606,
      "eval_steps_per_second": 4.196,
      "step": 11475
    },
    {
      "epoch": 225.1,
      "learning_rate": 0.00014237042169383337,
      "loss": 0.5671,
      "step": 11480
    },
    {
      "epoch": 225.29,
      "learning_rate": 0.00014235260304535776,
      "loss": 0.5671,
      "step": 11490
    },
    {
      "epoch": 225.49,
      "learning_rate": 0.00014233476473142414,
      "loss": 0.5673,
      "step": 11500
    },
    {
      "epoch": 225.69,
      "learning_rate": 0.00014231690675724096,
      "loss": 0.5709,
      "step": 11510
    },
    {
      "epoch": 225.88,
      "learning_rate": 0.0001422990291280223,
      "loss": 0.5623,
      "step": 11520
    },
    {
      "epoch": 226.0,
      "eval_loss": 0.5714594125747681,
      "eval_runtime": 2.2157,
      "eval_samples_per_second": 1028.587,
      "eval_steps_per_second": 4.062,
      "step": 11526
    },
    {
      "epoch": 226.08,
      "learning_rate": 0.00014228113184898804,
      "loss": 0.5665,
      "step": 11530
    },
    {
      "epoch": 226.27,
      "learning_rate": 0.0001422632149253638,
      "loss": 0.5607,
      "step": 11540
    },
    {
      "epoch": 226.47,
      "learning_rate": 0.00014224527836238093,
      "loss": 0.57,
      "step": 11550
    },
    {
      "epoch": 226.67,
      "learning_rate": 0.0001422273221652765,
      "loss": 0.5676,
      "step": 11560
    },
    {
      "epoch": 226.86,
      "learning_rate": 0.0001422093463392933,
      "loss": 0.5695,
      "step": 11570
    },
    {
      "epoch": 227.0,
      "eval_loss": 0.5675697326660156,
      "eval_runtime": 2.2269,
      "eval_samples_per_second": 1023.399,
      "eval_steps_per_second": 4.042,
      "step": 11577
    },
    {
      "epoch": 227.06,
      "learning_rate": 0.00014219135088967987,
      "loss": 0.5649,
      "step": 11580
    },
    {
      "epoch": 227.25,
      "learning_rate": 0.00014217333582169052,
      "loss": 0.5683,
      "step": 11590
    },
    {
      "epoch": 227.45,
      "learning_rate": 0.00014215530114058522,
      "loss": 0.5651,
      "step": 11600
    },
    {
      "epoch": 227.65,
      "learning_rate": 0.00014213724685162968,
      "loss": 0.5641,
      "step": 11610
    },
    {
      "epoch": 227.84,
      "learning_rate": 0.00014211917296009534,
      "loss": 0.5657,
      "step": 11620
    },
    {
      "epoch": 228.0,
      "eval_loss": 0.5667091608047485,
      "eval_runtime": 2.1477,
      "eval_samples_per_second": 1061.131,
      "eval_steps_per_second": 4.191,
      "step": 11628
    },
    {
      "epoch": 228.04,
      "learning_rate": 0.00014210107947125943,
      "loss": 0.5616,
      "step": 11630
    },
    {
      "epoch": 228.24,
      "learning_rate": 0.00014208296639040482,
      "loss": 0.5638,
      "step": 11640
    },
    {
      "epoch": 228.43,
      "learning_rate": 0.0001420648337228201,
      "loss": 0.5682,
      "step": 11650
    },
    {
      "epoch": 228.63,
      "learning_rate": 0.00014204668147379962,
      "loss": 0.5694,
      "step": 11660
    },
    {
      "epoch": 228.82,
      "learning_rate": 0.00014202850964864348,
      "loss": 0.565,
      "step": 11670
    },
    {
      "epoch": 229.0,
      "eval_loss": 0.5644382238388062,
      "eval_runtime": 2.1257,
      "eval_samples_per_second": 1072.111,
      "eval_steps_per_second": 4.234,
      "step": 11679
    },
    {
      "epoch": 229.02,
      "learning_rate": 0.00014201031825265736,
      "loss": 0.5655,
      "step": 11680
    },
    {
      "epoch": 229.22,
      "learning_rate": 0.0001419921072911528,
      "loss": 0.5682,
      "step": 11690
    },
    {
      "epoch": 229.41,
      "learning_rate": 0.00014197387676944697,
      "loss": 0.5641,
      "step": 11700
    },
    {
      "epoch": 229.61,
      "learning_rate": 0.00014195562669286278,
      "loss": 0.5655,
      "step": 11710
    },
    {
      "epoch": 229.8,
      "learning_rate": 0.00014193735706672888,
      "loss": 0.5598,
      "step": 11720
    },
    {
      "epoch": 230.0,
      "learning_rate": 0.00014191906789637955,
      "loss": 0.5617,
      "step": 11730
    },
    {
      "epoch": 230.0,
      "eval_loss": 0.5650487542152405,
      "eval_runtime": 2.122,
      "eval_samples_per_second": 1074.007,
      "eval_steps_per_second": 4.241,
      "step": 11730
    },
    {
      "epoch": 230.2,
      "learning_rate": 0.00014190075918715483,
      "loss": 0.5645,
      "step": 11740
    },
    {
      "epoch": 230.39,
      "learning_rate": 0.00014188243094440047,
      "loss": 0.5655,
      "step": 11750
    },
    {
      "epoch": 230.59,
      "learning_rate": 0.00014186408317346788,
      "loss": 0.563,
      "step": 11760
    },
    {
      "epoch": 230.78,
      "learning_rate": 0.00014184571587971424,
      "loss": 0.564,
      "step": 11770
    },
    {
      "epoch": 230.98,
      "learning_rate": 0.00014182732906850234,
      "loss": 0.5587,
      "step": 11780
    },
    {
      "epoch": 231.0,
      "eval_loss": 0.5637187957763672,
      "eval_runtime": 2.1964,
      "eval_samples_per_second": 1037.624,
      "eval_steps_per_second": 4.098,
      "step": 11781
    },
    {
      "epoch": 231.18,
      "learning_rate": 0.00014180892274520075,
      "loss": 0.5592,
      "step": 11790
    },
    {
      "epoch": 231.37,
      "learning_rate": 0.0001417904969151837,
      "loss": 0.563,
      "step": 11800
    },
    {
      "epoch": 231.57,
      "learning_rate": 0.00014177205158383114,
      "loss": 0.5652,
      "step": 11810
    },
    {
      "epoch": 231.76,
      "learning_rate": 0.00014175358675652867,
      "loss": 0.5653,
      "step": 11820
    },
    {
      "epoch": 231.96,
      "learning_rate": 0.00014173510243866764,
      "loss": 0.5591,
      "step": 11830
    },
    {
      "epoch": 232.0,
      "eval_loss": 0.5652225017547607,
      "eval_runtime": 2.1694,
      "eval_samples_per_second": 1050.52,
      "eval_steps_per_second": 4.149,
      "step": 11832
    },
    {
      "epoch": 232.16,
      "learning_rate": 0.000141716598635645,
      "loss": 0.5669,
      "step": 11840
    },
    {
      "epoch": 232.35,
      "learning_rate": 0.0001416980753528635,
      "loss": 0.5572,
      "step": 11850
    },
    {
      "epoch": 232.55,
      "learning_rate": 0.0001416795325957315,
      "loss": 0.563,
      "step": 11860
    },
    {
      "epoch": 232.75,
      "learning_rate": 0.0001416609703696631,
      "loss": 0.5621,
      "step": 11870
    },
    {
      "epoch": 232.94,
      "learning_rate": 0.00014164238868007801,
      "loss": 0.5607,
      "step": 11880
    },
    {
      "epoch": 233.0,
      "eval_loss": 0.5647706985473633,
      "eval_runtime": 2.2045,
      "eval_samples_per_second": 1033.785,
      "eval_steps_per_second": 4.083,
      "step": 11883
    },
    {
      "epoch": 233.14,
      "learning_rate": 0.00014162378753240171,
      "loss": 0.5612,
      "step": 11890
    },
    {
      "epoch": 233.33,
      "learning_rate": 0.0001416051669320653,
      "loss": 0.5632,
      "step": 11900
    },
    {
      "epoch": 233.53,
      "learning_rate": 0.00014158652688450558,
      "loss": 0.568,
      "step": 11910
    },
    {
      "epoch": 233.73,
      "learning_rate": 0.00014156786739516505,
      "loss": 0.5595,
      "step": 11920
    },
    {
      "epoch": 233.92,
      "learning_rate": 0.00014154918846949184,
      "loss": 0.559,
      "step": 11930
    },
    {
      "epoch": 234.0,
      "eval_loss": 0.5681033730506897,
      "eval_runtime": 2.1383,
      "eval_samples_per_second": 1065.785,
      "eval_steps_per_second": 4.209,
      "step": 11934
    },
    {
      "epoch": 234.12,
      "learning_rate": 0.0001415304901129398,
      "loss": 0.5634,
      "step": 11940
    },
    {
      "epoch": 234.31,
      "learning_rate": 0.0001415117723309684,
      "loss": 0.5601,
      "step": 11950
    },
    {
      "epoch": 234.51,
      "learning_rate": 0.00014149303512904284,
      "loss": 0.5612,
      "step": 11960
    },
    {
      "epoch": 234.71,
      "learning_rate": 0.00014147427851263398,
      "loss": 0.5619,
      "step": 11970
    },
    {
      "epoch": 234.9,
      "learning_rate": 0.00014145550248721828,
      "loss": 0.5601,
      "step": 11980
    },
    {
      "epoch": 235.0,
      "eval_loss": 0.5636653304100037,
      "eval_runtime": 2.2295,
      "eval_samples_per_second": 1022.208,
      "eval_steps_per_second": 4.037,
      "step": 11985
    },
    {
      "epoch": 235.1,
      "learning_rate": 0.00014143670705827797,
      "loss": 0.5592,
      "step": 11990
    },
    {
      "epoch": 235.29,
      "learning_rate": 0.00014141789223130088,
      "loss": 0.5628,
      "step": 12000
    },
    {
      "epoch": 235.49,
      "learning_rate": 0.00014139905801178055,
      "loss": 0.5556,
      "step": 12010
    },
    {
      "epoch": 235.69,
      "learning_rate": 0.0001413802044052161,
      "loss": 0.5593,
      "step": 12020
    },
    {
      "epoch": 235.88,
      "learning_rate": 0.00014136133141711237,
      "loss": 0.5605,
      "step": 12030
    },
    {
      "epoch": 236.0,
      "eval_loss": 0.5697084069252014,
      "eval_runtime": 2.1042,
      "eval_samples_per_second": 1083.049,
      "eval_steps_per_second": 4.277,
      "step": 12036
    },
    {
      "epoch": 236.08,
      "learning_rate": 0.0001413424390529799,
      "loss": 0.5606,
      "step": 12040
    },
    {
      "epoch": 236.27,
      "learning_rate": 0.00014132352731833478,
      "loss": 0.5586,
      "step": 12050
    },
    {
      "epoch": 236.47,
      "learning_rate": 0.00014130459621869884,
      "loss": 0.5618,
      "step": 12060
    },
    {
      "epoch": 236.67,
      "learning_rate": 0.00014128564575959957,
      "loss": 0.5602,
      "step": 12070
    },
    {
      "epoch": 236.86,
      "learning_rate": 0.00014126667594657,
      "loss": 0.5555,
      "step": 12080
    },
    {
      "epoch": 237.0,
      "eval_loss": 0.5593078136444092,
      "eval_runtime": 2.1583,
      "eval_samples_per_second": 1055.931,
      "eval_steps_per_second": 4.17,
      "step": 12087
    },
    {
      "epoch": 237.06,
      "learning_rate": 0.000141247686785149,
      "loss": 0.5566,
      "step": 12090
    },
    {
      "epoch": 237.25,
      "learning_rate": 0.0001412286782808809,
      "loss": 0.5645,
      "step": 12100
    },
    {
      "epoch": 237.45,
      "learning_rate": 0.0001412096504393158,
      "loss": 0.5599,
      "step": 12110
    },
    {
      "epoch": 237.65,
      "learning_rate": 0.00014119060326600938,
      "loss": 0.5636,
      "step": 12120
    },
    {
      "epoch": 237.84,
      "learning_rate": 0.000141171536766523,
      "loss": 0.5602,
      "step": 12130
    },
    {
      "epoch": 238.0,
      "eval_loss": 0.5682786107063293,
      "eval_runtime": 2.2249,
      "eval_samples_per_second": 1024.331,
      "eval_steps_per_second": 4.045,
      "step": 12138
    },
    {
      "epoch": 238.04,
      "learning_rate": 0.00014115245094642364,
      "loss": 0.5597,
      "step": 12140
    },
    {
      "epoch": 238.24,
      "learning_rate": 0.00014113334581128395,
      "loss": 0.5586,
      "step": 12150
    },
    {
      "epoch": 238.43,
      "learning_rate": 0.00014111422136668222,
      "loss": 0.559,
      "step": 12160
    },
    {
      "epoch": 238.63,
      "learning_rate": 0.00014109507761820233,
      "loss": 0.5573,
      "step": 12170
    },
    {
      "epoch": 238.82,
      "learning_rate": 0.00014107591457143383,
      "loss": 0.5647,
      "step": 12180
    },
    {
      "epoch": 239.0,
      "eval_loss": 0.562912106513977,
      "eval_runtime": 2.2937,
      "eval_samples_per_second": 993.61,
      "eval_steps_per_second": 3.924,
      "step": 12189
    },
    {
      "epoch": 239.02,
      "learning_rate": 0.00014105673223197191,
      "loss": 0.5602,
      "step": 12190
    },
    {
      "epoch": 239.22,
      "learning_rate": 0.0001410375306054174,
      "loss": 0.5584,
      "step": 12200
    },
    {
      "epoch": 239.41,
      "learning_rate": 0.00014101830969737674,
      "loss": 0.5558,
      "step": 12210
    },
    {
      "epoch": 239.61,
      "learning_rate": 0.00014099906951346196,
      "loss": 0.5594,
      "step": 12220
    },
    {
      "epoch": 239.8,
      "learning_rate": 0.00014097981005929087,
      "loss": 0.5571,
      "step": 12230
    },
    {
      "epoch": 240.0,
      "learning_rate": 0.00014096053134048667,
      "loss": 0.5575,
      "step": 12240
    },
    {
      "epoch": 240.0,
      "eval_loss": 0.5610710978507996,
      "eval_runtime": 2.1604,
      "eval_samples_per_second": 1054.903,
      "eval_steps_per_second": 4.166,
      "step": 12240
    },
    {
      "epoch": 240.2,
      "learning_rate": 0.00014094123336267842,
      "loss": 0.5567,
      "step": 12250
    },
    {
      "epoch": 240.39,
      "learning_rate": 0.00014092191613150062,
      "loss": 0.5612,
      "step": 12260
    },
    {
      "epoch": 240.59,
      "learning_rate": 0.00014090257965259357,
      "loss": 0.5601,
      "step": 12270
    },
    {
      "epoch": 240.78,
      "learning_rate": 0.00014088322393160298,
      "loss": 0.5577,
      "step": 12280
    },
    {
      "epoch": 240.98,
      "learning_rate": 0.00014086384897418037,
      "loss": 0.5577,
      "step": 12290
    },
    {
      "epoch": 241.0,
      "eval_loss": 0.5588154792785645,
      "eval_runtime": 2.1478,
      "eval_samples_per_second": 1061.078,
      "eval_steps_per_second": 4.19,
      "step": 12291
    },
    {
      "epoch": 241.18,
      "learning_rate": 0.00014084445478598274,
      "loss": 0.5576,
      "step": 12300
    },
    {
      "epoch": 241.37,
      "learning_rate": 0.00014082504137267283,
      "loss": 0.5548,
      "step": 12310
    },
    {
      "epoch": 241.57,
      "learning_rate": 0.00014080560873991883,
      "loss": 0.5584,
      "step": 12320
    },
    {
      "epoch": 241.76,
      "learning_rate": 0.0001407861568933947,
      "loss": 0.556,
      "step": 12330
    },
    {
      "epoch": 241.96,
      "learning_rate": 0.00014076668583877993,
      "loss": 0.5514,
      "step": 12340
    },
    {
      "epoch": 242.0,
      "eval_loss": 0.5583884119987488,
      "eval_runtime": 2.1247,
      "eval_samples_per_second": 1072.62,
      "eval_steps_per_second": 4.236,
      "step": 12342
    },
    {
      "epoch": 242.16,
      "learning_rate": 0.00014074719558175968,
      "loss": 0.5522,
      "step": 12350
    },
    {
      "epoch": 242.35,
      "learning_rate": 0.0001407276861280246,
      "loss": 0.5528,
      "step": 12360
    },
    {
      "epoch": 242.55,
      "learning_rate": 0.000140708157483271,
      "loss": 0.5548,
      "step": 12370
    },
    {
      "epoch": 242.75,
      "learning_rate": 0.0001406886096532009,
      "loss": 0.5559,
      "step": 12380
    },
    {
      "epoch": 242.94,
      "learning_rate": 0.00014066904264352175,
      "loss": 0.5581,
      "step": 12390
    },
    {
      "epoch": 243.0,
      "eval_loss": 0.5565963983535767,
      "eval_runtime": 2.1477,
      "eval_samples_per_second": 1061.154,
      "eval_steps_per_second": 4.191,
      "step": 12393
    },
    {
      "epoch": 243.14,
      "learning_rate": 0.0001406494564599467,
      "loss": 0.5556,
      "step": 12400
    },
    {
      "epoch": 243.33,
      "learning_rate": 0.00014062985110819453,
      "loss": 0.5603,
      "step": 12410
    },
    {
      "epoch": 243.53,
      "learning_rate": 0.0001406102265939895,
      "loss": 0.5578,
      "step": 12420
    },
    {
      "epoch": 243.73,
      "learning_rate": 0.00014059058292306155,
      "loss": 0.5555,
      "step": 12430
    },
    {
      "epoch": 243.92,
      "learning_rate": 0.0001405709201011462,
      "loss": 0.555,
      "step": 12440
    },
    {
      "epoch": 244.0,
      "eval_loss": 0.5562523007392883,
      "eval_runtime": 2.1073,
      "eval_samples_per_second": 1081.465,
      "eval_steps_per_second": 4.271,
      "step": 12444
    },
    {
      "epoch": 244.12,
      "learning_rate": 0.00014055123813398455,
      "loss": 0.5546,
      "step": 12450
    },
    {
      "epoch": 244.31,
      "learning_rate": 0.00014053153702732333,
      "loss": 0.5548,
      "step": 12460
    },
    {
      "epoch": 244.51,
      "learning_rate": 0.00014051181678691475,
      "loss": 0.5543,
      "step": 12470
    },
    {
      "epoch": 244.71,
      "learning_rate": 0.00014049207741851676,
      "loss": 0.5547,
      "step": 12480
    },
    {
      "epoch": 244.9,
      "learning_rate": 0.00014047231892789274,
      "loss": 0.5571,
      "step": 12490
    },
    {
      "epoch": 245.0,
      "eval_loss": 0.5540693402290344,
      "eval_runtime": 2.2162,
      "eval_samples_per_second": 1028.327,
      "eval_steps_per_second": 4.061,
      "step": 12495
    },
    {
      "epoch": 245.1,
      "learning_rate": 0.0001404525413208118,
      "loss": 0.5528,
      "step": 12500
    },
    {
      "epoch": 245.29,
      "learning_rate": 0.0001404327446030485,
      "loss": 0.5579,
      "step": 12510
    },
    {
      "epoch": 245.49,
      "learning_rate": 0.00014041292878038308,
      "loss": 0.557,
      "step": 12520
    },
    {
      "epoch": 245.69,
      "learning_rate": 0.00014039309385860133,
      "loss": 0.5521,
      "step": 12530
    },
    {
      "epoch": 245.88,
      "learning_rate": 0.00014037323984349454,
      "loss": 0.5549,
      "step": 12540
    },
    {
      "epoch": 246.0,
      "eval_loss": 0.5541282296180725,
      "eval_runtime": 2.1726,
      "eval_samples_per_second": 1048.955,
      "eval_steps_per_second": 4.142,
      "step": 12546
    },
    {
      "epoch": 246.08,
      "learning_rate": 0.00014035336674085973,
      "loss": 0.5601,
      "step": 12550
    },
    {
      "epoch": 246.27,
      "learning_rate": 0.0001403334745564993,
      "loss": 0.5522,
      "step": 12560
    },
    {
      "epoch": 246.47,
      "learning_rate": 0.00014031356329622142,
      "loss": 0.5521,
      "step": 12570
    },
    {
      "epoch": 246.67,
      "learning_rate": 0.00014029363296583967,
      "loss": 0.5543,
      "step": 12580
    },
    {
      "epoch": 246.86,
      "learning_rate": 0.00014027368357117327,
      "loss": 0.5521,
      "step": 12590
    },
    {
      "epoch": 247.0,
      "eval_loss": 0.5520634651184082,
      "eval_runtime": 2.1385,
      "eval_samples_per_second": 1065.694,
      "eval_steps_per_second": 4.209,
      "step": 12597
    },
    {
      "epoch": 247.06,
      "learning_rate": 0.00014025371511804704,
      "loss": 0.5545,
      "step": 12600
    },
    {
      "epoch": 247.25,
      "learning_rate": 0.0001402337276122913,
      "loss": 0.5564,
      "step": 12610
    },
    {
      "epoch": 247.45,
      "learning_rate": 0.00014021372105974192,
      "loss": 0.5577,
      "step": 12620
    },
    {
      "epoch": 247.65,
      "learning_rate": 0.00014019369546624041,
      "loss": 0.5555,
      "step": 12630
    },
    {
      "epoch": 247.84,
      "learning_rate": 0.0001401736508376338,
      "loss": 0.55,
      "step": 12640
    },
    {
      "epoch": 248.0,
      "eval_loss": 0.5567444562911987,
      "eval_runtime": 2.1464,
      "eval_samples_per_second": 1061.759,
      "eval_steps_per_second": 4.193,
      "step": 12648
    },
    {
      "epoch": 248.04,
      "learning_rate": 0.00014015358717977462,
      "loss": 0.5494,
      "step": 12650
    },
    {
      "epoch": 248.24,
      "learning_rate": 0.00014013350449852108,
      "loss": 0.5543,
      "step": 12660
    },
    {
      "epoch": 248.43,
      "learning_rate": 0.00014011340279973685,
      "loss": 0.556,
      "step": 12670
    },
    {
      "epoch": 248.63,
      "learning_rate": 0.00014009328208929115,
      "loss": 0.5497,
      "step": 12680
    },
    {
      "epoch": 248.82,
      "learning_rate": 0.00014007314237305882,
      "loss": 0.5518,
      "step": 12690
    },
    {
      "epoch": 249.0,
      "eval_loss": 0.5559237599372864,
      "eval_runtime": 2.164,
      "eval_samples_per_second": 1053.148,
      "eval_steps_per_second": 4.159,
      "step": 12699
    },
    {
      "epoch": 249.02,
      "learning_rate": 0.00014005298365692018,
      "loss": 0.5504,
      "step": 12700
    },
    {
      "epoch": 249.22,
      "learning_rate": 0.00014003280594676113,
      "loss": 0.5543,
      "step": 12710
    },
    {
      "epoch": 249.41,
      "learning_rate": 0.00014001260924847314,
      "loss": 0.5519,
      "step": 12720
    },
    {
      "epoch": 249.61,
      "learning_rate": 0.00013999239356795315,
      "loss": 0.55,
      "step": 12730
    },
    {
      "epoch": 249.8,
      "learning_rate": 0.0001399721589111037,
      "loss": 0.5529,
      "step": 12740
    },
    {
      "epoch": 250.0,
      "learning_rate": 0.0001399519052838329,
      "loss": 0.5522,
      "step": 12750
    },
    {
      "epoch": 250.0,
      "eval_loss": 0.5535538792610168,
      "eval_runtime": 2.0888,
      "eval_samples_per_second": 1091.067,
      "eval_steps_per_second": 4.309,
      "step": 12750
    },
    {
      "epoch": 250.2,
      "learning_rate": 0.00013993163269205428,
      "loss": 0.555,
      "step": 12760
    },
    {
      "epoch": 250.39,
      "learning_rate": 0.00013991134114168708,
      "loss": 0.5497,
      "step": 12770
    },
    {
      "epoch": 250.59,
      "learning_rate": 0.0001398910306386559,
      "loss": 0.5566,
      "step": 12780
    },
    {
      "epoch": 250.78,
      "learning_rate": 0.000139870701188891,
      "loss": 0.5536,
      "step": 12790
    },
    {
      "epoch": 250.98,
      "learning_rate": 0.00013985035279832808,
      "loss": 0.5481,
      "step": 12800
    },
    {
      "epoch": 251.0,
      "eval_loss": 0.5503749251365662,
      "eval_runtime": 2.191,
      "eval_samples_per_second": 1040.186,
      "eval_steps_per_second": 4.108,
      "step": 12801
    },
    {
      "epoch": 251.18,
      "learning_rate": 0.00013982998547290847,
      "loss": 0.5522,
      "step": 12810
    },
    {
      "epoch": 251.37,
      "learning_rate": 0.00013980959921857893,
      "loss": 0.5494,
      "step": 12820
    },
    {
      "epoch": 251.57,
      "learning_rate": 0.00013978919404129185,
      "loss": 0.5526,
      "step": 12830
    },
    {
      "epoch": 251.76,
      "learning_rate": 0.00013976876994700502,
      "loss": 0.5524,
      "step": 12840
    },
    {
      "epoch": 251.96,
      "learning_rate": 0.00013974832694168188,
      "loss": 0.5516,
      "step": 12850
    },
    {
      "epoch": 252.0,
      "eval_loss": 0.5562964081764221,
      "eval_runtime": 2.1875,
      "eval_samples_per_second": 1041.847,
      "eval_steps_per_second": 4.114,
      "step": 12852
    },
    {
      "epoch": 252.16,
      "learning_rate": 0.00013972786503129125,
      "loss": 0.5528,
      "step": 12860
    },
    {
      "epoch": 252.35,
      "learning_rate": 0.00013970738422180765,
      "loss": 0.5506,
      "step": 12870
    },
    {
      "epoch": 252.55,
      "learning_rate": 0.00013968688451921094,
      "loss": 0.5546,
      "step": 12880
    },
    {
      "epoch": 252.75,
      "learning_rate": 0.00013966636592948662,
      "loss": 0.5459,
      "step": 12890
    },
    {
      "epoch": 252.94,
      "learning_rate": 0.00013964582845862566,
      "loss": 0.5524,
      "step": 12900
    },
    {
      "epoch": 253.0,
      "eval_loss": 0.5502599477767944,
      "eval_runtime": 2.2087,
      "eval_samples_per_second": 1031.838,
      "eval_steps_per_second": 4.075,
      "step": 12903
    },
    {
      "epoch": 253.14,
      "learning_rate": 0.0001396252721126245,
      "loss": 0.5477,
      "step": 12910
    },
    {
      "epoch": 253.33,
      "learning_rate": 0.0001396046968974852,
      "loss": 0.5459,
      "step": 12920
    },
    {
      "epoch": 253.53,
      "learning_rate": 0.00013958410281921522,
      "loss": 0.5495,
      "step": 12930
    },
    {
      "epoch": 253.73,
      "learning_rate": 0.00013956348988382756,
      "loss": 0.55,
      "step": 12940
    },
    {
      "epoch": 253.92,
      "learning_rate": 0.00013954285809734078,
      "loss": 0.5582,
      "step": 12950
    },
    {
      "epoch": 254.0,
      "eval_loss": 0.5519425272941589,
      "eval_runtime": 2.2043,
      "eval_samples_per_second": 1033.891,
      "eval_steps_per_second": 4.083,
      "step": 12954
    },
    {
      "epoch": 254.12,
      "learning_rate": 0.00013952220746577887,
      "loss": 0.5544,
      "step": 12960
    },
    {
      "epoch": 254.31,
      "learning_rate": 0.0001395015379951714,
      "loss": 0.5509,
      "step": 12970
    },
    {
      "epoch": 254.51,
      "learning_rate": 0.00013948084969155332,
      "loss": 0.554,
      "step": 12980
    },
    {
      "epoch": 254.71,
      "learning_rate": 0.00013946014256096523,
      "loss": 0.5538,
      "step": 12990
    },
    {
      "epoch": 254.9,
      "learning_rate": 0.0001394394166094531,
      "loss": 0.5514,
      "step": 13000
    },
    {
      "epoch": 255.0,
      "eval_loss": 0.5504211187362671,
      "eval_runtime": 2.1612,
      "eval_samples_per_second": 1054.513,
      "eval_steps_per_second": 4.164,
      "step": 13005
    },
    {
      "epoch": 255.1,
      "learning_rate": 0.00013941867184306841,
      "loss": 0.5475,
      "step": 13010
    },
    {
      "epoch": 255.29,
      "learning_rate": 0.00013939790826786826,
      "loss": 0.5481,
      "step": 13020
    },
    {
      "epoch": 255.49,
      "learning_rate": 0.00013937712588991513,
      "loss": 0.5661,
      "step": 13030
    },
    {
      "epoch": 255.69,
      "learning_rate": 0.00013935632471527692,
      "loss": 0.5604,
      "step": 13040
    },
    {
      "epoch": 255.88,
      "learning_rate": 0.00013933550475002724,
      "loss": 0.5498,
      "step": 13050
    },
    {
      "epoch": 256.0,
      "eval_loss": 0.5519892573356628,
      "eval_runtime": 2.1905,
      "eval_samples_per_second": 1040.423,
      "eval_steps_per_second": 4.109,
      "step": 13056
    },
    {
      "epoch": 256.08,
      "learning_rate": 0.00013931466600024497,
      "loss": 0.5487,
      "step": 13060
    },
    {
      "epoch": 256.27,
      "learning_rate": 0.00013929380847201462,
      "loss": 0.5514,
      "step": 13070
    },
    {
      "epoch": 256.47,
      "learning_rate": 0.00013927293217142603,
      "loss": 0.5507,
      "step": 13080
    },
    {
      "epoch": 256.67,
      "learning_rate": 0.0001392520371045747,
      "loss": 0.5525,
      "step": 13090
    },
    {
      "epoch": 256.86,
      "learning_rate": 0.0001392311232775615,
      "loss": 0.5481,
      "step": 13100
    },
    {
      "epoch": 257.0,
      "eval_loss": 0.5540376305580139,
      "eval_runtime": 2.2252,
      "eval_samples_per_second": 1024.175,
      "eval_steps_per_second": 4.045,
      "step": 13107
    },
    {
      "epoch": 257.06,
      "learning_rate": 0.0001392101906964928,
      "loss": 0.5545,
      "step": 13110
    },
    {
      "epoch": 257.25,
      "learning_rate": 0.00013918923936748044,
      "loss": 0.5499,
      "step": 13120
    },
    {
      "epoch": 257.45,
      "learning_rate": 0.00013916826929664171,
      "loss": 0.5492,
      "step": 13130
    },
    {
      "epoch": 257.65,
      "learning_rate": 0.0001391472804900995,
      "loss": 0.5522,
      "step": 13140
    },
    {
      "epoch": 257.84,
      "learning_rate": 0.00013912627295398195,
      "loss": 0.551,
      "step": 13150
    },
    {
      "epoch": 258.0,
      "eval_loss": 0.5503237843513489,
      "eval_runtime": 2.1524,
      "eval_samples_per_second": 1058.821,
      "eval_steps_per_second": 4.181,
      "step": 13158
    },
    {
      "epoch": 258.04,
      "learning_rate": 0.00013910524669442288,
      "loss": 0.5414,
      "step": 13160
    },
    {
      "epoch": 258.24,
      "learning_rate": 0.00013908420171756145,
      "loss": 0.5502,
      "step": 13170
    },
    {
      "epoch": 258.43,
      "learning_rate": 0.00013906313802954234,
      "loss": 0.5495,
      "step": 13180
    },
    {
      "epoch": 258.63,
      "learning_rate": 0.00013904205563651566,
      "loss": 0.5498,
      "step": 13190
    },
    {
      "epoch": 258.82,
      "learning_rate": 0.00013902095454463705,
      "loss": 0.5495,
      "step": 13200
    },
    {
      "epoch": 259.0,
      "eval_loss": 0.5490508079528809,
      "eval_runtime": 2.1616,
      "eval_samples_per_second": 1054.332,
      "eval_steps_per_second": 4.164,
      "step": 13209
    },
    {
      "epoch": 259.02,
      "learning_rate": 0.0001389998347600675,
      "loss": 0.5475,
      "step": 13210
    },
    {
      "epoch": 259.22,
      "learning_rate": 0.0001389786962889735,
      "loss": 0.5538,
      "step": 13220
    },
    {
      "epoch": 259.41,
      "learning_rate": 0.0001389575391375271,
      "loss": 0.5466,
      "step": 13230
    },
    {
      "epoch": 259.61,
      "learning_rate": 0.00013893636331190564,
      "loss": 0.542,
      "step": 13240
    },
    {
      "epoch": 259.8,
      "learning_rate": 0.00013891516881829198,
      "loss": 0.5466,
      "step": 13250
    },
    {
      "epoch": 260.0,
      "learning_rate": 0.0001388939556628745,
      "loss": 0.5483,
      "step": 13260
    },
    {
      "epoch": 260.0,
      "eval_loss": 0.5461385846138,
      "eval_runtime": 2.2603,
      "eval_samples_per_second": 1008.293,
      "eval_steps_per_second": 3.982,
      "step": 13260
    },
    {
      "epoch": 260.2,
      "learning_rate": 0.00013887272385184696,
      "loss": 0.5471,
      "step": 13270
    },
    {
      "epoch": 260.39,
      "learning_rate": 0.00013885147339140854,
      "loss": 0.5463,
      "step": 13280
    },
    {
      "epoch": 260.59,
      "learning_rate": 0.00013883020428776392,
      "loss": 0.5462,
      "step": 13290
    },
    {
      "epoch": 260.78,
      "learning_rate": 0.00013880891654712317,
      "loss": 0.542,
      "step": 13300
    },
    {
      "epoch": 260.98,
      "learning_rate": 0.0001387876101757019,
      "loss": 0.5468,
      "step": 13310
    },
    {
      "epoch": 261.0,
      "eval_loss": 0.5586115121841431,
      "eval_runtime": 2.2776,
      "eval_samples_per_second": 1000.623,
      "eval_steps_per_second": 3.952,
      "step": 13311
    },
    {
      "epoch": 261.18,
      "learning_rate": 0.00013876628517972106,
      "loss": 0.5529,
      "step": 13320
    },
    {
      "epoch": 261.37,
      "learning_rate": 0.00013874494156540707,
      "loss": 0.5473,
      "step": 13330
    },
    {
      "epoch": 261.57,
      "learning_rate": 0.00013872357933899176,
      "loss": 0.5472,
      "step": 13340
    },
    {
      "epoch": 261.76,
      "learning_rate": 0.0001387021985067125,
      "loss": 0.5433,
      "step": 13350
    },
    {
      "epoch": 261.96,
      "learning_rate": 0.00013868079907481196,
      "loss": 0.5454,
      "step": 13360
    },
    {
      "epoch": 262.0,
      "eval_loss": 0.5494788885116577,
      "eval_runtime": 2.2512,
      "eval_samples_per_second": 1012.37,
      "eval_steps_per_second": 3.998,
      "step": 13362
    },
    {
      "epoch": 262.16,
      "learning_rate": 0.0001386593810495383,
      "loss": 0.5498,
      "step": 13370
    },
    {
      "epoch": 262.35,
      "learning_rate": 0.0001386379444371451,
      "loss": 0.5504,
      "step": 13380
    },
    {
      "epoch": 262.55,
      "learning_rate": 0.00013861648924389143,
      "loss": 0.5442,
      "step": 13390
    },
    {
      "epoch": 262.75,
      "learning_rate": 0.00013859501547604166,
      "loss": 0.5405,
      "step": 13400
    },
    {
      "epoch": 262.94,
      "learning_rate": 0.00013857352313986567,
      "loss": 0.5447,
      "step": 13410
    },
    {
      "epoch": 263.0,
      "eval_loss": 0.5454888939857483,
      "eval_runtime": 2.1676,
      "eval_samples_per_second": 1051.378,
      "eval_steps_per_second": 4.152,
      "step": 13413
    },
    {
      "epoch": 263.14,
      "learning_rate": 0.00013855201224163876,
      "loss": 0.5415,
      "step": 13420
    },
    {
      "epoch": 263.33,
      "learning_rate": 0.00013853048278764164,
      "loss": 0.5447,
      "step": 13430
    },
    {
      "epoch": 263.53,
      "learning_rate": 0.0001385089347841604,
      "loss": 0.5452,
      "step": 13440
    },
    {
      "epoch": 263.73,
      "learning_rate": 0.00013848736823748658,
      "loss": 0.5429,
      "step": 13450
    },
    {
      "epoch": 263.92,
      "learning_rate": 0.00013846578315391715,
      "loss": 0.5475,
      "step": 13460
    },
    {
      "epoch": 264.0,
      "eval_loss": 0.5510943531990051,
      "eval_runtime": 2.2148,
      "eval_samples_per_second": 1028.991,
      "eval_steps_per_second": 4.064,
      "step": 13464
    },
    {
      "epoch": 264.12,
      "learning_rate": 0.00013844417953975445,
      "loss": 0.5442,
      "step": 13470
    },
    {
      "epoch": 264.31,
      "learning_rate": 0.0001384225574013063,
      "loss": 0.5478,
      "step": 13480
    },
    {
      "epoch": 264.51,
      "learning_rate": 0.0001384009167448858,
      "loss": 0.5402,
      "step": 13490
    },
    {
      "epoch": 264.71,
      "learning_rate": 0.00013837925757681163,
      "loss": 0.5466,
      "step": 13500
    },
    {
      "epoch": 264.9,
      "learning_rate": 0.00013835757990340774,
      "loss": 0.5439,
      "step": 13510
    },
    {
      "epoch": 265.0,
      "eval_loss": 0.5452569723129272,
      "eval_runtime": 2.2132,
      "eval_samples_per_second": 1029.718,
      "eval_steps_per_second": 4.066,
      "step": 13515
    },
    {
      "epoch": 265.1,
      "learning_rate": 0.0001383358837310035,
      "loss": 0.5433,
      "step": 13520
    },
    {
      "epoch": 265.29,
      "learning_rate": 0.00013831416906593376,
      "loss": 0.5426,
      "step": 13530
    },
    {
      "epoch": 265.49,
      "learning_rate": 0.0001382924359145387,
      "loss": 0.5445,
      "step": 13540
    },
    {
      "epoch": 265.69,
      "learning_rate": 0.0001382706842831639,
      "loss": 0.5431,
      "step": 13550
    },
    {
      "epoch": 265.88,
      "learning_rate": 0.00013824891417816036,
      "loss": 0.542,
      "step": 13560
    },
    {
      "epoch": 266.0,
      "eval_loss": 0.5477101802825928,
      "eval_runtime": 2.1889,
      "eval_samples_per_second": 1041.148,
      "eval_steps_per_second": 4.112,
      "step": 13566
    },
    {
      "epoch": 266.08,
      "learning_rate": 0.0001382271256058845,
      "loss": 0.5452,
      "step": 13570
    },
    {
      "epoch": 266.27,
      "learning_rate": 0.000138205318572698,
      "loss": 0.5451,
      "step": 13580
    },
    {
      "epoch": 266.47,
      "learning_rate": 0.00013818349308496812,
      "loss": 0.5472,
      "step": 13590
    },
    {
      "epoch": 266.67,
      "learning_rate": 0.0001381616491490674,
      "loss": 0.5468,
      "step": 13600
    },
    {
      "epoch": 266.86,
      "learning_rate": 0.00013813978677137379,
      "loss": 0.5437,
      "step": 13610
    },
    {
      "epoch": 267.0,
      "eval_loss": 0.5501764416694641,
      "eval_runtime": 2.2879,
      "eval_samples_per_second": 996.126,
      "eval_steps_per_second": 3.934,
      "step": 13617
    },
    {
      "epoch": 267.06,
      "learning_rate": 0.00013811790595827058,
      "loss": 0.5383,
      "step": 13620
    },
    {
      "epoch": 267.25,
      "learning_rate": 0.00013809600671614648,
      "loss": 0.5438,
      "step": 13630
    },
    {
      "epoch": 267.45,
      "learning_rate": 0.00013807408905139562,
      "loss": 0.5413,
      "step": 13640
    },
    {
      "epoch": 267.65,
      "learning_rate": 0.00013805215297041742,
      "loss": 0.5441,
      "step": 13650
    },
    {
      "epoch": 267.84,
      "learning_rate": 0.00013803019847961675,
      "loss": 0.5452,
      "step": 13660
    },
    {
      "epoch": 268.0,
      "eval_loss": 0.5432447195053101,
      "eval_runtime": 2.2193,
      "eval_samples_per_second": 1026.904,
      "eval_steps_per_second": 4.055,
      "step": 13668
    },
    {
      "epoch": 268.04,
      "learning_rate": 0.00013800822558540386,
      "loss": 0.544,
      "step": 13670
    },
    {
      "epoch": 268.24,
      "learning_rate": 0.0001379862342941943,
      "loss": 0.5393,
      "step": 13680
    },
    {
      "epoch": 268.43,
      "learning_rate": 0.00013796422461240907,
      "loss": 0.5409,
      "step": 13690
    },
    {
      "epoch": 268.63,
      "learning_rate": 0.0001379421965464745,
      "loss": 0.5421,
      "step": 13700
    },
    {
      "epoch": 268.82,
      "learning_rate": 0.00013792015010282227,
      "loss": 0.5397,
      "step": 13710
    },
    {
      "epoch": 269.0,
      "eval_loss": 0.5443356037139893,
      "eval_runtime": 2.1268,
      "eval_samples_per_second": 1071.567,
      "eval_steps_per_second": 4.232,
      "step": 13719
    },
    {
      "epoch": 269.02,
      "learning_rate": 0.00013789808528788945,
      "loss": 0.5451,
      "step": 13720
    },
    {
      "epoch": 269.22,
      "learning_rate": 0.00013787600210811852,
      "loss": 0.5417,
      "step": 13730
    },
    {
      "epoch": 269.41,
      "learning_rate": 0.0001378539005699572,
      "loss": 0.5466,
      "step": 13740
    },
    {
      "epoch": 269.61,
      "learning_rate": 0.00013783178067985875,
      "loss": 0.5429,
      "step": 13750
    },
    {
      "epoch": 269.8,
      "learning_rate": 0.0001378096424442816,
      "loss": 0.5416,
      "step": 13760
    },
    {
      "epoch": 270.0,
      "learning_rate": 0.00013778748586968962,
      "loss": 0.5424,
      "step": 13770
    },
    {
      "epoch": 270.0,
      "eval_loss": 0.5410163998603821,
      "eval_runtime": 2.2841,
      "eval_samples_per_second": 997.745,
      "eval_steps_per_second": 3.94,
      "step": 13770
    },
    {
      "epoch": 270.2,
      "learning_rate": 0.0001377653109625521,
      "loss": 0.5391,
      "step": 13780
    },
    {
      "epoch": 270.39,
      "learning_rate": 0.00013774311772934357,
      "loss": 0.5427,
      "step": 13790
    },
    {
      "epoch": 270.59,
      "learning_rate": 0.000137720906176544,
      "loss": 0.5395,
      "step": 13800
    },
    {
      "epoch": 270.78,
      "learning_rate": 0.00013769867631063858,
      "loss": 0.5391,
      "step": 13810
    },
    {
      "epoch": 270.98,
      "learning_rate": 0.00013767642813811802,
      "loss": 0.5391,
      "step": 13820
    },
    {
      "epoch": 271.0,
      "eval_loss": 0.5419728755950928,
      "eval_runtime": 2.1784,
      "eval_samples_per_second": 1046.187,
      "eval_steps_per_second": 4.131,
      "step": 13821
    },
    {
      "epoch": 271.18,
      "learning_rate": 0.00013765416166547825,
      "loss": 0.5435,
      "step": 13830
    },
    {
      "epoch": 271.37,
      "learning_rate": 0.00013763187689922062,
      "loss": 0.5401,
      "step": 13840
    },
    {
      "epoch": 271.57,
      "learning_rate": 0.00013760957384585174,
      "loss": 0.5355,
      "step": 13850
    },
    {
      "epoch": 271.76,
      "learning_rate": 0.00013758725251188366,
      "loss": 0.5373,
      "step": 13860
    },
    {
      "epoch": 271.96,
      "learning_rate": 0.00013756491290383365,
      "loss": 0.5368,
      "step": 13870
    },
    {
      "epoch": 272.0,
      "eval_loss": 0.5402165651321411,
      "eval_runtime": 2.2021,
      "eval_samples_per_second": 1034.911,
      "eval_steps_per_second": 4.087,
      "step": 13872
    },
    {
      "epoch": 272.16,
      "learning_rate": 0.0001375425550282244,
      "loss": 0.5368,
      "step": 13880
    },
    {
      "epoch": 272.35,
      "learning_rate": 0.00013752017889158394,
      "loss": 0.5368,
      "step": 13890
    },
    {
      "epoch": 272.55,
      "learning_rate": 0.00013749778450044558,
      "loss": 0.5407,
      "step": 13900
    },
    {
      "epoch": 272.75,
      "learning_rate": 0.00013747537186134797,
      "loss": 0.545,
      "step": 13910
    },
    {
      "epoch": 272.94,
      "learning_rate": 0.0001374529409808351,
      "loss": 0.5387,
      "step": 13920
    },
    {
      "epoch": 273.0,
      "eval_loss": 0.5400860905647278,
      "eval_runtime": 2.1991,
      "eval_samples_per_second": 1036.352,
      "eval_steps_per_second": 4.093,
      "step": 13923
    },
    {
      "epoch": 273.14,
      "learning_rate": 0.00013743049186545631,
      "loss": 0.5387,
      "step": 13930
    },
    {
      "epoch": 273.33,
      "learning_rate": 0.00013740802452176626,
      "loss": 0.5415,
      "step": 13940
    },
    {
      "epoch": 273.53,
      "learning_rate": 0.00013738553895632484,
      "loss": 0.5341,
      "step": 13950
    },
    {
      "epoch": 273.73,
      "learning_rate": 0.0001373630351756974,
      "loss": 0.5385,
      "step": 13960
    },
    {
      "epoch": 273.92,
      "learning_rate": 0.00013734051318645452,
      "loss": 0.5362,
      "step": 13970
    },
    {
      "epoch": 274.0,
      "eval_loss": 0.5413815975189209,
      "eval_runtime": 2.1276,
      "eval_samples_per_second": 1071.167,
      "eval_steps_per_second": 4.23,
      "step": 13974
    },
    {
      "epoch": 274.12,
      "learning_rate": 0.0001373179729951721,
      "loss": 0.5348,
      "step": 13980
    },
    {
      "epoch": 274.31,
      "learning_rate": 0.0001372954146084314,
      "loss": 0.5412,
      "step": 13990
    },
    {
      "epoch": 274.51,
      "learning_rate": 0.00013727283803281894,
      "loss": 0.5411,
      "step": 14000
    },
    {
      "epoch": 274.71,
      "learning_rate": 0.00013725024327492663,
      "loss": 0.537,
      "step": 14010
    },
    {
      "epoch": 274.9,
      "learning_rate": 0.00013722763034135156,
      "loss": 0.5374,
      "step": 14020
    },
    {
      "epoch": 275.0,
      "eval_loss": 0.5417589545249939,
      "eval_runtime": 2.2039,
      "eval_samples_per_second": 1034.085,
      "eval_steps_per_second": 4.084,
      "step": 14025
    },
    {
      "epoch": 275.1,
      "learning_rate": 0.00013720499923869627,
      "loss": 0.5404,
      "step": 14030
    },
    {
      "epoch": 275.29,
      "learning_rate": 0.0001371823499735685,
      "loss": 0.5364,
      "step": 14040
    },
    {
      "epoch": 275.49,
      "learning_rate": 0.00013715968255258136,
      "loss": 0.5415,
      "step": 14050
    },
    {
      "epoch": 275.69,
      "learning_rate": 0.0001371369969823532,
      "loss": 0.5358,
      "step": 14060
    },
    {
      "epoch": 275.88,
      "learning_rate": 0.0001371142932695077,
      "loss": 0.5375,
      "step": 14070
    },
    {
      "epoch": 276.0,
      "eval_loss": 0.5415284633636475,
      "eval_runtime": 2.3244,
      "eval_samples_per_second": 980.457,
      "eval_steps_per_second": 3.872,
      "step": 14076
    },
    {
      "epoch": 276.08,
      "learning_rate": 0.00013709157142067382,
      "loss": 0.5416,
      "step": 14080
    },
    {
      "epoch": 276.27,
      "learning_rate": 0.0001370688314424859,
      "loss": 0.5305,
      "step": 14090
    },
    {
      "epoch": 276.47,
      "learning_rate": 0.00013704607334158347,
      "loss": 0.534,
      "step": 14100
    },
    {
      "epoch": 276.67,
      "learning_rate": 0.00013702329712461135,
      "loss": 0.5341,
      "step": 14110
    },
    {
      "epoch": 276.86,
      "learning_rate": 0.00013700050279821975,
      "loss": 0.5427,
      "step": 14120
    },
    {
      "epoch": 277.0,
      "eval_loss": 0.5435522794723511,
      "eval_runtime": 2.2092,
      "eval_samples_per_second": 1031.595,
      "eval_steps_per_second": 4.074,
      "step": 14127
    },
    {
      "epoch": 277.06,
      "learning_rate": 0.0001369776903690641,
      "loss": 0.5404,
      "step": 14130
    },
    {
      "epoch": 277.25,
      "learning_rate": 0.00013695485984380505,
      "loss": 0.5369,
      "step": 14140
    },
    {
      "epoch": 277.45,
      "learning_rate": 0.0001369320112291087,
      "loss": 0.5361,
      "step": 14150
    },
    {
      "epoch": 277.65,
      "learning_rate": 0.00013690914453164625,
      "loss": 0.5347,
      "step": 14160
    },
    {
      "epoch": 277.84,
      "learning_rate": 0.0001368862597580943,
      "loss": 0.5382,
      "step": 14170
    },
    {
      "epoch": 278.0,
      "eval_loss": 0.5365801453590393,
      "eval_runtime": 2.2436,
      "eval_samples_per_second": 1015.78,
      "eval_steps_per_second": 4.011,
      "step": 14178
    },
    {
      "epoch": 278.04,
      "learning_rate": 0.00013686335691513474,
      "loss": 0.5329,
      "step": 14180
    },
    {
      "epoch": 278.24,
      "learning_rate": 0.0001368404360094546,
      "loss": 0.5299,
      "step": 14190
    },
    {
      "epoch": 278.43,
      "learning_rate": 0.00013681749704774637,
      "loss": 0.5368,
      "step": 14200
    },
    {
      "epoch": 278.63,
      "learning_rate": 0.00013679454003670766,
      "loss": 0.5429,
      "step": 14210
    },
    {
      "epoch": 278.82,
      "learning_rate": 0.00013677156498304136,
      "loss": 0.5341,
      "step": 14220
    },
    {
      "epoch": 279.0,
      "eval_loss": 0.5410821437835693,
      "eval_runtime": 2.2163,
      "eval_samples_per_second": 1028.301,
      "eval_steps_per_second": 4.061,
      "step": 14229
    },
    {
      "epoch": 279.02,
      "learning_rate": 0.00013674857189345578,
      "loss": 0.5361,
      "step": 14230
    },
    {
      "epoch": 279.22,
      "learning_rate": 0.0001367255607746643,
      "loss": 0.5367,
      "step": 14240
    },
    {
      "epoch": 279.41,
      "learning_rate": 0.00013670253163338572,
      "loss": 0.5382,
      "step": 14250
    },
    {
      "epoch": 279.61,
      "learning_rate": 0.00013667948447634398,
      "loss": 0.5391,
      "step": 14260
    },
    {
      "epoch": 279.8,
      "learning_rate": 0.00013665641931026837,
      "loss": 0.5336,
      "step": 14270
    },
    {
      "epoch": 280.0,
      "learning_rate": 0.00013663333614189336,
      "loss": 0.5348,
      "step": 14280
    },
    {
      "epoch": 280.0,
      "eval_loss": 0.5377461314201355,
      "eval_runtime": 2.1689,
      "eval_samples_per_second": 1050.764,
      "eval_steps_per_second": 4.15,
      "step": 14280
    },
    {
      "epoch": 280.2,
      "learning_rate": 0.00013661023497795878,
      "loss": 0.5394,
      "step": 14290
    },
    {
      "epoch": 280.39,
      "learning_rate": 0.00013658711582520964,
      "loss": 0.5338,
      "step": 14300
    },
    {
      "epoch": 280.59,
      "learning_rate": 0.0001365639786903962,
      "loss": 0.5384,
      "step": 14310
    },
    {
      "epoch": 280.78,
      "learning_rate": 0.00013654082358027398,
      "loss": 0.5359,
      "step": 14320
    },
    {
      "epoch": 280.98,
      "learning_rate": 0.00013651765050160376,
      "loss": 0.5339,
      "step": 14330
    },
    {
      "epoch": 281.0,
      "eval_loss": 0.5393053293228149,
      "eval_runtime": 2.1543,
      "eval_samples_per_second": 1057.88,
      "eval_steps_per_second": 4.178,
      "step": 14331
    },
    {
      "epoch": 281.18,
      "learning_rate": 0.0001364944594611516,
      "loss": 0.5356,
      "step": 14340
    },
    {
      "epoch": 281.37,
      "learning_rate": 0.0001364712504656887,
      "loss": 0.5362,
      "step": 14350
    },
    {
      "epoch": 281.57,
      "learning_rate": 0.00013644802352199165,
      "loss": 0.5325,
      "step": 14360
    },
    {
      "epoch": 281.76,
      "learning_rate": 0.0001364247786368421,
      "loss": 0.5318,
      "step": 14370
    },
    {
      "epoch": 281.96,
      "learning_rate": 0.00013640151581702716,
      "loss": 0.5359,
      "step": 14380
    },
    {
      "epoch": 282.0,
      "eval_loss": 0.5359378457069397,
      "eval_runtime": 2.2586,
      "eval_samples_per_second": 1009.032,
      "eval_steps_per_second": 3.985,
      "step": 14382
    },
    {
      "epoch": 282.16,
      "learning_rate": 0.00013637823506933893,
      "loss": 0.5393,
      "step": 14390
    },
    {
      "epoch": 282.35,
      "learning_rate": 0.00013635493640057496,
      "loss": 0.5329,
      "step": 14400
    },
    {
      "epoch": 282.55,
      "learning_rate": 0.0001363316198175379,
      "loss": 0.5317,
      "step": 14410
    },
    {
      "epoch": 282.75,
      "learning_rate": 0.00013630828532703568,
      "loss": 0.5279,
      "step": 14420
    },
    {
      "epoch": 282.94,
      "learning_rate": 0.00013628493293588143,
      "loss": 0.536,
      "step": 14430
    },
    {
      "epoch": 283.0,
      "eval_loss": 0.5368289947509766,
      "eval_runtime": 2.2197,
      "eval_samples_per_second": 1026.704,
      "eval_steps_per_second": 4.055,
      "step": 14433
    },
    {
      "epoch": 283.14,
      "learning_rate": 0.00013626156265089358,
      "loss": 0.5332,
      "step": 14440
    },
    {
      "epoch": 283.33,
      "learning_rate": 0.00013623817447889572,
      "loss": 0.5327,
      "step": 14450
    },
    {
      "epoch": 283.53,
      "learning_rate": 0.00013621476842671663,
      "loss": 0.5371,
      "step": 14460
    },
    {
      "epoch": 283.73,
      "learning_rate": 0.00013619134450119035,
      "loss": 0.5358,
      "step": 14470
    },
    {
      "epoch": 283.92,
      "learning_rate": 0.00013616790270915623,
      "loss": 0.5362,
      "step": 14480
    },
    {
      "epoch": 284.0,
      "eval_loss": 0.5383955240249634,
      "eval_runtime": 2.221,
      "eval_samples_per_second": 1026.116,
      "eval_steps_per_second": 4.052,
      "step": 14484
    },
    {
      "epoch": 284.12,
      "learning_rate": 0.00013614444305745866,
      "loss": 0.5362,
      "step": 14490
    },
    {
      "epoch": 284.31,
      "learning_rate": 0.00013612096555294737,
      "loss": 0.536,
      "step": 14500
    },
    {
      "epoch": 284.51,
      "learning_rate": 0.00013609747020247728,
      "loss": 0.5365,
      "step": 14510
    },
    {
      "epoch": 284.71,
      "learning_rate": 0.00013607395701290852,
      "loss": 0.5349,
      "step": 14520
    },
    {
      "epoch": 284.9,
      "learning_rate": 0.00013605042599110635,
      "loss": 0.532,
      "step": 14530
    },
    {
      "epoch": 285.0,
      "eval_loss": 0.5345928072929382,
      "eval_runtime": 2.2377,
      "eval_samples_per_second": 1018.459,
      "eval_steps_per_second": 4.022,
      "step": 14535
    },
    {
      "epoch": 285.1,
      "learning_rate": 0.00013602687714394138,
      "loss": 0.5355,
      "step": 14540
    },
    {
      "epoch": 285.29,
      "learning_rate": 0.00013600331047828928,
      "loss": 0.537,
      "step": 14550
    },
    {
      "epoch": 285.49,
      "learning_rate": 0.00013597972600103107,
      "loss": 0.5363,
      "step": 14560
    },
    {
      "epoch": 285.69,
      "learning_rate": 0.00013595612371905284,
      "loss": 0.536,
      "step": 14570
    },
    {
      "epoch": 285.88,
      "learning_rate": 0.0001359325036392459,
      "loss": 0.5298,
      "step": 14580
    },
    {
      "epoch": 286.0,
      "eval_loss": 0.5376359820365906,
      "eval_runtime": 2.2303,
      "eval_samples_per_second": 1021.823,
      "eval_steps_per_second": 4.035,
      "step": 14586
    },
    {
      "epoch": 286.08,
      "learning_rate": 0.00013590886576850684,
      "loss": 0.5338,
      "step": 14590
    },
    {
      "epoch": 286.27,
      "learning_rate": 0.0001358852101137374,
      "loss": 0.5338,
      "step": 14600
    },
    {
      "epoch": 286.47,
      "learning_rate": 0.00013586153668184445,
      "loss": 0.5345,
      "step": 14610
    },
    {
      "epoch": 286.67,
      "learning_rate": 0.00013583784547974015,
      "loss": 0.5332,
      "step": 14620
    },
    {
      "epoch": 286.86,
      "learning_rate": 0.0001358141365143418,
      "loss": 0.5352,
      "step": 14630
    },
    {
      "epoch": 287.0,
      "eval_loss": 0.5373082160949707,
      "eval_runtime": 2.3172,
      "eval_samples_per_second": 983.516,
      "eval_steps_per_second": 3.884,
      "step": 14637
    },
    {
      "epoch": 287.06,
      "learning_rate": 0.00013579040979257184,
      "loss": 0.5325,
      "step": 14640
    },
    {
      "epoch": 287.25,
      "learning_rate": 0.000135766665321358,
      "loss": 0.5268,
      "step": 14650
    },
    {
      "epoch": 287.45,
      "learning_rate": 0.0001357429031076331,
      "loss": 0.5323,
      "step": 14660
    },
    {
      "epoch": 287.65,
      "learning_rate": 0.0001357191231583352,
      "loss": 0.5298,
      "step": 14670
    },
    {
      "epoch": 287.84,
      "learning_rate": 0.0001356953254804075,
      "loss": 0.5344,
      "step": 14680
    },
    {
      "epoch": 288.0,
      "eval_loss": 0.5358995199203491,
      "eval_runtime": 2.3331,
      "eval_samples_per_second": 976.806,
      "eval_steps_per_second": 3.858,
      "step": 14688
    },
    {
      "epoch": 288.04,
      "learning_rate": 0.0001356715100807984,
      "loss": 0.5339,
      "step": 14690
    },
    {
      "epoch": 288.24,
      "learning_rate": 0.00013564767696646148,
      "loss": 0.5311,
      "step": 14700
    },
    {
      "epoch": 288.43,
      "learning_rate": 0.00013562382614435543,
      "loss": 0.5301,
      "step": 14710
    },
    {
      "epoch": 288.63,
      "learning_rate": 0.00013559995762144422,
      "loss": 0.5341,
      "step": 14720
    },
    {
      "epoch": 288.82,
      "learning_rate": 0.00013557607140469687,
      "loss": 0.5399,
      "step": 14730
    },
    {
      "epoch": 289.0,
      "eval_loss": 0.5426952838897705,
      "eval_runtime": 2.2284,
      "eval_samples_per_second": 1022.697,
      "eval_steps_per_second": 4.039,
      "step": 14739
    },
    {
      "epoch": 289.02,
      "learning_rate": 0.00013555216750108767,
      "loss": 0.5402,
      "step": 14740
    },
    {
      "epoch": 289.22,
      "learning_rate": 0.00013552824591759596,
      "loss": 0.5383,
      "step": 14750
    },
    {
      "epoch": 289.41,
      "learning_rate": 0.00013550430666120638,
      "loss": 0.5334,
      "step": 14760
    },
    {
      "epoch": 289.61,
      "learning_rate": 0.00013548034973890865,
      "loss": 0.5359,
      "step": 14770
    },
    {
      "epoch": 289.8,
      "learning_rate": 0.0001354563751576976,
      "loss": 0.5325,
      "step": 14780
    },
    {
      "epoch": 290.0,
      "learning_rate": 0.00013543238292457334,
      "loss": 0.5329,
      "step": 14790
    },
    {
      "epoch": 290.0,
      "eval_loss": 0.5349271297454834,
      "eval_runtime": 2.1752,
      "eval_samples_per_second": 1047.702,
      "eval_steps_per_second": 4.137,
      "step": 14790
    },
    {
      "epoch": 290.2,
      "learning_rate": 0.00013540837304654103,
      "loss": 0.5372,
      "step": 14800
    },
    {
      "epoch": 290.39,
      "learning_rate": 0.00013538434553061104,
      "loss": 0.5305,
      "step": 14810
    },
    {
      "epoch": 290.59,
      "learning_rate": 0.00013536030038379884,
      "loss": 0.5318,
      "step": 14820
    },
    {
      "epoch": 290.78,
      "learning_rate": 0.00013533623761312512,
      "loss": 0.5301,
      "step": 14830
    },
    {
      "epoch": 290.98,
      "learning_rate": 0.00013531215722561562,
      "loss": 0.531,
      "step": 14840
    },
    {
      "epoch": 291.0,
      "eval_loss": 0.5320532321929932,
      "eval_runtime": 2.0985,
      "eval_samples_per_second": 1086.033,
      "eval_steps_per_second": 4.289,
      "step": 14841
    },
    {
      "epoch": 291.18,
      "learning_rate": 0.0001352880592283013,
      "loss": 0.529,
      "step": 14850
    },
    {
      "epoch": 291.37,
      "learning_rate": 0.00013526394362821826,
      "loss": 0.5338,
      "step": 14860
    },
    {
      "epoch": 291.57,
      "learning_rate": 0.0001352398104324077,
      "loss": 0.5283,
      "step": 14870
    },
    {
      "epoch": 291.76,
      "learning_rate": 0.00013521565964791593,
      "loss": 0.5317,
      "step": 14880
    },
    {
      "epoch": 291.96,
      "learning_rate": 0.00013519149128179452,
      "loss": 0.5317,
      "step": 14890
    },
    {
      "epoch": 292.0,
      "eval_loss": 0.5360802412033081,
      "eval_runtime": 2.2127,
      "eval_samples_per_second": 1029.986,
      "eval_steps_per_second": 4.068,
      "step": 14892
    },
    {
      "epoch": 292.16,
      "learning_rate": 0.00013516730534110004,
      "loss": 0.5329,
      "step": 14900
    },
    {
      "epoch": 292.35,
      "learning_rate": 0.00013514310183289425,
      "loss": 0.5334,
      "step": 14910
    },
    {
      "epoch": 292.55,
      "learning_rate": 0.00013511888076424408,
      "loss": 0.5318,
      "step": 14920
    },
    {
      "epoch": 292.75,
      "learning_rate": 0.0001350946421422215,
      "loss": 0.5329,
      "step": 14930
    },
    {
      "epoch": 292.94,
      "learning_rate": 0.00013507038597390363,
      "loss": 0.5303,
      "step": 14940
    },
    {
      "epoch": 293.0,
      "eval_loss": 0.5295526385307312,
      "eval_runtime": 2.2128,
      "eval_samples_per_second": 1029.894,
      "eval_steps_per_second": 4.067,
      "step": 14943
    },
    {
      "epoch": 293.14,
      "learning_rate": 0.0001350461122663728,
      "loss": 0.5312,
      "step": 14950
    },
    {
      "epoch": 293.33,
      "learning_rate": 0.0001350218210267163,
      "loss": 0.5275,
      "step": 14960
    },
    {
      "epoch": 293.53,
      "learning_rate": 0.0001349975122620267,
      "loss": 0.5299,
      "step": 14970
    },
    {
      "epoch": 293.73,
      "learning_rate": 0.00013497318597940157,
      "loss": 0.532,
      "step": 14980
    },
    {
      "epoch": 293.92,
      "learning_rate": 0.00013494884218594367,
      "loss": 0.5291,
      "step": 14990
    },
    {
      "epoch": 294.0,
      "eval_loss": 0.5311741828918457,
      "eval_runtime": 2.198,
      "eval_samples_per_second": 1036.87,
      "eval_steps_per_second": 4.095,
      "step": 14994
    },
    {
      "epoch": 294.12,
      "learning_rate": 0.00013492448088876088,
      "loss": 0.5217,
      "step": 15000
    },
    {
      "epoch": 294.31,
      "learning_rate": 0.00013490010209496608,
      "loss": 0.5287,
      "step": 15010
    },
    {
      "epoch": 294.51,
      "learning_rate": 0.0001348757058116774,
      "loss": 0.5309,
      "step": 15020
    },
    {
      "epoch": 294.71,
      "learning_rate": 0.00013485129204601797,
      "loss": 0.5265,
      "step": 15030
    },
    {
      "epoch": 294.9,
      "learning_rate": 0.00013482686080511604,
      "loss": 0.5335,
      "step": 15040
    },
    {
      "epoch": 295.0,
      "eval_loss": 0.5243921875953674,
      "eval_runtime": 2.1979,
      "eval_samples_per_second": 1036.922,
      "eval_steps_per_second": 4.095,
      "step": 15045
    },
    {
      "epoch": 295.1,
      "learning_rate": 0.00013480241209610504,
      "loss": 0.5291,
      "step": 15050
    },
    {
      "epoch": 295.29,
      "learning_rate": 0.00013477794592612347,
      "loss": 0.5267,
      "step": 15060
    },
    {
      "epoch": 295.49,
      "learning_rate": 0.00013475346230231483,
      "loss": 0.5312,
      "step": 15070
    },
    {
      "epoch": 295.69,
      "learning_rate": 0.00013472896123182783,
      "loss": 0.5315,
      "step": 15080
    },
    {
      "epoch": 295.88,
      "learning_rate": 0.00013470444272181624,
      "loss": 0.5309,
      "step": 15090
    },
    {
      "epoch": 296.0,
      "eval_loss": 0.5251594185829163,
      "eval_runtime": 2.2406,
      "eval_samples_per_second": 1017.139,
      "eval_steps_per_second": 4.017,
      "step": 15096
    },
    {
      "epoch": 296.08,
      "learning_rate": 0.00013467990677943893,
      "loss": 0.5258,
      "step": 15100
    },
    {
      "epoch": 296.27,
      "learning_rate": 0.00013465535341185983,
      "loss": 0.5265,
      "step": 15110
    },
    {
      "epoch": 296.47,
      "learning_rate": 0.00013463078262624796,
      "loss": 0.5241,
      "step": 15120
    },
    {
      "epoch": 296.67,
      "learning_rate": 0.00013460619442977746,
      "loss": 0.5273,
      "step": 15130
    },
    {
      "epoch": 296.86,
      "learning_rate": 0.00013458158882962754,
      "loss": 0.5251,
      "step": 15140
    },
    {
      "epoch": 297.0,
      "eval_loss": 0.531033992767334,
      "eval_runtime": 2.2049,
      "eval_samples_per_second": 1033.623,
      "eval_steps_per_second": 4.082,
      "step": 15147
    },
    {
      "epoch": 297.06,
      "learning_rate": 0.0001345569658329825,
      "loss": 0.5324,
      "step": 15150
    },
    {
      "epoch": 297.25,
      "learning_rate": 0.00013453232544703163,
      "loss": 0.5246,
      "step": 15160
    },
    {
      "epoch": 297.45,
      "learning_rate": 0.00013450766767896948,
      "loss": 0.5249,
      "step": 15170
    },
    {
      "epoch": 297.65,
      "learning_rate": 0.0001344829925359955,
      "loss": 0.5332,
      "step": 15180
    },
    {
      "epoch": 297.84,
      "learning_rate": 0.0001344583000253143,
      "loss": 0.5266,
      "step": 15190
    },
    {
      "epoch": 298.0,
      "eval_loss": 0.5300943851470947,
      "eval_runtime": 2.2014,
      "eval_samples_per_second": 1035.249,
      "eval_steps_per_second": 4.088,
      "step": 15198
    },
    {
      "epoch": 298.04,
      "learning_rate": 0.00013443359015413554,
      "loss": 0.5276,
      "step": 15200
    },
    {
      "epoch": 298.24,
      "learning_rate": 0.00013440886292967396,
      "loss": 0.5231,
      "step": 15210
    },
    {
      "epoch": 298.43,
      "learning_rate": 0.00013438411835914934,
      "loss": 0.5227,
      "step": 15220
    },
    {
      "epoch": 298.63,
      "learning_rate": 0.00013435935644978656,
      "loss": 0.5226,
      "step": 15230
    },
    {
      "epoch": 298.82,
      "learning_rate": 0.00013433457720881555,
      "loss": 0.5279,
      "step": 15240
    },
    {
      "epoch": 299.0,
      "eval_loss": 0.530785322189331,
      "eval_runtime": 2.2538,
      "eval_samples_per_second": 1011.201,
      "eval_steps_per_second": 3.993,
      "step": 15249
    },
    {
      "epoch": 299.02,
      "learning_rate": 0.00013430978064347127,
      "loss": 0.5257,
      "step": 15250
    },
    {
      "epoch": 299.22,
      "learning_rate": 0.00013428496676099377,
      "loss": 0.529,
      "step": 15260
    },
    {
      "epoch": 299.41,
      "learning_rate": 0.0001342601355686282,
      "loss": 0.5249,
      "step": 15270
    },
    {
      "epoch": 299.61,
      "learning_rate": 0.00013423528707362463,
      "loss": 0.5313,
      "step": 15280
    },
    {
      "epoch": 299.8,
      "learning_rate": 0.0001342104212832383,
      "loss": 0.528,
      "step": 15290
    },
    {
      "epoch": 300.0,
      "learning_rate": 0.00013418553820472953,
      "loss": 0.5261,
      "step": 15300
    },
    {
      "epoch": 300.0,
      "eval_loss": 0.5249952077865601,
      "eval_runtime": 2.3137,
      "eval_samples_per_second": 985.006,
      "eval_steps_per_second": 3.89,
      "step": 15300
    },
    {
      "epoch": 300.2,
      "learning_rate": 0.00013416063784536353,
      "loss": 0.5222,
      "step": 15310
    },
    {
      "epoch": 300.39,
      "learning_rate": 0.00013413572021241067,
      "loss": 0.5292,
      "step": 15320
    },
    {
      "epoch": 300.59,
      "learning_rate": 0.0001341107853131464,
      "loss": 0.5291,
      "step": 15330
    },
    {
      "epoch": 300.78,
      "learning_rate": 0.00013408583315485111,
      "loss": 0.5241,
      "step": 15340
    },
    {
      "epoch": 300.98,
      "learning_rate": 0.0001340608637448103,
      "loss": 0.5214,
      "step": 15350
    },
    {
      "epoch": 301.0,
      "eval_loss": 0.5252038836479187,
      "eval_runtime": 2.2486,
      "eval_samples_per_second": 1013.503,
      "eval_steps_per_second": 4.002,
      "step": 15351
    },
    {
      "epoch": 301.18,
      "learning_rate": 0.00013403587709031443,
      "loss": 0.5175,
      "step": 15360
    },
    {
      "epoch": 301.37,
      "learning_rate": 0.00013401087319865908,
      "loss": 0.5245,
      "step": 15370
    },
    {
      "epoch": 301.57,
      "learning_rate": 0.00013398585207714483,
      "loss": 0.5325,
      "step": 15380
    },
    {
      "epoch": 301.76,
      "learning_rate": 0.00013396081373307728,
      "loss": 0.5292,
      "step": 15390
    },
    {
      "epoch": 301.96,
      "learning_rate": 0.0001339357581737671,
      "loss": 0.5269,
      "step": 15400
    },
    {
      "epoch": 302.0,
      "eval_loss": 0.5306328535079956,
      "eval_runtime": 2.1462,
      "eval_samples_per_second": 1061.875,
      "eval_steps_per_second": 4.193,
      "step": 15402
    },
    {
      "epoch": 302.16,
      "learning_rate": 0.0001339106854065299,
      "loss": 0.5247,
      "step": 15410
    },
    {
      "epoch": 302.35,
      "learning_rate": 0.00013388559543868643,
      "loss": 0.5235,
      "step": 15420
    },
    {
      "epoch": 302.55,
      "learning_rate": 0.0001338604882775623,
      "loss": 0.5239,
      "step": 15430
    },
    {
      "epoch": 302.75,
      "learning_rate": 0.00013383536393048837,
      "loss": 0.5259,
      "step": 15440
    },
    {
      "epoch": 302.94,
      "learning_rate": 0.00013381022240480033,
      "loss": 0.5229,
      "step": 15450
    },
    {
      "epoch": 303.0,
      "eval_loss": 0.5264057517051697,
      "eval_runtime": 2.2349,
      "eval_samples_per_second": 1019.731,
      "eval_steps_per_second": 4.027,
      "step": 15453
    },
    {
      "epoch": 303.14,
      "learning_rate": 0.00013378506370783892,
      "loss": 0.5252,
      "step": 15460
    },
    {
      "epoch": 303.33,
      "learning_rate": 0.00013375988784694994,
      "loss": 0.5258,
      "step": 15470
    },
    {
      "epoch": 303.53,
      "learning_rate": 0.0001337346948294842,
      "loss": 0.526,
      "step": 15480
    },
    {
      "epoch": 303.73,
      "learning_rate": 0.00013370948466279747,
      "loss": 0.5235,
      "step": 15490
    },
    {
      "epoch": 303.92,
      "learning_rate": 0.00013368425735425056,
      "loss": 0.5234,
      "step": 15500
    },
    {
      "epoch": 304.0,
      "eval_loss": 0.526339590549469,
      "eval_runtime": 2.245,
      "eval_samples_per_second": 1015.135,
      "eval_steps_per_second": 4.009,
      "step": 15504
    },
    {
      "epoch": 304.12,
      "learning_rate": 0.0001336590129112093,
      "loss": 0.5267,
      "step": 15510
    },
    {
      "epoch": 304.31,
      "learning_rate": 0.0001336337513410445,
      "loss": 0.5271,
      "step": 15520
    },
    {
      "epoch": 304.51,
      "learning_rate": 0.00013360847265113195,
      "loss": 0.5247,
      "step": 15530
    },
    {
      "epoch": 304.71,
      "learning_rate": 0.00013358317684885248,
      "loss": 0.53,
      "step": 15540
    },
    {
      "epoch": 304.9,
      "learning_rate": 0.00013355786394159193,
      "loss": 0.5271,
      "step": 15550
    },
    {
      "epoch": 305.0,
      "eval_loss": 0.5279854536056519,
      "eval_runtime": 2.2065,
      "eval_samples_per_second": 1032.864,
      "eval_steps_per_second": 4.079,
      "step": 15555
    },
    {
      "epoch": 305.1,
      "learning_rate": 0.00013353253393674105,
      "loss": 0.5284,
      "step": 15560
    },
    {
      "epoch": 305.29,
      "learning_rate": 0.00013350718684169567,
      "loss": 0.5224,
      "step": 15570
    },
    {
      "epoch": 305.49,
      "learning_rate": 0.00013348182266385654,
      "loss": 0.5236,
      "step": 15580
    },
    {
      "epoch": 305.69,
      "learning_rate": 0.0001334564414106295,
      "loss": 0.5206,
      "step": 15590
    },
    {
      "epoch": 305.88,
      "learning_rate": 0.00013343104308942527,
      "loss": 0.525,
      "step": 15600
    },
    {
      "epoch": 306.0,
      "eval_loss": 0.5233384370803833,
      "eval_runtime": 2.1412,
      "eval_samples_per_second": 1064.366,
      "eval_steps_per_second": 4.203,
      "step": 15606
    },
    {
      "epoch": 306.08,
      "learning_rate": 0.0001334056277076596,
      "loss": 0.5251,
      "step": 15610
    },
    {
      "epoch": 306.27,
      "learning_rate": 0.00013338019527275318,
      "loss": 0.5208,
      "step": 15620
    },
    {
      "epoch": 306.47,
      "learning_rate": 0.0001333547457921318,
      "loss": 0.5224,
      "step": 15630
    },
    {
      "epoch": 306.67,
      "learning_rate": 0.00013332927927322603,
      "loss": 0.5226,
      "step": 15640
    },
    {
      "epoch": 306.86,
      "learning_rate": 0.0001333037957234716,
      "loss": 0.5216,
      "step": 15650
    },
    {
      "epoch": 307.0,
      "eval_loss": 0.5210602879524231,
      "eval_runtime": 2.2572,
      "eval_samples_per_second": 1009.641,
      "eval_steps_per_second": 3.987,
      "step": 15657
    },
    {
      "epoch": 307.06,
      "learning_rate": 0.00013327829515030913,
      "loss": 0.5253,
      "step": 15660
    },
    {
      "epoch": 307.25,
      "learning_rate": 0.0001332527775611842,
      "loss": 0.5211,
      "step": 15670
    },
    {
      "epoch": 307.45,
      "learning_rate": 0.0001332272429635474,
      "loss": 0.5272,
      "step": 15680
    },
    {
      "epoch": 307.65,
      "learning_rate": 0.00013320169136485423,
      "loss": 0.5209,
      "step": 15690
    },
    {
      "epoch": 307.84,
      "learning_rate": 0.0001331761227725652,
      "loss": 0.5247,
      "step": 15700
    },
    {
      "epoch": 308.0,
      "eval_loss": 0.5245583653450012,
      "eval_runtime": 2.2788,
      "eval_samples_per_second": 1000.088,
      "eval_steps_per_second": 3.949,
      "step": 15708
    },
    {
      "epoch": 308.04,
      "learning_rate": 0.00013315053719414579,
      "loss": 0.5215,
      "step": 15710
    },
    {
      "epoch": 308.24,
      "learning_rate": 0.0001331249346370664,
      "loss": 0.5243,
      "step": 15720
    },
    {
      "epoch": 308.43,
      "learning_rate": 0.0001330993151088024,
      "loss": 0.5232,
      "step": 15730
    },
    {
      "epoch": 308.63,
      "learning_rate": 0.00013307367861683413,
      "loss": 0.5242,
      "step": 15740
    },
    {
      "epoch": 308.82,
      "learning_rate": 0.00013304802516864687,
      "loss": 0.5203,
      "step": 15750
    },
    {
      "epoch": 309.0,
      "eval_loss": 0.5279257893562317,
      "eval_runtime": 2.2285,
      "eval_samples_per_second": 1022.663,
      "eval_steps_per_second": 4.039,
      "step": 15759
    },
    {
      "epoch": 309.02,
      "learning_rate": 0.00013302235477173087,
      "loss": 0.5277,
      "step": 15760
    },
    {
      "epoch": 309.22,
      "learning_rate": 0.0001329966674335813,
      "loss": 0.5237,
      "step": 15770
    },
    {
      "epoch": 309.41,
      "learning_rate": 0.0001329709631616983,
      "loss": 0.5241,
      "step": 15780
    },
    {
      "epoch": 309.61,
      "learning_rate": 0.0001329452419635869,
      "loss": 0.521,
      "step": 15790
    },
    {
      "epoch": 309.8,
      "learning_rate": 0.00013291950384675718,
      "loss": 0.5215,
      "step": 15800
    },
    {
      "epoch": 310.0,
      "learning_rate": 0.00013289374881872404,
      "loss": 0.5201,
      "step": 15810
    },
    {
      "epoch": 310.0,
      "eval_loss": 0.5245955586433411,
      "eval_runtime": 2.1278,
      "eval_samples_per_second": 1071.041,
      "eval_steps_per_second": 4.23,
      "step": 15810
    },
    {
      "epoch": 310.2,
      "learning_rate": 0.00013286797688700743,
      "loss": 0.5191,
      "step": 15820
    },
    {
      "epoch": 310.39,
      "learning_rate": 0.00013284218805913214,
      "loss": 0.5204,
      "step": 15830
    },
    {
      "epoch": 310.59,
      "learning_rate": 0.00013281638234262795,
      "loss": 0.5198,
      "step": 15840
    },
    {
      "epoch": 310.78,
      "learning_rate": 0.00013279055974502952,
      "loss": 0.5225,
      "step": 15850
    },
    {
      "epoch": 310.98,
      "learning_rate": 0.00013276472027387652,
      "loss": 0.5254,
      "step": 15860
    },
    {
      "epoch": 311.0,
      "eval_loss": 0.5306283235549927,
      "eval_runtime": 2.1978,
      "eval_samples_per_second": 1036.929,
      "eval_steps_per_second": 4.095,
      "step": 15861
    },
    {
      "epoch": 311.18,
      "learning_rate": 0.00013273886393671348,
      "loss": 0.5232,
      "step": 15870
    },
    {
      "epoch": 311.37,
      "learning_rate": 0.00013271299074108986,
      "loss": 0.518,
      "step": 15880
    },
    {
      "epoch": 311.57,
      "learning_rate": 0.00013268710069456007,
      "loss": 0.5248,
      "step": 15890
    },
    {
      "epoch": 311.76,
      "learning_rate": 0.00013266119380468344,
      "loss": 0.5186,
      "step": 15900
    },
    {
      "epoch": 311.96,
      "learning_rate": 0.00013263527007902417,
      "loss": 0.5166,
      "step": 15910
    },
    {
      "epoch": 312.0,
      "eval_loss": 0.5223502516746521,
      "eval_runtime": 2.1971,
      "eval_samples_per_second": 1037.273,
      "eval_steps_per_second": 4.096,
      "step": 15912
    },
    {
      "epoch": 312.16,
      "learning_rate": 0.00013260932952515145,
      "loss": 0.5217,
      "step": 15920
    },
    {
      "epoch": 312.35,
      "learning_rate": 0.0001325833721506393,
      "loss": 0.5172,
      "step": 15930
    },
    {
      "epoch": 312.55,
      "learning_rate": 0.00013255739796306671,
      "loss": 0.5131,
      "step": 15940
    },
    {
      "epoch": 312.75,
      "learning_rate": 0.0001325314069700176,
      "loss": 0.522,
      "step": 15950
    },
    {
      "epoch": 312.94,
      "learning_rate": 0.0001325053991790807,
      "loss": 0.525,
      "step": 15960
    },
    {
      "epoch": 313.0,
      "eval_loss": 0.5192234516143799,
      "eval_runtime": 2.1577,
      "eval_samples_per_second": 1056.214,
      "eval_steps_per_second": 4.171,
      "step": 15963
    },
    {
      "epoch": 313.14,
      "learning_rate": 0.00013247937459784975,
      "loss": 0.5198,
      "step": 15970
    },
    {
      "epoch": 313.33,
      "learning_rate": 0.00013245333323392333,
      "loss": 0.5172,
      "step": 15980
    },
    {
      "epoch": 313.53,
      "learning_rate": 0.00013242727509490496,
      "loss": 0.5195,
      "step": 15990
    },
    {
      "epoch": 313.73,
      "learning_rate": 0.000132401200188403,
      "loss": 0.5243,
      "step": 16000
    },
    {
      "epoch": 313.92,
      "learning_rate": 0.00013237510852203072,
      "loss": 0.5224,
      "step": 16010
    },
    {
      "epoch": 314.0,
      "eval_loss": 0.5246869921684265,
      "eval_runtime": 2.2265,
      "eval_samples_per_second": 1023.575,
      "eval_steps_per_second": 4.042,
      "step": 16014
    },
    {
      "epoch": 314.12,
      "learning_rate": 0.00013234900010340638,
      "loss": 0.527,
      "step": 16020
    },
    {
      "epoch": 314.31,
      "learning_rate": 0.000132322874940153,
      "loss": 0.5218,
      "step": 16030
    },
    {
      "epoch": 314.51,
      "learning_rate": 0.00013229673303989857,
      "loss": 0.5198,
      "step": 16040
    },
    {
      "epoch": 314.71,
      "learning_rate": 0.00013227057441027594,
      "loss": 0.518,
      "step": 16050
    },
    {
      "epoch": 314.9,
      "learning_rate": 0.00013224439905892282,
      "loss": 0.5195,
      "step": 16060
    },
    {
      "epoch": 315.0,
      "eval_loss": 0.5229699015617371,
      "eval_runtime": 2.3109,
      "eval_samples_per_second": 986.188,
      "eval_steps_per_second": 3.895,
      "step": 16065
    },
    {
      "epoch": 315.1,
      "learning_rate": 0.00013221820699348187,
      "loss": 0.5143,
      "step": 16070
    },
    {
      "epoch": 315.29,
      "learning_rate": 0.00013219199822160058,
      "loss": 0.5203,
      "step": 16080
    },
    {
      "epoch": 315.49,
      "learning_rate": 0.00013216577275093126,
      "loss": 0.5183,
      "step": 16090
    },
    {
      "epoch": 315.69,
      "learning_rate": 0.00013213953058913126,
      "loss": 0.5175,
      "step": 16100
    },
    {
      "epoch": 315.88,
      "learning_rate": 0.00013211327174386266,
      "loss": 0.5189,
      "step": 16110
    },
    {
      "epoch": 316.0,
      "eval_loss": 0.523881733417511,
      "eval_runtime": 2.3072,
      "eval_samples_per_second": 987.77,
      "eval_steps_per_second": 3.901,
      "step": 16116
    },
    {
      "epoch": 316.08,
      "learning_rate": 0.00013208699622279247,
      "loss": 0.5161,
      "step": 16120
    },
    {
      "epoch": 316.27,
      "learning_rate": 0.0001320607040335925,
      "loss": 0.523,
      "step": 16130
    },
    {
      "epoch": 316.47,
      "learning_rate": 0.00013203439518393956,
      "loss": 0.5188,
      "step": 16140
    },
    {
      "epoch": 316.67,
      "learning_rate": 0.00013200806968151522,
      "loss": 0.5192,
      "step": 16150
    },
    {
      "epoch": 316.86,
      "learning_rate": 0.00013198172753400595,
      "loss": 0.5226,
      "step": 16160
    },
    {
      "epoch": 317.0,
      "eval_loss": 0.5179664492607117,
      "eval_runtime": 2.3076,
      "eval_samples_per_second": 987.623,
      "eval_steps_per_second": 3.9,
      "step": 16167
    },
    {
      "epoch": 317.06,
      "learning_rate": 0.00013195536874910304,
      "loss": 0.515,
      "step": 16170
    },
    {
      "epoch": 317.25,
      "learning_rate": 0.00013192899333450264,
      "loss": 0.5194,
      "step": 16180
    },
    {
      "epoch": 317.45,
      "learning_rate": 0.0001319026012979059,
      "loss": 0.5164,
      "step": 16190
    },
    {
      "epoch": 317.65,
      "learning_rate": 0.0001318761926470186,
      "loss": 0.5135,
      "step": 16200
    },
    {
      "epoch": 317.84,
      "learning_rate": 0.0001318497673895515,
      "loss": 0.5166,
      "step": 16210
    },
    {
      "epoch": 318.0,
      "eval_loss": 0.5197197794914246,
      "eval_runtime": 2.3294,
      "eval_samples_per_second": 978.381,
      "eval_steps_per_second": 3.864,
      "step": 16218
    },
    {
      "epoch": 318.04,
      "learning_rate": 0.00013182332553322021,
      "loss": 0.5186,
      "step": 16220
    },
    {
      "epoch": 318.24,
      "learning_rate": 0.00013179686708574513,
      "loss": 0.5179,
      "step": 16230
    },
    {
      "epoch": 318.43,
      "learning_rate": 0.00013177039205485158,
      "loss": 0.5234,
      "step": 16240
    },
    {
      "epoch": 318.63,
      "learning_rate": 0.00013174390044826963,
      "loss": 0.5198,
      "step": 16250
    },
    {
      "epoch": 318.82,
      "learning_rate": 0.00013171739227373427,
      "loss": 0.5159,
      "step": 16260
    },
    {
      "epoch": 319.0,
      "eval_loss": 0.5156288743019104,
      "eval_runtime": 2.1651,
      "eval_samples_per_second": 1052.585,
      "eval_steps_per_second": 4.157,
      "step": 16269
    },
    {
      "epoch": 319.02,
      "learning_rate": 0.0001316908675389853,
      "loss": 0.516,
      "step": 16270
    },
    {
      "epoch": 319.22,
      "learning_rate": 0.0001316643262517673,
      "loss": 0.5215,
      "step": 16280
    },
    {
      "epoch": 319.41,
      "learning_rate": 0.00013163776841982981,
      "loss": 0.5148,
      "step": 16290
    },
    {
      "epoch": 319.61,
      "learning_rate": 0.00013161119405092708,
      "loss": 0.5153,
      "step": 16300
    },
    {
      "epoch": 319.8,
      "learning_rate": 0.0001315846031528182,
      "loss": 0.5167,
      "step": 16310
    },
    {
      "epoch": 320.0,
      "learning_rate": 0.00013155799573326722,
      "loss": 0.5156,
      "step": 16320
    },
    {
      "epoch": 320.0,
      "eval_loss": 0.5203654170036316,
      "eval_runtime": 2.301,
      "eval_samples_per_second": 990.435,
      "eval_steps_per_second": 3.911,
      "step": 16320
    },
    {
      "epoch": 320.2,
      "learning_rate": 0.00013153137180004282,
      "loss": 0.522,
      "step": 16330
    },
    {
      "epoch": 320.39,
      "learning_rate": 0.0001315047313609186,
      "loss": 0.5152,
      "step": 16340
    },
    {
      "epoch": 320.59,
      "learning_rate": 0.00013147807442367304,
      "loss": 0.5187,
      "step": 16350
    },
    {
      "epoch": 320.78,
      "learning_rate": 0.00013145140099608932,
      "loss": 0.5196,
      "step": 16360
    },
    {
      "epoch": 320.98,
      "learning_rate": 0.00013142471108595552,
      "loss": 0.5179,
      "step": 16370
    },
    {
      "epoch": 321.0,
      "eval_loss": 0.5215443968772888,
      "eval_runtime": 2.1498,
      "eval_samples_per_second": 1060.099,
      "eval_steps_per_second": 4.186,
      "step": 16371
    },
    {
      "epoch": 321.18,
      "learning_rate": 0.00013139800470106443,
      "loss": 0.5163,
      "step": 16380
    },
    {
      "epoch": 321.37,
      "learning_rate": 0.00013137128184921378,
      "loss": 0.5231,
      "step": 16390
    },
    {
      "epoch": 321.57,
      "learning_rate": 0.00013134454253820605,
      "loss": 0.5158,
      "step": 16400
    },
    {
      "epoch": 321.76,
      "learning_rate": 0.0001313177867758485,
      "loss": 0.5173,
      "step": 16410
    },
    {
      "epoch": 321.96,
      "learning_rate": 0.0001312910145699532,
      "loss": 0.5194,
      "step": 16420
    },
    {
      "epoch": 322.0,
      "eval_loss": 0.5210621953010559,
      "eval_runtime": 2.2088,
      "eval_samples_per_second": 1031.76,
      "eval_steps_per_second": 4.075,
      "step": 16422
    },
    {
      "epoch": 322.16,
      "learning_rate": 0.0001312642259283371,
      "loss": 0.5175,
      "step": 16430
    },
    {
      "epoch": 322.35,
      "learning_rate": 0.0001312374208588218,
      "loss": 0.5196,
      "step": 16440
    },
    {
      "epoch": 322.55,
      "learning_rate": 0.00013121059936923384,
      "loss": 0.5194,
      "step": 16450
    },
    {
      "epoch": 322.75,
      "learning_rate": 0.00013118376146740448,
      "loss": 0.5213,
      "step": 16460
    },
    {
      "epoch": 322.94,
      "learning_rate": 0.00013115690716116978,
      "loss": 0.519,
      "step": 16470
    },
    {
      "epoch": 323.0,
      "eval_loss": 0.5211889147758484,
      "eval_runtime": 2.1133,
      "eval_samples_per_second": 1078.407,
      "eval_steps_per_second": 4.259,
      "step": 16473
    },
    {
      "epoch": 323.14,
      "learning_rate": 0.00013113003645837064,
      "loss": 0.5173,
      "step": 16480
    },
    {
      "epoch": 323.33,
      "learning_rate": 0.00013110314936685264,
      "loss": 0.5228,
      "step": 16490
    },
    {
      "epoch": 323.53,
      "learning_rate": 0.00013107624589446626,
      "loss": 0.5124,
      "step": 16500
    },
    {
      "epoch": 323.73,
      "learning_rate": 0.0001310493260490667,
      "loss": 0.5142,
      "step": 16510
    },
    {
      "epoch": 323.92,
      "learning_rate": 0.00013102238983851396,
      "loss": 0.5112,
      "step": 16520
    },
    {
      "epoch": 324.0,
      "eval_loss": 0.5174744725227356,
      "eval_runtime": 2.2342,
      "eval_samples_per_second": 1020.039,
      "eval_steps_per_second": 4.028,
      "step": 16524
    },
    {
      "epoch": 324.12,
      "learning_rate": 0.0001309954372706728,
      "loss": 0.5118,
      "step": 16530
    },
    {
      "epoch": 324.31,
      "learning_rate": 0.0001309684683534128,
      "loss": 0.5161,
      "step": 16540
    },
    {
      "epoch": 324.51,
      "learning_rate": 0.00013094148309460824,
      "loss": 0.5108,
      "step": 16550
    },
    {
      "epoch": 324.71,
      "learning_rate": 0.00013091448150213825,
      "loss": 0.5161,
      "step": 16560
    },
    {
      "epoch": 324.9,
      "learning_rate": 0.00013088746358388666,
      "loss": 0.5163,
      "step": 16570
    },
    {
      "epoch": 325.0,
      "eval_loss": 0.522521436214447,
      "eval_runtime": 2.273,
      "eval_samples_per_second": 1002.657,
      "eval_steps_per_second": 3.96,
      "step": 16575
    },
    {
      "epoch": 325.1,
      "learning_rate": 0.0001308604293477421,
      "loss": 0.5235,
      "step": 16580
    },
    {
      "epoch": 325.29,
      "learning_rate": 0.00013083337880159798,
      "loss": 0.5158,
      "step": 16590
    },
    {
      "epoch": 325.49,
      "learning_rate": 0.0001308063119533525,
      "loss": 0.5184,
      "step": 16600
    },
    {
      "epoch": 325.69,
      "learning_rate": 0.00013077922881090848,
      "loss": 0.5217,
      "step": 16610
    },
    {
      "epoch": 325.88,
      "learning_rate": 0.00013075212938217366,
      "loss": 0.5165,
      "step": 16620
    },
    {
      "epoch": 326.0,
      "eval_loss": 0.5172427296638489,
      "eval_runtime": 2.2537,
      "eval_samples_per_second": 1011.23,
      "eval_steps_per_second": 3.993,
      "step": 16626
    },
    {
      "epoch": 326.08,
      "learning_rate": 0.00013072501367506045,
      "loss": 0.5107,
      "step": 16630
    },
    {
      "epoch": 326.27,
      "learning_rate": 0.00013069788169748606,
      "loss": 0.5164,
      "step": 16640
    },
    {
      "epoch": 326.47,
      "learning_rate": 0.00013067073345737236,
      "loss": 0.5147,
      "step": 16650
    },
    {
      "epoch": 326.67,
      "learning_rate": 0.0001306435689626461,
      "loss": 0.5154,
      "step": 16660
    },
    {
      "epoch": 326.86,
      "learning_rate": 0.00013061638822123867,
      "loss": 0.5104,
      "step": 16670
    },
    {
      "epoch": 327.0,
      "eval_loss": 0.5200419425964355,
      "eval_runtime": 2.266,
      "eval_samples_per_second": 1005.748,
      "eval_steps_per_second": 3.972,
      "step": 16677
    },
    {
      "epoch": 327.06,
      "learning_rate": 0.00013058919124108625,
      "loss": 0.515,
      "step": 16680
    },
    {
      "epoch": 327.25,
      "learning_rate": 0.00013056197803012972,
      "loss": 0.5194,
      "step": 16690
    },
    {
      "epoch": 327.45,
      "learning_rate": 0.0001305347485963148,
      "loss": 0.5123,
      "step": 16700
    },
    {
      "epoch": 327.65,
      "learning_rate": 0.00013050750294759178,
      "loss": 0.5114,
      "step": 16710
    },
    {
      "epoch": 327.84,
      "learning_rate": 0.00013048024109191587,
      "loss": 0.51,
      "step": 16720
    },
    {
      "epoch": 328.0,
      "eval_loss": 0.5156450271606445,
      "eval_runtime": 2.1441,
      "eval_samples_per_second": 1062.933,
      "eval_steps_per_second": 4.198,
      "step": 16728
    },
    {
      "epoch": 328.04,
      "learning_rate": 0.0001304529630372469,
      "loss": 0.5106,
      "step": 16730
    },
    {
      "epoch": 328.24,
      "learning_rate": 0.00013042566879154942,
      "loss": 0.5113,
      "step": 16740
    },
    {
      "epoch": 328.43,
      "learning_rate": 0.00013039835836279278,
      "loss": 0.5138,
      "step": 16750
    },
    {
      "epoch": 328.63,
      "learning_rate": 0.000130371031758951,
      "loss": 0.5174,
      "step": 16760
    },
    {
      "epoch": 328.82,
      "learning_rate": 0.00013034368898800282,
      "loss": 0.5129,
      "step": 16770
    },
    {
      "epoch": 329.0,
      "eval_loss": 0.5160460472106934,
      "eval_runtime": 2.1772,
      "eval_samples_per_second": 1046.767,
      "eval_steps_per_second": 4.134,
      "step": 16779
    },
    {
      "epoch": 329.02,
      "learning_rate": 0.00013031633005793175,
      "loss": 0.5099,
      "step": 16780
    },
    {
      "epoch": 329.22,
      "learning_rate": 0.000130288954976726,
      "loss": 0.5173,
      "step": 16790
    },
    {
      "epoch": 329.41,
      "learning_rate": 0.00013026156375237844,
      "loss": 0.5143,
      "step": 16800
    },
    {
      "epoch": 329.61,
      "learning_rate": 0.00013023415639288675,
      "loss": 0.5119,
      "step": 16810
    },
    {
      "epoch": 329.8,
      "learning_rate": 0.0001302067329062532,
      "loss": 0.5138,
      "step": 16820
    },
    {
      "epoch": 330.0,
      "learning_rate": 0.00013017929330048485,
      "loss": 0.5084,
      "step": 16830
    },
    {
      "epoch": 330.0,
      "eval_loss": 0.5207294821739197,
      "eval_runtime": 2.1796,
      "eval_samples_per_second": 1045.587,
      "eval_steps_per_second": 4.129,
      "step": 16830
    },
    {
      "epoch": 330.2,
      "learning_rate": 0.00013015183758359353,
      "loss": 0.5211,
      "step": 16840
    },
    {
      "epoch": 330.39,
      "learning_rate": 0.0001301243657635956,
      "loss": 0.5176,
      "step": 16850
    },
    {
      "epoch": 330.59,
      "learning_rate": 0.00013009687784851226,
      "loss": 0.5126,
      "step": 16860
    },
    {
      "epoch": 330.78,
      "learning_rate": 0.00013006937384636938,
      "loss": 0.5135,
      "step": 16870
    },
    {
      "epoch": 330.98,
      "learning_rate": 0.0001300418537651975,
      "loss": 0.5159,
      "step": 16880
    },
    {
      "epoch": 331.0,
      "eval_loss": 0.5146752595901489,
      "eval_runtime": 2.3002,
      "eval_samples_per_second": 990.782,
      "eval_steps_per_second": 3.913,
      "step": 16881
    },
    {
      "epoch": 331.18,
      "learning_rate": 0.00013001431761303187,
      "loss": 0.512,
      "step": 16890
    },
    {
      "epoch": 331.37,
      "learning_rate": 0.00012998676539791246,
      "loss": 0.5153,
      "step": 16900
    },
    {
      "epoch": 331.57,
      "learning_rate": 0.00012995919712788383,
      "loss": 0.5155,
      "step": 16910
    },
    {
      "epoch": 331.76,
      "learning_rate": 0.00012993161281099538,
      "loss": 0.5066,
      "step": 16920
    },
    {
      "epoch": 331.96,
      "learning_rate": 0.00012990401245530108,
      "loss": 0.5126,
      "step": 16930
    },
    {
      "epoch": 332.0,
      "eval_loss": 0.5158648490905762,
      "eval_runtime": 2.2177,
      "eval_samples_per_second": 1027.619,
      "eval_steps_per_second": 4.058,
      "step": 16932
    },
    {
      "epoch": 332.16,
      "learning_rate": 0.00012987639606885964,
      "loss": 0.5167,
      "step": 16940
    },
    {
      "epoch": 332.35,
      "learning_rate": 0.0001298487636597344,
      "loss": 0.5125,
      "step": 16950
    },
    {
      "epoch": 332.55,
      "learning_rate": 0.0001298211152359934,
      "loss": 0.5113,
      "step": 16960
    },
    {
      "epoch": 332.75,
      "learning_rate": 0.0001297934508057094,
      "loss": 0.5142,
      "step": 16970
    },
    {
      "epoch": 332.94,
      "learning_rate": 0.00012976577037695974,
      "loss": 0.5132,
      "step": 16980
    },
    {
      "epoch": 333.0,
      "eval_loss": 0.5156267881393433,
      "eval_runtime": 2.1373,
      "eval_samples_per_second": 1066.28,
      "eval_steps_per_second": 4.211,
      "step": 16983
    },
    {
      "epoch": 333.14,
      "learning_rate": 0.00012973807395782655,
      "loss": 0.5137,
      "step": 16990
    },
    {
      "epoch": 333.33,
      "learning_rate": 0.00012971036155639656,
      "loss": 0.5127,
      "step": 17000
    },
    {
      "epoch": 333.53,
      "learning_rate": 0.00012968263318076113,
      "loss": 0.5107,
      "step": 17010
    },
    {
      "epoch": 333.73,
      "learning_rate": 0.00012965488883901635,
      "loss": 0.5133,
      "step": 17020
    },
    {
      "epoch": 333.92,
      "learning_rate": 0.00012962712853926297,
      "loss": 0.5092,
      "step": 17030
    },
    {
      "epoch": 334.0,
      "eval_loss": 0.5151438117027283,
      "eval_runtime": 2.2763,
      "eval_samples_per_second": 1001.176,
      "eval_steps_per_second": 3.954,
      "step": 17034
    },
    {
      "epoch": 334.12,
      "learning_rate": 0.00012959935228960636,
      "loss": 0.5148,
      "step": 17040
    },
    {
      "epoch": 334.31,
      "learning_rate": 0.00012957156009815656,
      "loss": 0.5087,
      "step": 17050
    },
    {
      "epoch": 334.51,
      "learning_rate": 0.00012954375197302826,
      "loss": 0.5124,
      "step": 17060
    },
    {
      "epoch": 334.71,
      "learning_rate": 0.00012951592792234085,
      "loss": 0.5121,
      "step": 17070
    },
    {
      "epoch": 334.9,
      "learning_rate": 0.00012948808795421827,
      "loss": 0.5116,
      "step": 17080
    },
    {
      "epoch": 335.0,
      "eval_loss": 0.514667809009552,
      "eval_runtime": 2.1506,
      "eval_samples_per_second": 1059.712,
      "eval_steps_per_second": 4.185,
      "step": 17085
    },
    {
      "epoch": 335.1,
      "learning_rate": 0.00012946023207678926,
      "loss": 0.5167,
      "step": 17090
    },
    {
      "epoch": 335.29,
      "learning_rate": 0.00012943236029818703,
      "loss": 0.5145,
      "step": 17100
    },
    {
      "epoch": 335.49,
      "learning_rate": 0.0001294044726265496,
      "loss": 0.5099,
      "step": 17110
    },
    {
      "epoch": 335.69,
      "learning_rate": 0.00012937656907001944,
      "loss": 0.5061,
      "step": 17120
    },
    {
      "epoch": 335.88,
      "learning_rate": 0.00012934864963674386,
      "loss": 0.5113,
      "step": 17130
    },
    {
      "epoch": 336.0,
      "eval_loss": 0.5120841264724731,
      "eval_runtime": 2.2524,
      "eval_samples_per_second": 1011.8,
      "eval_steps_per_second": 3.996,
      "step": 17136
    },
    {
      "epoch": 336.08,
      "learning_rate": 0.00012932071433487466,
      "loss": 0.5057,
      "step": 17140
    },
    {
      "epoch": 336.27,
      "learning_rate": 0.00012929276317256836,
      "loss": 0.5119,
      "step": 17150
    },
    {
      "epoch": 336.47,
      "learning_rate": 0.00012926479615798606,
      "loss": 0.516,
      "step": 17160
    },
    {
      "epoch": 336.67,
      "learning_rate": 0.0001292368132992935,
      "loss": 0.5067,
      "step": 17170
    },
    {
      "epoch": 336.86,
      "learning_rate": 0.00012920881460466106,
      "loss": 0.5076,
      "step": 17180
    },
    {
      "epoch": 337.0,
      "eval_loss": 0.5100632309913635,
      "eval_runtime": 2.2378,
      "eval_samples_per_second": 1018.414,
      "eval_steps_per_second": 4.022,
      "step": 17187
    },
    {
      "epoch": 337.06,
      "learning_rate": 0.0001291808000822637,
      "loss": 0.5091,
      "step": 17190
    },
    {
      "epoch": 337.25,
      "learning_rate": 0.0001291527697402811,
      "loss": 0.5122,
      "step": 17200
    },
    {
      "epoch": 337.45,
      "learning_rate": 0.00012912472358689745,
      "loss": 0.5101,
      "step": 17210
    },
    {
      "epoch": 337.65,
      "learning_rate": 0.0001290966616303016,
      "loss": 0.5114,
      "step": 17220
    },
    {
      "epoch": 337.84,
      "learning_rate": 0.00012906858387868705,
      "loss": 0.5106,
      "step": 17230
    },
    {
      "epoch": 338.0,
      "eval_loss": 0.5111255645751953,
      "eval_runtime": 2.1515,
      "eval_samples_per_second": 1059.276,
      "eval_steps_per_second": 4.183,
      "step": 17238
    },
    {
      "epoch": 338.04,
      "learning_rate": 0.00012904049034025183,
      "loss": 0.5066,
      "step": 17240
    },
    {
      "epoch": 338.24,
      "learning_rate": 0.0001290123810231987,
      "loss": 0.506,
      "step": 17250
    },
    {
      "epoch": 338.43,
      "learning_rate": 0.00012898425593573483,
      "loss": 0.5117,
      "step": 17260
    },
    {
      "epoch": 338.63,
      "learning_rate": 0.0001289561150860722,
      "loss": 0.5159,
      "step": 17270
    },
    {
      "epoch": 338.82,
      "learning_rate": 0.00012892795848242736,
      "loss": 0.5117,
      "step": 17280
    },
    {
      "epoch": 339.0,
      "eval_loss": 0.5093927383422852,
      "eval_runtime": 2.2305,
      "eval_samples_per_second": 1021.723,
      "eval_steps_per_second": 4.035,
      "step": 17289
    },
    {
      "epoch": 339.02,
      "learning_rate": 0.0001288997861330213,
      "loss": 0.5084,
      "step": 17290
    },
    {
      "epoch": 339.22,
      "learning_rate": 0.00012887159804607983,
      "loss": 0.5062,
      "step": 17300
    },
    {
      "epoch": 339.41,
      "learning_rate": 0.00012884339422983314,
      "loss": 0.5113,
      "step": 17310
    },
    {
      "epoch": 339.61,
      "learning_rate": 0.00012881517469251616,
      "loss": 0.5081,
      "step": 17320
    },
    {
      "epoch": 339.8,
      "learning_rate": 0.00012878693944236836,
      "loss": 0.5099,
      "step": 17330
    },
    {
      "epoch": 340.0,
      "learning_rate": 0.00012875868848763385,
      "loss": 0.5086,
      "step": 17340
    },
    {
      "epoch": 340.0,
      "eval_loss": 0.513230562210083,
      "eval_runtime": 2.2424,
      "eval_samples_per_second": 1016.333,
      "eval_steps_per_second": 4.014,
      "step": 17340
    },
    {
      "epoch": 340.2,
      "learning_rate": 0.0001287304218365612,
      "loss": 0.5062,
      "step": 17350
    },
    {
      "epoch": 340.39,
      "learning_rate": 0.0001287021394974037,
      "loss": 0.5102,
      "step": 17360
    },
    {
      "epoch": 340.59,
      "learning_rate": 0.0001286738414784191,
      "loss": 0.5076,
      "step": 17370
    },
    {
      "epoch": 340.78,
      "learning_rate": 0.00012864552778786984,
      "loss": 0.5017,
      "step": 17380
    },
    {
      "epoch": 340.98,
      "learning_rate": 0.0001286171984340229,
      "loss": 0.5034,
      "step": 17390
    },
    {
      "epoch": 341.0,
      "eval_loss": 0.5161563754081726,
      "eval_runtime": 2.1498,
      "eval_samples_per_second": 1060.082,
      "eval_steps_per_second": 4.186,
      "step": 17391
    },
    {
      "epoch": 341.18,
      "learning_rate": 0.0001285888534251498,
      "loss": 0.5104,
      "step": 17400
    },
    {
      "epoch": 341.37,
      "learning_rate": 0.00012856049276952663,
      "loss": 0.509,
      "step": 17410
    },
    {
      "epoch": 341.57,
      "learning_rate": 0.0001285321164754341,
      "loss": 0.5104,
      "step": 17420
    },
    {
      "epoch": 341.76,
      "learning_rate": 0.00012850372455115746,
      "loss": 0.5075,
      "step": 17430
    },
    {
      "epoch": 341.96,
      "learning_rate": 0.00012847531700498646,
      "loss": 0.5061,
      "step": 17440
    },
    {
      "epoch": 342.0,
      "eval_loss": 0.5142490267753601,
      "eval_runtime": 2.2582,
      "eval_samples_per_second": 1009.211,
      "eval_steps_per_second": 3.985,
      "step": 17442
    },
    {
      "epoch": 342.16,
      "learning_rate": 0.00012844689384521553,
      "loss": 0.5063,
      "step": 17450
    },
    {
      "epoch": 342.35,
      "learning_rate": 0.00012841845508014356,
      "loss": 0.5092,
      "step": 17460
    },
    {
      "epoch": 342.55,
      "learning_rate": 0.00012839000071807407,
      "loss": 0.5075,
      "step": 17470
    },
    {
      "epoch": 342.75,
      "learning_rate": 0.0001283615307673151,
      "loss": 0.5106,
      "step": 17480
    },
    {
      "epoch": 342.94,
      "learning_rate": 0.0001283330452361792,
      "loss": 0.5101,
      "step": 17490
    },
    {
      "epoch": 343.0,
      "eval_loss": 0.5135881304740906,
      "eval_runtime": 2.3064,
      "eval_samples_per_second": 988.109,
      "eval_steps_per_second": 3.902,
      "step": 17493
    },
    {
      "epoch": 343.14,
      "learning_rate": 0.00012830454413298353,
      "loss": 0.5114,
      "step": 17500
    },
    {
      "epoch": 343.33,
      "learning_rate": 0.00012827602746604978,
      "loss": 0.5087,
      "step": 17510
    },
    {
      "epoch": 343.53,
      "learning_rate": 0.0001282474952437042,
      "loss": 0.5092,
      "step": 17520
    },
    {
      "epoch": 343.73,
      "learning_rate": 0.00012821894747427754,
      "loss": 0.507,
      "step": 17530
    },
    {
      "epoch": 343.92,
      "learning_rate": 0.0001281903841661051,
      "loss": 0.5042,
      "step": 17540
    },
    {
      "epoch": 344.0,
      "eval_loss": 0.5135248899459839,
      "eval_runtime": 2.2046,
      "eval_samples_per_second": 1033.765,
      "eval_steps_per_second": 4.082,
      "step": 17544
    },
    {
      "epoch": 344.12,
      "learning_rate": 0.00012816180532752676,
      "loss": 0.5102,
      "step": 17550
    },
    {
      "epoch": 344.31,
      "learning_rate": 0.0001281332109668869,
      "loss": 0.5064,
      "step": 17560
    },
    {
      "epoch": 344.51,
      "learning_rate": 0.00012810460109253437,
      "loss": 0.506,
      "step": 17570
    },
    {
      "epoch": 344.71,
      "learning_rate": 0.00012807597571282272,
      "loss": 0.5015,
      "step": 17580
    },
    {
      "epoch": 344.9,
      "learning_rate": 0.00012804733483610982,
      "loss": 0.5091,
      "step": 17590
    },
    {
      "epoch": 345.0,
      "eval_loss": 0.5083193182945251,
      "eval_runtime": 2.1876,
      "eval_samples_per_second": 1041.783,
      "eval_steps_per_second": 4.114,
      "step": 17595
    },
    {
      "epoch": 345.1,
      "learning_rate": 0.00012801867847075826,
      "loss": 0.5072,
      "step": 17600
    },
    {
      "epoch": 345.29,
      "learning_rate": 0.000127990006625135,
      "loss": 0.5105,
      "step": 17610
    },
    {
      "epoch": 345.49,
      "learning_rate": 0.0001279613193076116,
      "loss": 0.508,
      "step": 17620
    },
    {
      "epoch": 345.69,
      "learning_rate": 0.00012793261652656413,
      "loss": 0.5034,
      "step": 17630
    },
    {
      "epoch": 345.88,
      "learning_rate": 0.00012790389829037314,
      "loss": 0.5095,
      "step": 17640
    },
    {
      "epoch": 346.0,
      "eval_loss": 0.5112407803535461,
      "eval_runtime": 2.2322,
      "eval_samples_per_second": 1020.968,
      "eval_steps_per_second": 4.032,
      "step": 17646
    },
    {
      "epoch": 346.08,
      "learning_rate": 0.00012787516460742372,
      "loss": 0.5101,
      "step": 17650
    },
    {
      "epoch": 346.27,
      "learning_rate": 0.00012784641548610546,
      "loss": 0.5126,
      "step": 17660
    },
    {
      "epoch": 346.47,
      "learning_rate": 0.00012781765093481247,
      "loss": 0.5,
      "step": 17670
    },
    {
      "epoch": 346.67,
      "learning_rate": 0.00012778887096194334,
      "loss": 0.5035,
      "step": 17680
    },
    {
      "epoch": 346.86,
      "learning_rate": 0.00012776007557590123,
      "loss": 0.5058,
      "step": 17690
    },
    {
      "epoch": 347.0,
      "eval_loss": 0.5121301412582397,
      "eval_runtime": 2.2108,
      "eval_samples_per_second": 1030.829,
      "eval_steps_per_second": 4.071,
      "step": 17697
    },
    {
      "epoch": 347.06,
      "learning_rate": 0.00012773126478509369,
      "loss": 0.5002,
      "step": 17700
    },
    {
      "epoch": 347.25,
      "learning_rate": 0.00012770243859793284,
      "loss": 0.5069,
      "step": 17710
    },
    {
      "epoch": 347.45,
      "learning_rate": 0.00012767359702283533,
      "loss": 0.5106,
      "step": 17720
    },
    {
      "epoch": 347.65,
      "learning_rate": 0.00012764474006822223,
      "loss": 0.5048,
      "step": 17730
    },
    {
      "epoch": 347.84,
      "learning_rate": 0.0001276158677425191,
      "loss": 0.504,
      "step": 17740
    },
    {
      "epoch": 348.0,
      "eval_loss": 0.508244514465332,
      "eval_runtime": 2.1836,
      "eval_samples_per_second": 1043.712,
      "eval_steps_per_second": 4.122,
      "step": 17748
    },
    {
      "epoch": 348.04,
      "learning_rate": 0.00012758698005415603,
      "loss": 0.505,
      "step": 17750
    },
    {
      "epoch": 348.24,
      "learning_rate": 0.0001275580770115676,
      "loss": 0.5107,
      "step": 17760
    },
    {
      "epoch": 348.43,
      "learning_rate": 0.00012752915862319285,
      "loss": 0.5037,
      "step": 17770
    },
    {
      "epoch": 348.63,
      "learning_rate": 0.00012750022489747527,
      "loss": 0.5065,
      "step": 17780
    },
    {
      "epoch": 348.82,
      "learning_rate": 0.0001274712758428629,
      "loss": 0.5016,
      "step": 17790
    },
    {
      "epoch": 349.0,
      "eval_loss": 0.5075437426567078,
      "eval_runtime": 2.1943,
      "eval_samples_per_second": 1038.611,
      "eval_steps_per_second": 4.102,
      "step": 17799
    },
    {
      "epoch": 349.02,
      "learning_rate": 0.00012744231146780821,
      "loss": 0.5055,
      "step": 17800
    },
    {
      "epoch": 349.22,
      "learning_rate": 0.00012741333178076816,
      "loss": 0.5014,
      "step": 17810
    },
    {
      "epoch": 349.41,
      "learning_rate": 0.00012738433679020412,
      "loss": 0.5062,
      "step": 17820
    },
    {
      "epoch": 349.61,
      "learning_rate": 0.00012735532650458208,
      "loss": 0.5094,
      "step": 17830
    },
    {
      "epoch": 349.8,
      "learning_rate": 0.0001273263009323723,
      "loss": 0.506,
      "step": 17840
    },
    {
      "epoch": 350.0,
      "learning_rate": 0.00012729726008204963,
      "loss": 0.5042,
      "step": 17850
    },
    {
      "epoch": 350.0,
      "eval_loss": 0.5090273022651672,
      "eval_runtime": 2.2206,
      "eval_samples_per_second": 1026.319,
      "eval_steps_per_second": 4.053,
      "step": 17850
    },
    {
      "epoch": 350.2,
      "learning_rate": 0.0001272682039620934,
      "loss": 0.5059,
      "step": 17860
    },
    {
      "epoch": 350.39,
      "learning_rate": 0.00012723913258098728,
      "loss": 0.5087,
      "step": 17870
    },
    {
      "epoch": 350.59,
      "learning_rate": 0.0001272100459472195,
      "loss": 0.5047,
      "step": 17880
    },
    {
      "epoch": 350.78,
      "learning_rate": 0.0001271809440692827,
      "loss": 0.5051,
      "step": 17890
    },
    {
      "epoch": 350.98,
      "learning_rate": 0.00012715182695567396,
      "loss": 0.5036,
      "step": 17900
    },
    {
      "epoch": 351.0,
      "eval_loss": 0.5089225172996521,
      "eval_runtime": 2.2425,
      "eval_samples_per_second": 1016.26,
      "eval_steps_per_second": 4.013,
      "step": 17901
    },
    {
      "epoch": 351.18,
      "learning_rate": 0.00012712269461489487,
      "loss": 0.5095,
      "step": 17910
    },
    {
      "epoch": 351.37,
      "learning_rate": 0.00012709354705545136,
      "loss": 0.5009,
      "step": 17920
    },
    {
      "epoch": 351.57,
      "learning_rate": 0.00012706438428585395,
      "loss": 0.5073,
      "step": 17930
    },
    {
      "epoch": 351.76,
      "learning_rate": 0.00012703520631461747,
      "loss": 0.5043,
      "step": 17940
    },
    {
      "epoch": 351.96,
      "learning_rate": 0.00012700601315026124,
      "loss": 0.5045,
      "step": 17950
    },
    {
      "epoch": 352.0,
      "eval_loss": 0.5094715356826782,
      "eval_runtime": 2.2171,
      "eval_samples_per_second": 1027.922,
      "eval_steps_per_second": 4.059,
      "step": 17952
    },
    {
      "epoch": 352.16,
      "learning_rate": 0.00012697680480130904,
      "loss": 0.5054,
      "step": 17960
    },
    {
      "epoch": 352.35,
      "learning_rate": 0.000126947581276289,
      "loss": 0.5047,
      "step": 17970
    },
    {
      "epoch": 352.55,
      "learning_rate": 0.0001269183425837338,
      "loss": 0.508,
      "step": 17980
    },
    {
      "epoch": 352.75,
      "learning_rate": 0.00012688908873218044,
      "loss": 0.4993,
      "step": 17990
    },
    {
      "epoch": 352.94,
      "learning_rate": 0.00012685981973017038,
      "loss": 0.5067,
      "step": 18000
    },
    {
      "epoch": 353.0,
      "eval_loss": 0.5087113976478577,
      "eval_runtime": 2.19,
      "eval_samples_per_second": 1040.626,
      "eval_steps_per_second": 4.11,
      "step": 18003
    },
    {
      "epoch": 353.14,
      "learning_rate": 0.0001268305355862496,
      "loss": 0.5036,
      "step": 18010
    },
    {
      "epoch": 353.33,
      "learning_rate": 0.0001268012363089683,
      "loss": 0.5057,
      "step": 18020
    },
    {
      "epoch": 353.53,
      "learning_rate": 0.00012677192190688134,
      "loss": 0.5041,
      "step": 18030
    },
    {
      "epoch": 353.73,
      "learning_rate": 0.00012674259238854778,
      "loss": 0.5021,
      "step": 18040
    },
    {
      "epoch": 353.92,
      "learning_rate": 0.00012671324776253123,
      "loss": 0.5026,
      "step": 18050
    },
    {
      "epoch": 354.0,
      "eval_loss": 0.5063843727111816,
      "eval_runtime": 2.1337,
      "eval_samples_per_second": 1068.082,
      "eval_steps_per_second": 4.218,
      "step": 18054
    },
    {
      "epoch": 354.12,
      "learning_rate": 0.00012668388803739963,
      "loss": 0.5051,
      "step": 18060
    },
    {
      "epoch": 354.31,
      "learning_rate": 0.0001266545132217254,
      "loss": 0.5015,
      "step": 18070
    },
    {
      "epoch": 354.51,
      "learning_rate": 0.00012662512332408532,
      "loss": 0.5058,
      "step": 18080
    },
    {
      "epoch": 354.71,
      "learning_rate": 0.00012659571835306057,
      "loss": 0.5064,
      "step": 18090
    },
    {
      "epoch": 354.9,
      "learning_rate": 0.00012656629831723674,
      "loss": 0.5001,
      "step": 18100
    },
    {
      "epoch": 355.0,
      "eval_loss": 0.5055447220802307,
      "eval_runtime": 2.2709,
      "eval_samples_per_second": 1003.563,
      "eval_steps_per_second": 3.963,
      "step": 18105
    },
    {
      "epoch": 355.1,
      "learning_rate": 0.00012653686322520387,
      "loss": 0.5007,
      "step": 18110
    },
    {
      "epoch": 355.29,
      "learning_rate": 0.0001265074130855563,
      "loss": 0.5039,
      "step": 18120
    },
    {
      "epoch": 355.49,
      "learning_rate": 0.00012647794790689285,
      "loss": 0.501,
      "step": 18130
    },
    {
      "epoch": 355.69,
      "learning_rate": 0.00012644846769781668,
      "loss": 0.5054,
      "step": 18140
    },
    {
      "epoch": 355.88,
      "learning_rate": 0.00012641897246693534,
      "loss": 0.5036,
      "step": 18150
    },
    {
      "epoch": 356.0,
      "eval_loss": 0.5056591629981995,
      "eval_runtime": 2.1488,
      "eval_samples_per_second": 1060.609,
      "eval_steps_per_second": 4.188,
      "step": 18156
    },
    {
      "epoch": 356.08,
      "learning_rate": 0.00012638946222286082,
      "loss": 0.4965,
      "step": 18160
    },
    {
      "epoch": 356.27,
      "learning_rate": 0.00012635993697420942,
      "loss": 0.499,
      "step": 18170
    },
    {
      "epoch": 356.47,
      "learning_rate": 0.00012633039672960183,
      "loss": 0.5056,
      "step": 18180
    },
    {
      "epoch": 356.67,
      "learning_rate": 0.00012630084149766322,
      "loss": 0.5045,
      "step": 18190
    },
    {
      "epoch": 356.86,
      "learning_rate": 0.000126271271287023,
      "loss": 0.5012,
      "step": 18200
    },
    {
      "epoch": 357.0,
      "eval_loss": 0.508310079574585,
      "eval_runtime": 2.2643,
      "eval_samples_per_second": 1006.498,
      "eval_steps_per_second": 3.975,
      "step": 18207
    },
    {
      "epoch": 357.06,
      "learning_rate": 0.00012624168610631502,
      "loss": 0.501,
      "step": 18210
    },
    {
      "epoch": 357.25,
      "learning_rate": 0.00012621208596417748,
      "loss": 0.4977,
      "step": 18220
    },
    {
      "epoch": 357.45,
      "learning_rate": 0.00012618247086925298,
      "loss": 0.4988,
      "step": 18230
    },
    {
      "epoch": 357.65,
      "learning_rate": 0.0001261528408301885,
      "loss": 0.5085,
      "step": 18240
    },
    {
      "epoch": 357.84,
      "learning_rate": 0.0001261231958556353,
      "loss": 0.5031,
      "step": 18250
    },
    {
      "epoch": 358.0,
      "eval_loss": 0.5109713077545166,
      "eval_runtime": 2.2405,
      "eval_samples_per_second": 1017.183,
      "eval_steps_per_second": 4.017,
      "step": 18258
    },
    {
      "epoch": 358.04,
      "learning_rate": 0.00012609353595424905,
      "loss": 0.506,
      "step": 18260
    },
    {
      "epoch": 358.24,
      "learning_rate": 0.0001260638611346898,
      "loss": 0.5048,
      "step": 18270
    },
    {
      "epoch": 358.43,
      "learning_rate": 0.00012603417140562195,
      "loss": 0.5056,
      "step": 18280
    },
    {
      "epoch": 358.63,
      "learning_rate": 0.00012600446677571423,
      "loss": 0.5023,
      "step": 18290
    },
    {
      "epoch": 358.82,
      "learning_rate": 0.0001259747472536397,
      "loss": 0.5021,
      "step": 18300
    },
    {
      "epoch": 359.0,
      "eval_loss": 0.5127790570259094,
      "eval_runtime": 2.1395,
      "eval_samples_per_second": 1065.184,
      "eval_steps_per_second": 4.207,
      "step": 18309
    },
    {
      "epoch": 359.02,
      "learning_rate": 0.00012594501284807582,
      "loss": 0.503,
      "step": 18310
    },
    {
      "epoch": 359.22,
      "learning_rate": 0.00012591526356770438,
      "loss": 0.5041,
      "step": 18320
    },
    {
      "epoch": 359.41,
      "learning_rate": 0.0001258854994212115,
      "loss": 0.5002,
      "step": 18330
    },
    {
      "epoch": 359.61,
      "learning_rate": 0.00012585572041728764,
      "loss": 0.5071,
      "step": 18340
    },
    {
      "epoch": 359.8,
      "learning_rate": 0.00012582592656462763,
      "loss": 0.5027,
      "step": 18350
    },
    {
      "epoch": 360.0,
      "learning_rate": 0.00012579611787193057,
      "loss": 0.4973,
      "step": 18360
    },
    {
      "epoch": 360.0,
      "eval_loss": 0.501369833946228,
      "eval_runtime": 2.3093,
      "eval_samples_per_second": 986.882,
      "eval_steps_per_second": 3.897,
      "step": 18360
    },
    {
      "epoch": 360.2,
      "learning_rate": 0.00012576629434789995,
      "loss": 0.4983,
      "step": 18370
    },
    {
      "epoch": 360.39,
      "learning_rate": 0.0001257364560012436,
      "loss": 0.5008,
      "step": 18380
    },
    {
      "epoch": 360.59,
      "learning_rate": 0.00012570660284067363,
      "loss": 0.5024,
      "step": 18390
    },
    {
      "epoch": 360.78,
      "learning_rate": 0.00012567673487490647,
      "loss": 0.5037,
      "step": 18400
    },
    {
      "epoch": 360.98,
      "learning_rate": 0.00012564685211266294,
      "loss": 0.4988,
      "step": 18410
    },
    {
      "epoch": 361.0,
      "eval_loss": 0.5028321743011475,
      "eval_runtime": 2.297,
      "eval_samples_per_second": 992.185,
      "eval_steps_per_second": 3.918,
      "step": 18411
    },
    {
      "epoch": 361.18,
      "learning_rate": 0.00012561695456266817,
      "loss": 0.5011,
      "step": 18420
    },
    {
      "epoch": 361.37,
      "learning_rate": 0.00012558704223365147,
      "loss": 0.5029,
      "step": 18430
    },
    {
      "epoch": 361.57,
      "learning_rate": 0.00012555711513434668,
      "loss": 0.5038,
      "step": 18440
    },
    {
      "epoch": 361.76,
      "learning_rate": 0.00012552717327349178,
      "loss": 0.5029,
      "step": 18450
    },
    {
      "epoch": 361.96,
      "learning_rate": 0.00012549721665982915,
      "loss": 0.5013,
      "step": 18460
    },
    {
      "epoch": 362.0,
      "eval_loss": 0.5034978985786438,
      "eval_runtime": 2.1156,
      "eval_samples_per_second": 1077.26,
      "eval_steps_per_second": 4.254,
      "step": 18462
    },
    {
      "epoch": 362.16,
      "learning_rate": 0.00012546724530210546,
      "loss": 0.4995,
      "step": 18470
    },
    {
      "epoch": 362.35,
      "learning_rate": 0.00012543725920907169,
      "loss": 0.498,
      "step": 18480
    },
    {
      "epoch": 362.55,
      "learning_rate": 0.00012540725838948308,
      "loss": 0.5007,
      "step": 18490
    },
    {
      "epoch": 362.75,
      "learning_rate": 0.0001253772428520992,
      "loss": 0.4995,
      "step": 18500
    },
    {
      "epoch": 362.94,
      "learning_rate": 0.00012534721260568392,
      "loss": 0.5001,
      "step": 18510
    },
    {
      "epoch": 363.0,
      "eval_loss": 0.5039771199226379,
      "eval_runtime": 2.2553,
      "eval_samples_per_second": 1010.502,
      "eval_steps_per_second": 3.991,
      "step": 18513
    },
    {
      "epoch": 363.14,
      "learning_rate": 0.00012531716765900545,
      "loss": 0.4966,
      "step": 18520
    },
    {
      "epoch": 363.33,
      "learning_rate": 0.00012528710802083617,
      "loss": 0.5034,
      "step": 18530
    },
    {
      "epoch": 363.53,
      "learning_rate": 0.00012525703369995286,
      "loss": 0.4964,
      "step": 18540
    },
    {
      "epoch": 363.73,
      "learning_rate": 0.00012522694470513658,
      "loss": 0.5035,
      "step": 18550
    },
    {
      "epoch": 363.92,
      "learning_rate": 0.00012519684104517258,
      "loss": 0.4972,
      "step": 18560
    },
    {
      "epoch": 364.0,
      "eval_loss": 0.5055744051933289,
      "eval_runtime": 2.1783,
      "eval_samples_per_second": 1046.212,
      "eval_steps_per_second": 4.132,
      "step": 18564
    },
    {
      "epoch": 364.12,
      "learning_rate": 0.0001251667227288505,
      "loss": 0.5019,
      "step": 18570
    },
    {
      "epoch": 364.31,
      "learning_rate": 0.00012513658976496424,
      "loss": 0.4983,
      "step": 18580
    },
    {
      "epoch": 364.51,
      "learning_rate": 0.00012510644216231188,
      "loss": 0.4998,
      "step": 18590
    },
    {
      "epoch": 364.71,
      "learning_rate": 0.0001250762799296959,
      "loss": 0.4977,
      "step": 18600
    },
    {
      "epoch": 364.9,
      "learning_rate": 0.000125046103075923,
      "loss": 0.4994,
      "step": 18610
    },
    {
      "epoch": 365.0,
      "eval_loss": 0.5070434808731079,
      "eval_runtime": 2.2145,
      "eval_samples_per_second": 1029.113,
      "eval_steps_per_second": 4.064,
      "step": 18615
    },
    {
      "epoch": 365.1,
      "learning_rate": 0.00012501591160980416,
      "loss": 0.4925,
      "step": 18620
    },
    {
      "epoch": 365.29,
      "learning_rate": 0.00012498570554015458,
      "loss": 0.5013,
      "step": 18630
    },
    {
      "epoch": 365.49,
      "learning_rate": 0.00012495548487579376,
      "loss": 0.4956,
      "step": 18640
    },
    {
      "epoch": 365.69,
      "learning_rate": 0.00012492524962554548,
      "loss": 0.4945,
      "step": 18650
    },
    {
      "epoch": 365.88,
      "learning_rate": 0.00012489499979823773,
      "loss": 0.5005,
      "step": 18660
    },
    {
      "epoch": 366.0,
      "eval_loss": 0.5070408582687378,
      "eval_runtime": 2.2321,
      "eval_samples_per_second": 1021.03,
      "eval_steps_per_second": 4.032,
      "step": 18666
    },
    {
      "epoch": 366.08,
      "learning_rate": 0.00012486473540270282,
      "loss": 0.4997,
      "step": 18670
    },
    {
      "epoch": 366.27,
      "learning_rate": 0.00012483445644777727,
      "loss": 0.4993,
      "step": 18680
    },
    {
      "epoch": 366.47,
      "learning_rate": 0.00012480416294230186,
      "loss": 0.497,
      "step": 18690
    },
    {
      "epoch": 366.67,
      "learning_rate": 0.00012477385489512158,
      "loss": 0.497,
      "step": 18700
    },
    {
      "epoch": 366.86,
      "learning_rate": 0.00012474353231508578,
      "loss": 0.4993,
      "step": 18710
    },
    {
      "epoch": 367.0,
      "eval_loss": 0.505254864692688,
      "eval_runtime": 2.3073,
      "eval_samples_per_second": 987.722,
      "eval_steps_per_second": 3.901,
      "step": 18717
    },
    {
      "epoch": 367.06,
      "learning_rate": 0.00012471319521104788,
      "loss": 0.5011,
      "step": 18720
    },
    {
      "epoch": 367.25,
      "learning_rate": 0.00012468284359186575,
      "loss": 0.5013,
      "step": 18730
    },
    {
      "epoch": 367.45,
      "learning_rate": 0.00012465247746640127,
      "loss": 0.5033,
      "step": 18740
    },
    {
      "epoch": 367.65,
      "learning_rate": 0.00012462209684352077,
      "loss": 0.5043,
      "step": 18750
    },
    {
      "epoch": 367.84,
      "learning_rate": 0.00012459170173209467,
      "loss": 0.4975,
      "step": 18760
    },
    {
      "epoch": 368.0,
      "eval_loss": 0.5035672187805176,
      "eval_runtime": 2.1149,
      "eval_samples_per_second": 1077.607,
      "eval_steps_per_second": 4.256,
      "step": 18768
    },
    {
      "epoch": 368.04,
      "learning_rate": 0.00012456129214099762,
      "loss": 0.5014,
      "step": 18770
    },
    {
      "epoch": 368.24,
      "learning_rate": 0.00012453086807910862,
      "loss": 0.5,
      "step": 18780
    },
    {
      "epoch": 368.43,
      "learning_rate": 0.0001245004295553108,
      "loss": 0.4988,
      "step": 18790
    },
    {
      "epoch": 368.63,
      "learning_rate": 0.0001244699765784915,
      "loss": 0.501,
      "step": 18800
    },
    {
      "epoch": 368.82,
      "learning_rate": 0.00012443950915754233,
      "loss": 0.4967,
      "step": 18810
    },
    {
      "epoch": 369.0,
      "eval_loss": 0.5026499629020691,
      "eval_runtime": 2.1523,
      "eval_samples_per_second": 1058.877,
      "eval_steps_per_second": 4.182,
      "step": 18819
    },
    {
      "epoch": 369.02,
      "learning_rate": 0.00012440902730135908,
      "loss": 0.5034,
      "step": 18820
    },
    {
      "epoch": 369.22,
      "learning_rate": 0.00012437853101884182,
      "loss": 0.5019,
      "step": 18830
    },
    {
      "epoch": 369.41,
      "learning_rate": 0.00012434802031889474,
      "loss": 0.5041,
      "step": 18840
    },
    {
      "epoch": 369.61,
      "learning_rate": 0.00012431749521042628,
      "loss": 0.5081,
      "step": 18850
    },
    {
      "epoch": 369.8,
      "learning_rate": 0.00012428695570234908,
      "loss": 0.5021,
      "step": 18860
    },
    {
      "epoch": 370.0,
      "learning_rate": 0.00012425640180358007,
      "loss": 0.4968,
      "step": 18870
    },
    {
      "epoch": 370.0,
      "eval_loss": 0.5011078119277954,
      "eval_runtime": 2.1561,
      "eval_samples_per_second": 1057.002,
      "eval_steps_per_second": 4.174,
      "step": 18870
    },
    {
      "epoch": 370.2,
      "learning_rate": 0.00012422583352304025,
      "loss": 0.5004,
      "step": 18880
    },
    {
      "epoch": 370.39,
      "learning_rate": 0.00012419525086965487,
      "loss": 0.4996,
      "step": 18890
    },
    {
      "epoch": 370.59,
      "learning_rate": 0.0001241646538523534,
      "loss": 0.4972,
      "step": 18900
    },
    {
      "epoch": 370.78,
      "learning_rate": 0.00012413404248006946,
      "loss": 0.4946,
      "step": 18910
    },
    {
      "epoch": 370.98,
      "learning_rate": 0.00012410341676174095,
      "loss": 0.498,
      "step": 18920
    },
    {
      "epoch": 371.0,
      "eval_loss": 0.4990316927433014,
      "eval_runtime": 2.3201,
      "eval_samples_per_second": 982.269,
      "eval_steps_per_second": 3.879,
      "step": 18921
    },
    {
      "epoch": 371.18,
      "learning_rate": 0.00012407277670630984,
      "loss": 0.4921,
      "step": 18930
    },
    {
      "epoch": 371.37,
      "learning_rate": 0.00012404212232272236,
      "loss": 0.5002,
      "step": 18940
    },
    {
      "epoch": 371.57,
      "learning_rate": 0.0001240114536199289,
      "loss": 0.4923,
      "step": 18950
    },
    {
      "epoch": 371.76,
      "learning_rate": 0.00012398077060688407,
      "loss": 0.4992,
      "step": 18960
    },
    {
      "epoch": 371.96,
      "learning_rate": 0.0001239500732925466,
      "loss": 0.5022,
      "step": 18970
    },
    {
      "epoch": 372.0,
      "eval_loss": 0.5031718611717224,
      "eval_runtime": 2.2742,
      "eval_samples_per_second": 1002.091,
      "eval_steps_per_second": 3.957,
      "step": 18972
    },
    {
      "epoch": 372.16,
      "learning_rate": 0.00012391936168587938,
      "loss": 0.4934,
      "step": 18980
    },
    {
      "epoch": 372.35,
      "learning_rate": 0.0001238886357958496,
      "loss": 0.4988,
      "step": 18990
    },
    {
      "epoch": 372.55,
      "learning_rate": 0.00012385789563142848,
      "loss": 0.4995,
      "step": 19000
    },
    {
      "epoch": 372.75,
      "learning_rate": 0.00012382714120159143,
      "loss": 0.4984,
      "step": 19010
    },
    {
      "epoch": 372.94,
      "learning_rate": 0.00012379637251531814,
      "loss": 0.4959,
      "step": 19020
    },
    {
      "epoch": 373.0,
      "eval_loss": 0.4971892833709717,
      "eval_runtime": 2.1232,
      "eval_samples_per_second": 1073.368,
      "eval_steps_per_second": 4.239,
      "step": 19023
    },
    {
      "epoch": 373.14,
      "learning_rate": 0.00012376558958159233,
      "loss": 0.497,
      "step": 19030
    },
    {
      "epoch": 373.33,
      "learning_rate": 0.00012373479240940198,
      "loss": 0.4931,
      "step": 19040
    },
    {
      "epoch": 373.53,
      "learning_rate": 0.0001237039810077391,
      "loss": 0.4958,
      "step": 19050
    },
    {
      "epoch": 373.73,
      "learning_rate": 0.00012367315538559996,
      "loss": 0.4988,
      "step": 19060
    },
    {
      "epoch": 373.92,
      "learning_rate": 0.00012364231555198497,
      "loss": 0.4921,
      "step": 19070
    },
    {
      "epoch": 374.0,
      "eval_loss": 0.4967401623725891,
      "eval_runtime": 2.1905,
      "eval_samples_per_second": 1040.405,
      "eval_steps_per_second": 4.109,
      "step": 19074
    },
    {
      "epoch": 374.12,
      "learning_rate": 0.00012361146151589866,
      "loss": 0.4956,
      "step": 19080
    },
    {
      "epoch": 374.31,
      "learning_rate": 0.00012358059328634974,
      "loss": 0.498,
      "step": 19090
    },
    {
      "epoch": 374.51,
      "learning_rate": 0.00012354971087235106,
      "loss": 0.4947,
      "step": 19100
    },
    {
      "epoch": 374.71,
      "learning_rate": 0.00012351881428291953,
      "loss": 0.4924,
      "step": 19110
    },
    {
      "epoch": 374.9,
      "learning_rate": 0.00012348790352707632,
      "loss": 0.4936,
      "step": 19120
    },
    {
      "epoch": 375.0,
      "eval_loss": 0.49671775102615356,
      "eval_runtime": 2.1863,
      "eval_samples_per_second": 1042.405,
      "eval_steps_per_second": 4.117,
      "step": 19125
    },
    {
      "epoch": 375.1,
      "learning_rate": 0.00012345697861384667,
      "loss": 0.4902,
      "step": 19130
    },
    {
      "epoch": 375.29,
      "learning_rate": 0.00012342603955225995,
      "loss": 0.5001,
      "step": 19140
    },
    {
      "epoch": 375.49,
      "learning_rate": 0.0001233950863513497,
      "loss": 0.4989,
      "step": 19150
    },
    {
      "epoch": 375.69,
      "learning_rate": 0.0001233641190201535,
      "loss": 0.4882,
      "step": 19160
    },
    {
      "epoch": 375.88,
      "learning_rate": 0.00012333313756771324,
      "loss": 0.496,
      "step": 19170
    },
    {
      "epoch": 376.0,
      "eval_loss": 0.5000470280647278,
      "eval_runtime": 2.1974,
      "eval_samples_per_second": 1037.127,
      "eval_steps_per_second": 4.096,
      "step": 19176
    },
    {
      "epoch": 376.08,
      "learning_rate": 0.0001233021420030747,
      "loss": 0.4939,
      "step": 19180
    },
    {
      "epoch": 376.27,
      "learning_rate": 0.00012327113233528796,
      "loss": 0.4955,
      "step": 19190
    },
    {
      "epoch": 376.47,
      "learning_rate": 0.00012324010857340712,
      "loss": 0.502,
      "step": 19200
    },
    {
      "epoch": 376.67,
      "learning_rate": 0.00012320907072649044,
      "loss": 0.4931,
      "step": 19210
    },
    {
      "epoch": 376.86,
      "learning_rate": 0.00012317801880360027,
      "loss": 0.4941,
      "step": 19220
    },
    {
      "epoch": 377.0,
      "eval_loss": 0.49797841906547546,
      "eval_runtime": 2.17,
      "eval_samples_per_second": 1050.218,
      "eval_steps_per_second": 4.147,
      "step": 19227
    },
    {
      "epoch": 377.06,
      "learning_rate": 0.00012314695281380307,
      "loss": 0.4961,
      "step": 19230
    },
    {
      "epoch": 377.25,
      "learning_rate": 0.00012311587276616945,
      "loss": 0.4972,
      "step": 19240
    },
    {
      "epoch": 377.45,
      "learning_rate": 0.0001230847786697741,
      "loss": 0.4962,
      "step": 19250
    },
    {
      "epoch": 377.65,
      "learning_rate": 0.0001230536705336957,
      "loss": 0.498,
      "step": 19260
    },
    {
      "epoch": 377.84,
      "learning_rate": 0.00012302254836701724,
      "loss": 0.4937,
      "step": 19270
    },
    {
      "epoch": 378.0,
      "eval_loss": 0.49754011631011963,
      "eval_runtime": 2.1141,
      "eval_samples_per_second": 1077.991,
      "eval_steps_per_second": 4.257,
      "step": 19278
    },
    {
      "epoch": 378.04,
      "learning_rate": 0.00012299141217882569,
      "loss": 0.4955,
      "step": 19280
    },
    {
      "epoch": 378.24,
      "learning_rate": 0.00012296026197821205,
      "loss": 0.4938,
      "step": 19290
    },
    {
      "epoch": 378.43,
      "learning_rate": 0.0001229290977742716,
      "loss": 0.4989,
      "step": 19300
    },
    {
      "epoch": 378.63,
      "learning_rate": 0.00012289791957610343,
      "loss": 0.4934,
      "step": 19310
    },
    {
      "epoch": 378.82,
      "learning_rate": 0.000122866727392811,
      "loss": 0.4979,
      "step": 19320
    },
    {
      "epoch": 379.0,
      "eval_loss": 0.49748286604881287,
      "eval_runtime": 2.2523,
      "eval_samples_per_second": 1011.858,
      "eval_steps_per_second": 3.996,
      "step": 19329
    },
    {
      "epoch": 379.02,
      "learning_rate": 0.00012283552123350174,
      "loss": 0.4992,
      "step": 19330
    },
    {
      "epoch": 379.22,
      "learning_rate": 0.0001228043011072871,
      "loss": 0.4946,
      "step": 19340
    },
    {
      "epoch": 379.41,
      "learning_rate": 0.00012277306702328266,
      "loss": 0.495,
      "step": 19350
    },
    {
      "epoch": 379.61,
      "learning_rate": 0.0001227418189906081,
      "loss": 0.4932,
      "step": 19360
    },
    {
      "epoch": 379.8,
      "learning_rate": 0.00012271055701838714,
      "loss": 0.5027,
      "step": 19370
    },
    {
      "epoch": 380.0,
      "learning_rate": 0.00012267928111574762,
      "loss": 0.4996,
      "step": 19380
    },
    {
      "epoch": 380.0,
      "eval_loss": 0.4932139813899994,
      "eval_runtime": 2.2597,
      "eval_samples_per_second": 1008.552,
      "eval_steps_per_second": 3.983,
      "step": 19380
    },
    {
      "epoch": 380.2,
      "learning_rate": 0.0001226479912918213,
      "loss": 0.4889,
      "step": 19390
    },
    {
      "epoch": 380.39,
      "learning_rate": 0.0001226166875557442,
      "loss": 0.4946,
      "step": 19400
    },
    {
      "epoch": 380.59,
      "learning_rate": 0.00012258536991665629,
      "loss": 0.4995,
      "step": 19410
    },
    {
      "epoch": 380.78,
      "learning_rate": 0.00012255403838370163,
      "loss": 0.4914,
      "step": 19420
    },
    {
      "epoch": 380.98,
      "learning_rate": 0.0001225226929660283,
      "loss": 0.4961,
      "step": 19430
    },
    {
      "epoch": 381.0,
      "eval_loss": 0.49828577041625977,
      "eval_runtime": 2.1395,
      "eval_samples_per_second": 1065.208,
      "eval_steps_per_second": 4.207,
      "step": 19431
    },
    {
      "epoch": 381.18,
      "learning_rate": 0.0001224913336727885,
      "loss": 0.4935,
      "step": 19440
    },
    {
      "epoch": 381.37,
      "learning_rate": 0.00012245996051313843,
      "loss": 0.4931,
      "step": 19450
    },
    {
      "epoch": 381.57,
      "learning_rate": 0.00012242857349623835,
      "loss": 0.49,
      "step": 19460
    },
    {
      "epoch": 381.76,
      "learning_rate": 0.00012239717263125256,
      "loss": 0.4936,
      "step": 19470
    },
    {
      "epoch": 381.96,
      "learning_rate": 0.00012236575792734942,
      "loss": 0.4903,
      "step": 19480
    },
    {
      "epoch": 382.0,
      "eval_loss": 0.497437059879303,
      "eval_runtime": 2.2133,
      "eval_samples_per_second": 1029.705,
      "eval_steps_per_second": 4.066,
      "step": 19482
    },
    {
      "epoch": 382.16,
      "learning_rate": 0.00012233432939370132,
      "loss": 0.4949,
      "step": 19490
    },
    {
      "epoch": 382.35,
      "learning_rate": 0.0001223028870394847,
      "loss": 0.4926,
      "step": 19500
    },
    {
      "epoch": 382.55,
      "learning_rate": 0.00012227143087388003,
      "loss": 0.4876,
      "step": 19510
    },
    {
      "epoch": 382.75,
      "learning_rate": 0.0001222399609060718,
      "loss": 0.4913,
      "step": 19520
    },
    {
      "epoch": 382.94,
      "learning_rate": 0.00012220847714524853,
      "loss": 0.4899,
      "step": 19530
    },
    {
      "epoch": 383.0,
      "eval_loss": 0.49533191323280334,
      "eval_runtime": 2.2011,
      "eval_samples_per_second": 1035.378,
      "eval_steps_per_second": 4.089,
      "step": 19533
    },
    {
      "epoch": 383.14,
      "learning_rate": 0.00012217697960060277,
      "loss": 0.4923,
      "step": 19540
    },
    {
      "epoch": 383.33,
      "learning_rate": 0.00012214546828133113,
      "loss": 0.49,
      "step": 19550
    },
    {
      "epoch": 383.53,
      "learning_rate": 0.00012211394319663421,
      "loss": 0.4957,
      "step": 19560
    },
    {
      "epoch": 383.73,
      "learning_rate": 0.00012208240435571664,
      "loss": 0.4883,
      "step": 19570
    },
    {
      "epoch": 383.92,
      "learning_rate": 0.00012205085176778698,
      "loss": 0.4924,
      "step": 19580
    },
    {
      "epoch": 384.0,
      "eval_loss": 0.4952709674835205,
      "eval_runtime": 2.2127,
      "eval_samples_per_second": 1029.974,
      "eval_steps_per_second": 4.067,
      "step": 19584
    },
    {
      "epoch": 384.12,
      "learning_rate": 0.000122019285442058,
      "loss": 0.4929,
      "step": 19590
    },
    {
      "epoch": 384.31,
      "learning_rate": 0.00012198770538774624,
      "loss": 0.4935,
      "step": 19600
    },
    {
      "epoch": 384.51,
      "learning_rate": 0.00012195611161407247,
      "loss": 0.4876,
      "step": 19610
    },
    {
      "epoch": 384.71,
      "learning_rate": 0.00012192450413026132,
      "loss": 0.4953,
      "step": 19620
    },
    {
      "epoch": 384.9,
      "learning_rate": 0.00012189288294554149,
      "loss": 0.4895,
      "step": 19630
    },
    {
      "epoch": 385.0,
      "eval_loss": 0.49638909101486206,
      "eval_runtime": 2.3077,
      "eval_samples_per_second": 987.57,
      "eval_steps_per_second": 3.9,
      "step": 19635
    },
    {
      "epoch": 385.1,
      "learning_rate": 0.00012186124806914566,
      "loss": 0.4886,
      "step": 19640
    },
    {
      "epoch": 385.29,
      "learning_rate": 0.00012182959951031048,
      "loss": 0.4964,
      "step": 19650
    },
    {
      "epoch": 385.49,
      "learning_rate": 0.00012179793727827667,
      "loss": 0.4962,
      "step": 19660
    },
    {
      "epoch": 385.69,
      "learning_rate": 0.00012176626138228886,
      "loss": 0.4935,
      "step": 19670
    },
    {
      "epoch": 385.88,
      "learning_rate": 0.0001217345718315957,
      "loss": 0.4965,
      "step": 19680
    },
    {
      "epoch": 386.0,
      "eval_loss": 0.5006343722343445,
      "eval_runtime": 2.1604,
      "eval_samples_per_second": 1054.911,
      "eval_steps_per_second": 4.166,
      "step": 19686
    },
    {
      "epoch": 386.08,
      "learning_rate": 0.00012170286863544986,
      "loss": 0.4929,
      "step": 19690
    },
    {
      "epoch": 386.27,
      "learning_rate": 0.00012167115180310793,
      "loss": 0.495,
      "step": 19700
    },
    {
      "epoch": 386.47,
      "learning_rate": 0.0001216394213438306,
      "loss": 0.4947,
      "step": 19710
    },
    {
      "epoch": 386.67,
      "learning_rate": 0.00012160767726688234,
      "loss": 0.4911,
      "step": 19720
    },
    {
      "epoch": 386.86,
      "learning_rate": 0.00012157591958153181,
      "loss": 0.4896,
      "step": 19730
    },
    {
      "epoch": 387.0,
      "eval_loss": 0.49377307295799255,
      "eval_runtime": 2.2645,
      "eval_samples_per_second": 1006.384,
      "eval_steps_per_second": 3.974,
      "step": 19737
    },
    {
      "epoch": 387.06,
      "learning_rate": 0.00012154414829705148,
      "loss": 0.4905,
      "step": 19740
    },
    {
      "epoch": 387.25,
      "learning_rate": 0.00012151236342271788,
      "loss": 0.4938,
      "step": 19750
    },
    {
      "epoch": 387.45,
      "learning_rate": 0.0001214805649678115,
      "loss": 0.4934,
      "step": 19760
    },
    {
      "epoch": 387.65,
      "learning_rate": 0.00012144875294161676,
      "loss": 0.4969,
      "step": 19770
    },
    {
      "epoch": 387.84,
      "learning_rate": 0.00012141692735342209,
      "loss": 0.497,
      "step": 19780
    },
    {
      "epoch": 388.0,
      "eval_loss": 0.4956132471561432,
      "eval_runtime": 2.1319,
      "eval_samples_per_second": 1069.001,
      "eval_steps_per_second": 4.222,
      "step": 19788
    },
    {
      "epoch": 388.04,
      "learning_rate": 0.0001213850882125198,
      "loss": 0.4898,
      "step": 19790
    },
    {
      "epoch": 388.24,
      "learning_rate": 0.00012135323552820626,
      "loss": 0.4936,
      "step": 19800
    },
    {
      "epoch": 388.43,
      "learning_rate": 0.00012132136930978172,
      "loss": 0.491,
      "step": 19810
    },
    {
      "epoch": 388.63,
      "learning_rate": 0.00012128948956655038,
      "loss": 0.4929,
      "step": 19820
    },
    {
      "epoch": 388.82,
      "learning_rate": 0.00012125759630782047,
      "loss": 0.4924,
      "step": 19830
    },
    {
      "epoch": 389.0,
      "eval_loss": 0.4960061311721802,
      "eval_runtime": 2.2224,
      "eval_samples_per_second": 1025.454,
      "eval_steps_per_second": 4.05,
      "step": 19839
    },
    {
      "epoch": 389.02,
      "learning_rate": 0.00012122568954290409,
      "loss": 0.4914,
      "step": 19840
    },
    {
      "epoch": 389.22,
      "learning_rate": 0.00012119376928111729,
      "loss": 0.4931,
      "step": 19850
    },
    {
      "epoch": 389.41,
      "learning_rate": 0.00012116183553178008,
      "loss": 0.4938,
      "step": 19860
    },
    {
      "epoch": 389.61,
      "learning_rate": 0.00012112988830421638,
      "loss": 0.4899,
      "step": 19870
    },
    {
      "epoch": 389.8,
      "learning_rate": 0.00012109792760775413,
      "loss": 0.4897,
      "step": 19880
    },
    {
      "epoch": 390.0,
      "learning_rate": 0.00012106595345172509,
      "loss": 0.4904,
      "step": 19890
    },
    {
      "epoch": 390.0,
      "eval_loss": 0.49724245071411133,
      "eval_runtime": 2.2173,
      "eval_samples_per_second": 1027.831,
      "eval_steps_per_second": 4.059,
      "step": 19890
    },
    {
      "epoch": 390.2,
      "learning_rate": 0.00012103396584546499,
      "loss": 0.4905,
      "step": 19900
    },
    {
      "epoch": 390.39,
      "learning_rate": 0.00012100196479831355,
      "loss": 0.4975,
      "step": 19910
    },
    {
      "epoch": 390.59,
      "learning_rate": 0.00012096995031961432,
      "loss": 0.5014,
      "step": 19920
    },
    {
      "epoch": 390.78,
      "learning_rate": 0.00012093792241871481,
      "loss": 0.4979,
      "step": 19930
    },
    {
      "epoch": 390.98,
      "learning_rate": 0.00012090588110496649,
      "loss": 0.5,
      "step": 19940
    },
    {
      "epoch": 391.0,
      "eval_loss": 0.4958445131778717,
      "eval_runtime": 2.2084,
      "eval_samples_per_second": 1031.971,
      "eval_steps_per_second": 4.075,
      "step": 19941
    },
    {
      "epoch": 391.18,
      "learning_rate": 0.00012087382638772467,
      "loss": 0.4953,
      "step": 19950
    },
    {
      "epoch": 391.37,
      "learning_rate": 0.00012084175827634866,
      "loss": 0.4903,
      "step": 19960
    },
    {
      "epoch": 391.57,
      "learning_rate": 0.00012080967678020158,
      "loss": 0.4878,
      "step": 19970
    },
    {
      "epoch": 391.76,
      "learning_rate": 0.00012077758190865055,
      "loss": 0.491,
      "step": 19980
    },
    {
      "epoch": 391.96,
      "learning_rate": 0.00012074547367106652,
      "loss": 0.4961,
      "step": 19990
    },
    {
      "epoch": 392.0,
      "eval_loss": 0.4906347990036011,
      "eval_runtime": 2.203,
      "eval_samples_per_second": 1034.495,
      "eval_steps_per_second": 4.085,
      "step": 19992
    },
    {
      "epoch": 392.16,
      "learning_rate": 0.00012071335207682442,
      "loss": 0.4875,
      "step": 20000
    },
    {
      "epoch": 392.35,
      "learning_rate": 0.00012068121713530302,
      "loss": 0.4917,
      "step": 20010
    },
    {
      "epoch": 392.55,
      "learning_rate": 0.00012064906885588497,
      "loss": 0.4949,
      "step": 20020
    },
    {
      "epoch": 392.75,
      "learning_rate": 0.00012061690724795693,
      "loss": 0.492,
      "step": 20030
    },
    {
      "epoch": 392.94,
      "learning_rate": 0.0001205847323209093,
      "loss": 0.491,
      "step": 20040
    },
    {
      "epoch": 393.0,
      "eval_loss": 0.49177783727645874,
      "eval_runtime": 2.2703,
      "eval_samples_per_second": 1003.851,
      "eval_steps_per_second": 3.964,
      "step": 20043
    },
    {
      "epoch": 393.14,
      "learning_rate": 0.00012055254408413652,
      "loss": 0.4926,
      "step": 20050
    },
    {
      "epoch": 393.33,
      "learning_rate": 0.00012052034254703675,
      "loss": 0.4889,
      "step": 20060
    },
    {
      "epoch": 393.53,
      "learning_rate": 0.00012048812771901217,
      "loss": 0.4897,
      "step": 20070
    },
    {
      "epoch": 393.73,
      "learning_rate": 0.00012045589960946876,
      "loss": 0.4903,
      "step": 20080
    },
    {
      "epoch": 393.92,
      "learning_rate": 0.00012042365822781646,
      "loss": 0.4878,
      "step": 20090
    },
    {
      "epoch": 394.0,
      "eval_loss": 0.49539539217948914,
      "eval_runtime": 2.1871,
      "eval_samples_per_second": 1042.041,
      "eval_steps_per_second": 4.115,
      "step": 20094
    },
    {
      "epoch": 394.12,
      "learning_rate": 0.00012039140358346896,
      "loss": 0.4904,
      "step": 20100
    },
    {
      "epoch": 394.31,
      "learning_rate": 0.00012035913568584398,
      "loss": 0.4898,
      "step": 20110
    },
    {
      "epoch": 394.51,
      "learning_rate": 0.00012032685454436298,
      "loss": 0.4889,
      "step": 20120
    },
    {
      "epoch": 394.71,
      "learning_rate": 0.00012029456016845132,
      "loss": 0.4908,
      "step": 20130
    },
    {
      "epoch": 394.9,
      "learning_rate": 0.00012026225256753828,
      "loss": 0.4881,
      "step": 20140
    },
    {
      "epoch": 395.0,
      "eval_loss": 0.4915597438812256,
      "eval_runtime": 2.2004,
      "eval_samples_per_second": 1035.724,
      "eval_steps_per_second": 4.09,
      "step": 20145
    },
    {
      "epoch": 395.1,
      "learning_rate": 0.00012022993175105693,
      "loss": 0.49,
      "step": 20150
    },
    {
      "epoch": 395.29,
      "learning_rate": 0.00012019759772844423,
      "loss": 0.489,
      "step": 20160
    },
    {
      "epoch": 395.49,
      "learning_rate": 0.00012016525050914098,
      "loss": 0.4957,
      "step": 20170
    },
    {
      "epoch": 395.69,
      "learning_rate": 0.0001201328901025919,
      "loss": 0.4914,
      "step": 20180
    },
    {
      "epoch": 395.88,
      "learning_rate": 0.00012010051651824546,
      "loss": 0.49,
      "step": 20190
    },
    {
      "epoch": 396.0,
      "eval_loss": 0.4946361482143402,
      "eval_runtime": 2.1514,
      "eval_samples_per_second": 1059.324,
      "eval_steps_per_second": 4.183,
      "step": 20196
    },
    {
      "epoch": 396.08,
      "learning_rate": 0.000120068129765554,
      "loss": 0.4896,
      "step": 20200
    },
    {
      "epoch": 396.27,
      "learning_rate": 0.00012003572985397382,
      "loss": 0.4901,
      "step": 20210
    },
    {
      "epoch": 396.47,
      "learning_rate": 0.00012000331679296488,
      "loss": 0.4894,
      "step": 20220
    },
    {
      "epoch": 396.67,
      "learning_rate": 0.00011997089059199112,
      "loss": 0.4914,
      "step": 20230
    },
    {
      "epoch": 396.86,
      "learning_rate": 0.00011993845126052025,
      "loss": 0.4881,
      "step": 20240
    },
    {
      "epoch": 397.0,
      "eval_loss": 0.49236392974853516,
      "eval_runtime": 2.1606,
      "eval_samples_per_second": 1054.789,
      "eval_steps_per_second": 4.165,
      "step": 20247
    },
    {
      "epoch": 397.06,
      "learning_rate": 0.00011990599880802382,
      "loss": 0.4938,
      "step": 20250
    },
    {
      "epoch": 397.25,
      "learning_rate": 0.00011987353324397729,
      "loss": 0.4934,
      "step": 20260
    },
    {
      "epoch": 397.45,
      "learning_rate": 0.0001198410545778598,
      "loss": 0.4952,
      "step": 20270
    },
    {
      "epoch": 397.65,
      "learning_rate": 0.00011980856281915442,
      "loss": 0.4858,
      "step": 20280
    },
    {
      "epoch": 397.84,
      "learning_rate": 0.00011977605797734803,
      "loss": 0.4871,
      "step": 20290
    },
    {
      "epoch": 398.0,
      "eval_loss": 0.49587199091911316,
      "eval_runtime": 2.305,
      "eval_samples_per_second": 988.741,
      "eval_steps_per_second": 3.905,
      "step": 20298
    },
    {
      "epoch": 398.04,
      "learning_rate": 0.00011974354006193131,
      "loss": 0.4878,
      "step": 20300
    },
    {
      "epoch": 398.24,
      "learning_rate": 0.00011971100908239877,
      "loss": 0.4952,
      "step": 20310
    },
    {
      "epoch": 398.43,
      "learning_rate": 0.00011967846504824876,
      "loss": 0.4868,
      "step": 20320
    },
    {
      "epoch": 398.63,
      "learning_rate": 0.00011964590796898333,
      "loss": 0.4938,
      "step": 20330
    },
    {
      "epoch": 398.82,
      "learning_rate": 0.00011961333785410852,
      "loss": 0.492,
      "step": 20340
    },
    {
      "epoch": 399.0,
      "eval_loss": 0.48673364520072937,
      "eval_runtime": 2.1177,
      "eval_samples_per_second": 1076.163,
      "eval_steps_per_second": 4.25,
      "step": 20349
    },
    {
      "epoch": 399.02,
      "learning_rate": 0.00011958075471313399,
      "loss": 0.4877,
      "step": 20350
    },
    {
      "epoch": 399.22,
      "learning_rate": 0.00011954815855557338,
      "loss": 0.4819,
      "step": 20360
    },
    {
      "epoch": 399.41,
      "learning_rate": 0.00011951554939094395,
      "loss": 0.4908,
      "step": 20370
    },
    {
      "epoch": 399.61,
      "learning_rate": 0.0001194829272287669,
      "loss": 0.4934,
      "step": 20380
    },
    {
      "epoch": 399.8,
      "learning_rate": 0.00011945029207856717,
      "loss": 0.4891,
      "step": 20390
    },
    {
      "epoch": 400.0,
      "learning_rate": 0.0001194176439498735,
      "loss": 0.4883,
      "step": 20400
    },
    {
      "epoch": 400.0,
      "eval_loss": 0.4891131818294525,
      "eval_runtime": 2.2177,
      "eval_samples_per_second": 1027.662,
      "eval_steps_per_second": 4.058,
      "step": 20400
    },
    {
      "epoch": 400.2,
      "learning_rate": 0.0001193849828522184,
      "loss": 0.49,
      "step": 20410
    },
    {
      "epoch": 400.39,
      "learning_rate": 0.00011935230879513817,
      "loss": 0.4854,
      "step": 20420
    },
    {
      "epoch": 400.59,
      "learning_rate": 0.00011931962178817295,
      "loss": 0.4883,
      "step": 20430
    },
    {
      "epoch": 400.78,
      "learning_rate": 0.00011928692184086658,
      "loss": 0.487,
      "step": 20440
    },
    {
      "epoch": 400.98,
      "learning_rate": 0.00011925420896276673,
      "loss": 0.4864,
      "step": 20450
    },
    {
      "epoch": 401.0,
      "eval_loss": 0.49455273151397705,
      "eval_runtime": 2.1545,
      "eval_samples_per_second": 1057.788,
      "eval_steps_per_second": 4.177,
      "step": 20451
    },
    {
      "epoch": 401.18,
      "learning_rate": 0.00011922148316342483,
      "loss": 0.4938,
      "step": 20460
    },
    {
      "epoch": 401.37,
      "learning_rate": 0.00011918874445239606,
      "loss": 0.4971,
      "step": 20470
    },
    {
      "epoch": 401.57,
      "learning_rate": 0.00011915599283923944,
      "loss": 0.4905,
      "step": 20480
    },
    {
      "epoch": 401.76,
      "learning_rate": 0.00011912322833351768,
      "loss": 0.489,
      "step": 20490
    },
    {
      "epoch": 401.96,
      "learning_rate": 0.00011909045094479726,
      "loss": 0.4898,
      "step": 20500
    },
    {
      "epoch": 402.0,
      "eval_loss": 0.49220773577690125,
      "eval_runtime": 2.1981,
      "eval_samples_per_second": 1036.809,
      "eval_steps_per_second": 4.094,
      "step": 20502
    },
    {
      "epoch": 402.16,
      "learning_rate": 0.0001190576606826485,
      "loss": 0.4885,
      "step": 20510
    },
    {
      "epoch": 402.35,
      "learning_rate": 0.00011902485755664542,
      "loss": 0.489,
      "step": 20520
    },
    {
      "epoch": 402.55,
      "learning_rate": 0.00011899204157636577,
      "loss": 0.4877,
      "step": 20530
    },
    {
      "epoch": 402.75,
      "learning_rate": 0.00011895921275139109,
      "loss": 0.4857,
      "step": 20540
    },
    {
      "epoch": 402.94,
      "learning_rate": 0.00011892637109130667,
      "loss": 0.4841,
      "step": 20550
    },
    {
      "epoch": 403.0,
      "eval_loss": 0.49017834663391113,
      "eval_runtime": 2.2994,
      "eval_samples_per_second": 991.128,
      "eval_steps_per_second": 3.914,
      "step": 20553
    },
    {
      "epoch": 403.14,
      "learning_rate": 0.00011889351660570155,
      "loss": 0.4864,
      "step": 20560
    },
    {
      "epoch": 403.33,
      "learning_rate": 0.00011886064930416852,
      "loss": 0.487,
      "step": 20570
    },
    {
      "epoch": 403.53,
      "learning_rate": 0.00011882776919630406,
      "loss": 0.4857,
      "step": 20580
    },
    {
      "epoch": 403.73,
      "learning_rate": 0.00011879487629170845,
      "loss": 0.4874,
      "step": 20590
    },
    {
      "epoch": 403.92,
      "learning_rate": 0.00011876197059998569,
      "loss": 0.4879,
      "step": 20600
    },
    {
      "epoch": 404.0,
      "eval_loss": 0.49214035272598267,
      "eval_runtime": 2.1629,
      "eval_samples_per_second": 1053.659,
      "eval_steps_per_second": 4.161,
      "step": 20604
    },
    {
      "epoch": 404.12,
      "learning_rate": 0.00011872905213074348,
      "loss": 0.4914,
      "step": 20610
    },
    {
      "epoch": 404.31,
      "learning_rate": 0.00011869612089359333,
      "loss": 0.4845,
      "step": 20620
    },
    {
      "epoch": 404.51,
      "learning_rate": 0.0001186631768981504,
      "loss": 0.4848,
      "step": 20630
    },
    {
      "epoch": 404.71,
      "learning_rate": 0.00011863022015403356,
      "loss": 0.4905,
      "step": 20640
    },
    {
      "epoch": 404.9,
      "learning_rate": 0.00011859725067086551,
      "loss": 0.4801,
      "step": 20650
    },
    {
      "epoch": 405.0,
      "eval_loss": 0.49142250418663025,
      "eval_runtime": 2.2732,
      "eval_samples_per_second": 1002.561,
      "eval_steps_per_second": 3.959,
      "step": 20655
    },
    {
      "epoch": 405.1,
      "learning_rate": 0.00011856426845827259,
      "loss": 0.4882,
      "step": 20660
    },
    {
      "epoch": 405.29,
      "learning_rate": 0.00011853127352588484,
      "loss": 0.4859,
      "step": 20670
    },
    {
      "epoch": 405.49,
      "learning_rate": 0.00011849826588333606,
      "loss": 0.4866,
      "step": 20680
    },
    {
      "epoch": 405.69,
      "learning_rate": 0.00011846524554026375,
      "loss": 0.4828,
      "step": 20690
    },
    {
      "epoch": 405.88,
      "learning_rate": 0.00011843221250630909,
      "loss": 0.4877,
      "step": 20700
    },
    {
      "epoch": 406.0,
      "eval_loss": 0.48823556303977966,
      "eval_runtime": 2.2635,
      "eval_samples_per_second": 1006.835,
      "eval_steps_per_second": 3.976,
      "step": 20706
    },
    {
      "epoch": 406.08,
      "learning_rate": 0.00011839916679111705,
      "loss": 0.4797,
      "step": 20710
    },
    {
      "epoch": 406.27,
      "learning_rate": 0.00011836610840433619,
      "loss": 0.4864,
      "step": 20720
    },
    {
      "epoch": 406.47,
      "learning_rate": 0.00011833303735561884,
      "loss": 0.487,
      "step": 20730
    },
    {
      "epoch": 406.67,
      "learning_rate": 0.00011829995365462098,
      "loss": 0.4845,
      "step": 20740
    },
    {
      "epoch": 406.86,
      "learning_rate": 0.00011826685731100235,
      "loss": 0.4858,
      "step": 20750
    },
    {
      "epoch": 407.0,
      "eval_loss": 0.48820948600769043,
      "eval_runtime": 2.3072,
      "eval_samples_per_second": 987.76,
      "eval_steps_per_second": 3.901,
      "step": 20757
    },
    {
      "epoch": 407.06,
      "learning_rate": 0.00011823374833442632,
      "loss": 0.4859,
      "step": 20760
    },
    {
      "epoch": 407.25,
      "learning_rate": 0.00011820062673455999,
      "loss": 0.4768,
      "step": 20770
    },
    {
      "epoch": 407.45,
      "learning_rate": 0.00011816749252107412,
      "loss": 0.4855,
      "step": 20780
    },
    {
      "epoch": 407.65,
      "learning_rate": 0.00011813434570364315,
      "loss": 0.4875,
      "step": 20790
    },
    {
      "epoch": 407.84,
      "learning_rate": 0.00011810118629194525,
      "loss": 0.4856,
      "step": 20800
    },
    {
      "epoch": 408.0,
      "eval_loss": 0.48716312646865845,
      "eval_runtime": 2.1662,
      "eval_samples_per_second": 1052.052,
      "eval_steps_per_second": 4.155,
      "step": 20808
    },
    {
      "epoch": 408.04,
      "learning_rate": 0.00011806801429566218,
      "loss": 0.4819,
      "step": 20810
    },
    {
      "epoch": 408.24,
      "learning_rate": 0.00011803482972447946,
      "loss": 0.4848,
      "step": 20820
    },
    {
      "epoch": 408.43,
      "learning_rate": 0.00011800163258808624,
      "loss": 0.4851,
      "step": 20830
    },
    {
      "epoch": 408.63,
      "learning_rate": 0.00011796842289617532,
      "loss": 0.4844,
      "step": 20840
    },
    {
      "epoch": 408.82,
      "learning_rate": 0.00011793520065844319,
      "loss": 0.4825,
      "step": 20850
    },
    {
      "epoch": 409.0,
      "eval_loss": 0.4870782792568207,
      "eval_runtime": 2.1607,
      "eval_samples_per_second": 1054.746,
      "eval_steps_per_second": 4.165,
      "step": 20859
    },
    {
      "epoch": 409.02,
      "learning_rate": 0.00011790196588459002,
      "loss": 0.4766,
      "step": 20860
    },
    {
      "epoch": 409.22,
      "learning_rate": 0.00011786871858431966,
      "loss": 0.4798,
      "step": 20870
    },
    {
      "epoch": 409.41,
      "learning_rate": 0.00011783545876733949,
      "loss": 0.4842,
      "step": 20880
    },
    {
      "epoch": 409.61,
      "learning_rate": 0.0001178021864433607,
      "loss": 0.483,
      "step": 20890
    },
    {
      "epoch": 409.8,
      "learning_rate": 0.00011776890162209804,
      "loss": 0.4919,
      "step": 20900
    },
    {
      "epoch": 410.0,
      "learning_rate": 0.00011773560431326995,
      "loss": 0.4865,
      "step": 20910
    },
    {
      "epoch": 410.0,
      "eval_loss": 0.4852657616138458,
      "eval_runtime": 2.2662,
      "eval_samples_per_second": 1005.667,
      "eval_steps_per_second": 3.971,
      "step": 20910
    },
    {
      "epoch": 410.2,
      "learning_rate": 0.00011770229452659851,
      "loss": 0.4851,
      "step": 20920
    },
    {
      "epoch": 410.39,
      "learning_rate": 0.00011766897227180941,
      "loss": 0.4838,
      "step": 20930
    },
    {
      "epoch": 410.59,
      "learning_rate": 0.00011763563755863201,
      "loss": 0.485,
      "step": 20940
    },
    {
      "epoch": 410.78,
      "learning_rate": 0.00011760229039679933,
      "loss": 0.4842,
      "step": 20950
    },
    {
      "epoch": 410.98,
      "learning_rate": 0.00011756893079604795,
      "loss": 0.4834,
      "step": 20960
    },
    {
      "epoch": 411.0,
      "eval_loss": 0.4907666742801666,
      "eval_runtime": 2.2355,
      "eval_samples_per_second": 1019.481,
      "eval_steps_per_second": 4.026,
      "step": 20961
    },
    {
      "epoch": 411.18,
      "learning_rate": 0.00011753555876611818,
      "loss": 0.4817,
      "step": 20970
    },
    {
      "epoch": 411.37,
      "learning_rate": 0.00011750217431675389,
      "loss": 0.486,
      "step": 20980
    },
    {
      "epoch": 411.57,
      "learning_rate": 0.00011746877745770258,
      "loss": 0.4862,
      "step": 20990
    },
    {
      "epoch": 411.76,
      "learning_rate": 0.00011743536819871539,
      "loss": 0.4838,
      "step": 21000
    },
    {
      "epoch": 411.96,
      "learning_rate": 0.0001174019465495471,
      "loss": 0.4815,
      "step": 21010
    },
    {
      "epoch": 412.0,
      "eval_loss": 0.4847215414047241,
      "eval_runtime": 2.1743,
      "eval_samples_per_second": 1048.158,
      "eval_steps_per_second": 4.139,
      "step": 21012
    },
    {
      "epoch": 412.16,
      "learning_rate": 0.00011736851251995606,
      "loss": 0.4849,
      "step": 21020
    },
    {
      "epoch": 412.35,
      "learning_rate": 0.00011733506611970429,
      "loss": 0.4762,
      "step": 21030
    },
    {
      "epoch": 412.55,
      "learning_rate": 0.00011730160735855736,
      "loss": 0.4838,
      "step": 21040
    },
    {
      "epoch": 412.75,
      "learning_rate": 0.00011726813624628451,
      "loss": 0.48,
      "step": 21050
    },
    {
      "epoch": 412.94,
      "learning_rate": 0.00011723465279265853,
      "loss": 0.4828,
      "step": 21060
    },
    {
      "epoch": 413.0,
      "eval_loss": 0.49191340804100037,
      "eval_runtime": 2.3099,
      "eval_samples_per_second": 986.634,
      "eval_steps_per_second": 3.896,
      "step": 21063
    },
    {
      "epoch": 413.14,
      "learning_rate": 0.00011720115700745588,
      "loss": 0.4873,
      "step": 21070
    },
    {
      "epoch": 413.33,
      "learning_rate": 0.00011716764890045656,
      "loss": 0.486,
      "step": 21080
    },
    {
      "epoch": 413.53,
      "learning_rate": 0.00011713412848144419,
      "loss": 0.4863,
      "step": 21090
    },
    {
      "epoch": 413.73,
      "learning_rate": 0.00011710059576020595,
      "loss": 0.4863,
      "step": 21100
    },
    {
      "epoch": 413.92,
      "learning_rate": 0.00011706705074653273,
      "loss": 0.487,
      "step": 21110
    },
    {
      "epoch": 414.0,
      "eval_loss": 0.4898955821990967,
      "eval_runtime": 2.2311,
      "eval_samples_per_second": 1021.471,
      "eval_steps_per_second": 4.034,
      "step": 21114
    },
    {
      "epoch": 414.12,
      "learning_rate": 0.00011703349345021887,
      "loss": 0.4859,
      "step": 21120
    },
    {
      "epoch": 414.31,
      "learning_rate": 0.00011699992388106235,
      "loss": 0.4833,
      "step": 21130
    },
    {
      "epoch": 414.51,
      "learning_rate": 0.00011696634204886474,
      "loss": 0.4849,
      "step": 21140
    },
    {
      "epoch": 414.71,
      "learning_rate": 0.00011693274796343119,
      "loss": 0.4819,
      "step": 21150
    },
    {
      "epoch": 414.9,
      "learning_rate": 0.00011689914163457044,
      "loss": 0.4842,
      "step": 21160
    },
    {
      "epoch": 415.0,
      "eval_loss": 0.48760807514190674,
      "eval_runtime": 2.207,
      "eval_samples_per_second": 1032.62,
      "eval_steps_per_second": 4.078,
      "step": 21165
    },
    {
      "epoch": 415.1,
      "learning_rate": 0.00011686552307209477,
      "loss": 0.4853,
      "step": 21170
    },
    {
      "epoch": 415.29,
      "learning_rate": 0.00011683189228582005,
      "loss": 0.4834,
      "step": 21180
    },
    {
      "epoch": 415.49,
      "learning_rate": 0.00011679824928556573,
      "loss": 0.4834,
      "step": 21190
    },
    {
      "epoch": 415.69,
      "learning_rate": 0.00011676459408115479,
      "loss": 0.4787,
      "step": 21200
    },
    {
      "epoch": 415.88,
      "learning_rate": 0.00011673092668241384,
      "loss": 0.4902,
      "step": 21210
    },
    {
      "epoch": 416.0,
      "eval_loss": 0.48727309703826904,
      "eval_runtime": 2.1481,
      "eval_samples_per_second": 1060.942,
      "eval_steps_per_second": 4.19,
      "step": 21216
    },
    {
      "epoch": 416.08,
      "learning_rate": 0.000116697247099173,
      "loss": 0.4826,
      "step": 21220
    },
    {
      "epoch": 416.27,
      "learning_rate": 0.00011666355534126592,
      "loss": 0.4854,
      "step": 21230
    },
    {
      "epoch": 416.47,
      "learning_rate": 0.00011662985141852987,
      "loss": 0.4849,
      "step": 21240
    },
    {
      "epoch": 416.67,
      "learning_rate": 0.00011659613534080564,
      "loss": 0.4814,
      "step": 21250
    },
    {
      "epoch": 416.86,
      "learning_rate": 0.00011656240711793759,
      "loss": 0.4809,
      "step": 21260
    },
    {
      "epoch": 417.0,
      "eval_loss": 0.49133971333503723,
      "eval_runtime": 2.1325,
      "eval_samples_per_second": 1068.686,
      "eval_steps_per_second": 4.22,
      "step": 21267
    },
    {
      "epoch": 417.06,
      "learning_rate": 0.0001165286667597736,
      "loss": 0.4785,
      "step": 21270
    },
    {
      "epoch": 417.25,
      "learning_rate": 0.00011649491427616508,
      "loss": 0.4871,
      "step": 21280
    },
    {
      "epoch": 417.45,
      "learning_rate": 0.00011646114967696701,
      "loss": 0.4778,
      "step": 21290
    },
    {
      "epoch": 417.65,
      "learning_rate": 0.00011642737297203793,
      "loss": 0.4808,
      "step": 21300
    },
    {
      "epoch": 417.84,
      "learning_rate": 0.00011639358417123985,
      "loss": 0.4825,
      "step": 21310
    },
    {
      "epoch": 418.0,
      "eval_loss": 0.48316019773483276,
      "eval_runtime": 2.1954,
      "eval_samples_per_second": 1038.08,
      "eval_steps_per_second": 4.099,
      "step": 21318
    },
    {
      "epoch": 418.04,
      "learning_rate": 0.00011635978328443837,
      "loss": 0.4785,
      "step": 21320
    },
    {
      "epoch": 418.24,
      "learning_rate": 0.00011632597032150254,
      "loss": 0.4855,
      "step": 21330
    },
    {
      "epoch": 418.43,
      "learning_rate": 0.0001162921452923051,
      "loss": 0.4795,
      "step": 21340
    },
    {
      "epoch": 418.63,
      "learning_rate": 0.0001162583082067221,
      "loss": 0.4841,
      "step": 21350
    },
    {
      "epoch": 418.82,
      "learning_rate": 0.00011622445907463325,
      "loss": 0.4797,
      "step": 21360
    },
    {
      "epoch": 419.0,
      "eval_loss": 0.4872037172317505,
      "eval_runtime": 2.1935,
      "eval_samples_per_second": 1038.999,
      "eval_steps_per_second": 4.103,
      "step": 21369
    },
    {
      "epoch": 419.02,
      "learning_rate": 0.00011619059790592175,
      "loss": 0.483,
      "step": 21370
    },
    {
      "epoch": 419.22,
      "learning_rate": 0.0001161567247104743,
      "loss": 0.4835,
      "step": 21380
    },
    {
      "epoch": 419.41,
      "learning_rate": 0.00011612283949818115,
      "loss": 0.4799,
      "step": 21390
    },
    {
      "epoch": 419.61,
      "learning_rate": 0.00011608894227893595,
      "loss": 0.4868,
      "step": 21400
    },
    {
      "epoch": 419.8,
      "learning_rate": 0.00011605503306263599,
      "loss": 0.4777,
      "step": 21410
    },
    {
      "epoch": 420.0,
      "learning_rate": 0.00011602111185918203,
      "loss": 0.4852,
      "step": 21420
    },
    {
      "epoch": 420.0,
      "eval_loss": 0.4868069887161255,
      "eval_runtime": 2.1839,
      "eval_samples_per_second": 1043.561,
      "eval_steps_per_second": 4.121,
      "step": 21420
    },
    {
      "epoch": 420.2,
      "learning_rate": 0.00011598717867847822,
      "loss": 0.4811,
      "step": 21430
    },
    {
      "epoch": 420.39,
      "learning_rate": 0.00011595323353043236,
      "loss": 0.4864,
      "step": 21440
    },
    {
      "epoch": 420.59,
      "learning_rate": 0.00011591927642495564,
      "loss": 0.4823,
      "step": 21450
    },
    {
      "epoch": 420.78,
      "learning_rate": 0.0001158853073719628,
      "loss": 0.4804,
      "step": 21460
    },
    {
      "epoch": 420.98,
      "learning_rate": 0.00011585132638137203,
      "loss": 0.4879,
      "step": 21470
    },
    {
      "epoch": 421.0,
      "eval_loss": 0.48333823680877686,
      "eval_runtime": 2.2861,
      "eval_samples_per_second": 996.882,
      "eval_steps_per_second": 3.937,
      "step": 21471
    },
    {
      "epoch": 421.18,
      "learning_rate": 0.00011581733346310504,
      "loss": 0.4874,
      "step": 21480
    },
    {
      "epoch": 421.37,
      "learning_rate": 0.000115783328627087,
      "loss": 0.4826,
      "step": 21490
    },
    {
      "epoch": 421.57,
      "learning_rate": 0.00011574931188324656,
      "loss": 0.4757,
      "step": 21500
    },
    {
      "epoch": 421.76,
      "learning_rate": 0.00011571528324151581,
      "loss": 0.481,
      "step": 21510
    },
    {
      "epoch": 421.96,
      "learning_rate": 0.00011568124271183042,
      "loss": 0.4823,
      "step": 21520
    },
    {
      "epoch": 422.0,
      "eval_loss": 0.4823528826236725,
      "eval_runtime": 2.3957,
      "eval_samples_per_second": 951.291,
      "eval_steps_per_second": 3.757,
      "step": 21522
    },
    {
      "epoch": 422.16,
      "learning_rate": 0.00011564719030412944,
      "loss": 0.4827,
      "step": 21530
    },
    {
      "epoch": 422.35,
      "learning_rate": 0.00011561312602835541,
      "loss": 0.4851,
      "step": 21540
    },
    {
      "epoch": 422.55,
      "learning_rate": 0.00011557904989445434,
      "loss": 0.4831,
      "step": 21550
    },
    {
      "epoch": 422.75,
      "learning_rate": 0.0001155449619123757,
      "loss": 0.478,
      "step": 21560
    },
    {
      "epoch": 422.94,
      "learning_rate": 0.00011551086209207242,
      "loss": 0.4729,
      "step": 21570
    },
    {
      "epoch": 423.0,
      "eval_loss": 0.47928565740585327,
      "eval_runtime": 2.2457,
      "eval_samples_per_second": 1014.839,
      "eval_steps_per_second": 4.008,
      "step": 21573
    },
    {
      "epoch": 423.14,
      "learning_rate": 0.0001154767504435009,
      "loss": 0.4828,
      "step": 21580
    },
    {
      "epoch": 423.33,
      "learning_rate": 0.00011544262697662093,
      "loss": 0.4811,
      "step": 21590
    },
    {
      "epoch": 423.53,
      "learning_rate": 0.00011540849170139588,
      "loss": 0.4806,
      "step": 21600
    },
    {
      "epoch": 423.73,
      "learning_rate": 0.00011537434462779246,
      "loss": 0.4799,
      "step": 21610
    },
    {
      "epoch": 423.92,
      "learning_rate": 0.00011534018576578084,
      "loss": 0.4825,
      "step": 21620
    },
    {
      "epoch": 424.0,
      "eval_loss": 0.4812348186969757,
      "eval_runtime": 2.2984,
      "eval_samples_per_second": 991.549,
      "eval_steps_per_second": 3.916,
      "step": 21624
    },
    {
      "epoch": 424.12,
      "learning_rate": 0.00011530601512533462,
      "loss": 0.4796,
      "step": 21630
    },
    {
      "epoch": 424.31,
      "learning_rate": 0.00011527183271643091,
      "loss": 0.4806,
      "step": 21640
    },
    {
      "epoch": 424.51,
      "learning_rate": 0.0001152376385490502,
      "loss": 0.4799,
      "step": 21650
    },
    {
      "epoch": 424.71,
      "learning_rate": 0.00011520343263317641,
      "loss": 0.4829,
      "step": 21660
    },
    {
      "epoch": 424.9,
      "learning_rate": 0.00011516921497879693,
      "loss": 0.4739,
      "step": 21670
    },
    {
      "epoch": 425.0,
      "eval_loss": 0.4831399917602539,
      "eval_runtime": 2.2851,
      "eval_samples_per_second": 997.312,
      "eval_steps_per_second": 3.938,
      "step": 21675
    },
    {
      "epoch": 425.1,
      "learning_rate": 0.00011513498559590251,
      "loss": 0.4753,
      "step": 21680
    },
    {
      "epoch": 425.29,
      "learning_rate": 0.00011510074449448743,
      "loss": 0.4875,
      "step": 21690
    },
    {
      "epoch": 425.49,
      "learning_rate": 0.00011506649168454926,
      "loss": 0.4773,
      "step": 21700
    },
    {
      "epoch": 425.69,
      "learning_rate": 0.0001150322271760891,
      "loss": 0.478,
      "step": 21710
    },
    {
      "epoch": 425.88,
      "learning_rate": 0.00011499795097911141,
      "loss": 0.4767,
      "step": 21720
    },
    {
      "epoch": 426.0,
      "eval_loss": 0.4847799241542816,
      "eval_runtime": 2.3019,
      "eval_samples_per_second": 990.034,
      "eval_steps_per_second": 3.91,
      "step": 21726
    },
    {
      "epoch": 426.08,
      "learning_rate": 0.00011496366310362408,
      "loss": 0.4833,
      "step": 21730
    },
    {
      "epoch": 426.27,
      "learning_rate": 0.00011492936355963839,
      "loss": 0.4844,
      "step": 21740
    },
    {
      "epoch": 426.47,
      "learning_rate": 0.00011489505235716906,
      "loss": 0.4805,
      "step": 21750
    },
    {
      "epoch": 426.67,
      "learning_rate": 0.00011486072950623418,
      "loss": 0.4808,
      "step": 21760
    },
    {
      "epoch": 426.86,
      "learning_rate": 0.00011482639501685529,
      "loss": 0.4806,
      "step": 21770
    },
    {
      "epoch": 427.0,
      "eval_loss": 0.48580941557884216,
      "eval_runtime": 2.3158,
      "eval_samples_per_second": 984.13,
      "eval_steps_per_second": 3.886,
      "step": 21777
    },
    {
      "epoch": 427.06,
      "learning_rate": 0.00011479204889905722,
      "loss": 0.4783,
      "step": 21780
    },
    {
      "epoch": 427.25,
      "learning_rate": 0.00011475769116286837,
      "loss": 0.4786,
      "step": 21790
    },
    {
      "epoch": 427.45,
      "learning_rate": 0.00011472332181832034,
      "loss": 0.4772,
      "step": 21800
    },
    {
      "epoch": 427.65,
      "learning_rate": 0.00011468894087544828,
      "loss": 0.4754,
      "step": 21810
    },
    {
      "epoch": 427.84,
      "learning_rate": 0.00011465454834429066,
      "loss": 0.4736,
      "step": 21820
    },
    {
      "epoch": 428.0,
      "eval_loss": 0.48313280940055847,
      "eval_runtime": 2.1586,
      "eval_samples_per_second": 1055.778,
      "eval_steps_per_second": 4.169,
      "step": 21828
    },
    {
      "epoch": 428.04,
      "learning_rate": 0.00011462014423488926,
      "loss": 0.4773,
      "step": 21830
    },
    {
      "epoch": 428.24,
      "learning_rate": 0.00011458572855728937,
      "loss": 0.4773,
      "step": 21840
    },
    {
      "epoch": 428.43,
      "learning_rate": 0.00011455130132153959,
      "loss": 0.4773,
      "step": 21850
    },
    {
      "epoch": 428.63,
      "learning_rate": 0.00011451686253769192,
      "loss": 0.4753,
      "step": 21860
    },
    {
      "epoch": 428.82,
      "learning_rate": 0.00011448241221580167,
      "loss": 0.4857,
      "step": 21870
    },
    {
      "epoch": 429.0,
      "eval_loss": 0.4785289764404297,
      "eval_runtime": 2.2717,
      "eval_samples_per_second": 1003.196,
      "eval_steps_per_second": 3.962,
      "step": 21879
    },
    {
      "epoch": 429.02,
      "learning_rate": 0.00011444795036592761,
      "loss": 0.4738,
      "step": 21880
    },
    {
      "epoch": 429.22,
      "learning_rate": 0.00011441347699813185,
      "loss": 0.4752,
      "step": 21890
    },
    {
      "epoch": 429.41,
      "learning_rate": 0.00011437899212247977,
      "loss": 0.4768,
      "step": 21900
    },
    {
      "epoch": 429.61,
      "learning_rate": 0.00011434449574904024,
      "loss": 0.4774,
      "step": 21910
    },
    {
      "epoch": 429.8,
      "learning_rate": 0.0001143099878878854,
      "loss": 0.4768,
      "step": 21920
    },
    {
      "epoch": 430.0,
      "learning_rate": 0.00011427546854909084,
      "loss": 0.4819,
      "step": 21930
    },
    {
      "epoch": 430.0,
      "eval_loss": 0.48050355911254883,
      "eval_runtime": 2.1897,
      "eval_samples_per_second": 1040.776,
      "eval_steps_per_second": 4.11,
      "step": 21930
    },
    {
      "epoch": 430.2,
      "learning_rate": 0.00011424093774273535,
      "loss": 0.477,
      "step": 21940
    },
    {
      "epoch": 430.39,
      "learning_rate": 0.00011420639547890122,
      "loss": 0.4774,
      "step": 21950
    },
    {
      "epoch": 430.59,
      "learning_rate": 0.000114171841767674,
      "loss": 0.4751,
      "step": 21960
    },
    {
      "epoch": 430.78,
      "learning_rate": 0.00011413727661914259,
      "loss": 0.4773,
      "step": 21970
    },
    {
      "epoch": 430.98,
      "learning_rate": 0.00011410270004339924,
      "loss": 0.4767,
      "step": 21980
    },
    {
      "epoch": 431.0,
      "eval_loss": 0.48454973101615906,
      "eval_runtime": 2.2681,
      "eval_samples_per_second": 1004.809,
      "eval_steps_per_second": 3.968,
      "step": 21981
    },
    {
      "epoch": 431.18,
      "learning_rate": 0.00011406811205053956,
      "loss": 0.4798,
      "step": 21990
    },
    {
      "epoch": 431.37,
      "learning_rate": 0.00011403351265066249,
      "loss": 0.4791,
      "step": 22000
    },
    {
      "epoch": 431.57,
      "learning_rate": 0.00011399890185387023,
      "loss": 0.4769,
      "step": 22010
    },
    {
      "epoch": 431.76,
      "learning_rate": 0.0001139642796702684,
      "loss": 0.4805,
      "step": 22020
    },
    {
      "epoch": 431.96,
      "learning_rate": 0.0001139296461099659,
      "loss": 0.4765,
      "step": 22030
    },
    {
      "epoch": 432.0,
      "eval_loss": 0.4803260564804077,
      "eval_runtime": 2.1961,
      "eval_samples_per_second": 1037.757,
      "eval_steps_per_second": 4.098,
      "step": 22032
    },
    {
      "epoch": 432.16,
      "learning_rate": 0.00011389500118307494,
      "loss": 0.4787,
      "step": 22040
    },
    {
      "epoch": 432.35,
      "learning_rate": 0.00011386034489971108,
      "loss": 0.473,
      "step": 22050
    },
    {
      "epoch": 432.55,
      "learning_rate": 0.00011382567726999318,
      "loss": 0.4783,
      "step": 22060
    },
    {
      "epoch": 432.75,
      "learning_rate": 0.00011379099830404341,
      "loss": 0.4726,
      "step": 22070
    },
    {
      "epoch": 432.94,
      "learning_rate": 0.00011375630801198725,
      "loss": 0.4785,
      "step": 22080
    },
    {
      "epoch": 433.0,
      "eval_loss": 0.4825577139854431,
      "eval_runtime": 2.2219,
      "eval_samples_per_second": 1025.707,
      "eval_steps_per_second": 4.051,
      "step": 22083
    },
    {
      "epoch": 433.14,
      "learning_rate": 0.00011372160640395352,
      "loss": 0.4733,
      "step": 22090
    },
    {
      "epoch": 433.33,
      "learning_rate": 0.0001136868934900743,
      "loss": 0.4737,
      "step": 22100
    },
    {
      "epoch": 433.53,
      "learning_rate": 0.00011365216928048498,
      "loss": 0.4766,
      "step": 22110
    },
    {
      "epoch": 433.73,
      "learning_rate": 0.00011361743378532422,
      "loss": 0.4767,
      "step": 22120
    },
    {
      "epoch": 433.92,
      "learning_rate": 0.00011358268701473408,
      "loss": 0.4758,
      "step": 22130
    },
    {
      "epoch": 434.0,
      "eval_loss": 0.48143434524536133,
      "eval_runtime": 2.319,
      "eval_samples_per_second": 982.761,
      "eval_steps_per_second": 3.881,
      "step": 22134
    },
    {
      "epoch": 434.12,
      "learning_rate": 0.00011354792897885981,
      "loss": 0.4729,
      "step": 22140
    },
    {
      "epoch": 434.31,
      "learning_rate": 0.00011351315968784996,
      "loss": 0.4798,
      "step": 22150
    },
    {
      "epoch": 434.51,
      "learning_rate": 0.00011347837915185645,
      "loss": 0.4768,
      "step": 22160
    },
    {
      "epoch": 434.71,
      "learning_rate": 0.00011344358738103432,
      "loss": 0.4777,
      "step": 22170
    },
    {
      "epoch": 434.9,
      "learning_rate": 0.0001134087843855421,
      "loss": 0.4677,
      "step": 22180
    },
    {
      "epoch": 435.0,
      "eval_loss": 0.4814690947532654,
      "eval_runtime": 2.3045,
      "eval_samples_per_second": 988.926,
      "eval_steps_per_second": 3.905,
      "step": 22185
    },
    {
      "epoch": 435.1,
      "learning_rate": 0.00011337397017554141,
      "loss": 0.4754,
      "step": 22190
    },
    {
      "epoch": 435.29,
      "learning_rate": 0.00011333914476119726,
      "loss": 0.4744,
      "step": 22200
    },
    {
      "epoch": 435.49,
      "learning_rate": 0.00011330430815267787,
      "loss": 0.4691,
      "step": 22210
    },
    {
      "epoch": 435.69,
      "learning_rate": 0.0001132694603601548,
      "loss": 0.4759,
      "step": 22220
    },
    {
      "epoch": 435.88,
      "learning_rate": 0.00011323460139380279,
      "loss": 0.4735,
      "step": 22230
    },
    {
      "epoch": 436.0,
      "eval_loss": 0.48106876015663147,
      "eval_runtime": 2.1513,
      "eval_samples_per_second": 1059.348,
      "eval_steps_per_second": 4.183,
      "step": 22236
    },
    {
      "epoch": 436.08,
      "learning_rate": 0.00011319973126379986,
      "loss": 0.4761,
      "step": 22240
    },
    {
      "epoch": 436.27,
      "learning_rate": 0.00011316484998032736,
      "loss": 0.4761,
      "step": 22250
    },
    {
      "epoch": 436.47,
      "learning_rate": 0.00011312995755356982,
      "loss": 0.476,
      "step": 22260
    },
    {
      "epoch": 436.67,
      "learning_rate": 0.00011309505399371506,
      "loss": 0.4783,
      "step": 22270
    },
    {
      "epoch": 436.86,
      "learning_rate": 0.00011306013931095412,
      "loss": 0.4764,
      "step": 22280
    },
    {
      "epoch": 437.0,
      "eval_loss": 0.47487953305244446,
      "eval_runtime": 2.3105,
      "eval_samples_per_second": 986.353,
      "eval_steps_per_second": 3.895,
      "step": 22287
    },
    {
      "epoch": 437.06,
      "learning_rate": 0.00011302521351548133,
      "loss": 0.4741,
      "step": 22290
    },
    {
      "epoch": 437.25,
      "learning_rate": 0.00011299027661749425,
      "loss": 0.4758,
      "step": 22300
    },
    {
      "epoch": 437.45,
      "learning_rate": 0.00011295532862719366,
      "loss": 0.4735,
      "step": 22310
    },
    {
      "epoch": 437.65,
      "learning_rate": 0.00011292036955478361,
      "loss": 0.4778,
      "step": 22320
    },
    {
      "epoch": 437.84,
      "learning_rate": 0.0001128853994104713,
      "loss": 0.4743,
      "step": 22330
    },
    {
      "epoch": 438.0,
      "eval_loss": 0.4845726490020752,
      "eval_runtime": 2.2198,
      "eval_samples_per_second": 1026.683,
      "eval_steps_per_second": 4.054,
      "step": 22338
    },
    {
      "epoch": 438.04,
      "learning_rate": 0.00011285041820446735,
      "loss": 0.4728,
      "step": 22340
    },
    {
      "epoch": 438.24,
      "learning_rate": 0.0001128154259469854,
      "loss": 0.479,
      "step": 22350
    },
    {
      "epoch": 438.43,
      "learning_rate": 0.00011278042264824247,
      "loss": 0.4758,
      "step": 22360
    },
    {
      "epoch": 438.63,
      "learning_rate": 0.0001127454083184587,
      "loss": 0.4799,
      "step": 22370
    },
    {
      "epoch": 438.82,
      "learning_rate": 0.00011271038296785748,
      "loss": 0.4736,
      "step": 22380
    },
    {
      "epoch": 439.0,
      "eval_loss": 0.4824729263782501,
      "eval_runtime": 2.1493,
      "eval_samples_per_second": 1060.367,
      "eval_steps_per_second": 4.187,
      "step": 22389
    },
    {
      "epoch": 439.02,
      "learning_rate": 0.00011267534660666548,
      "loss": 0.474,
      "step": 22390
    },
    {
      "epoch": 439.22,
      "learning_rate": 0.0001126402992451125,
      "loss": 0.4794,
      "step": 22400
    },
    {
      "epoch": 439.41,
      "learning_rate": 0.0001126052408934316,
      "loss": 0.4767,
      "step": 22410
    },
    {
      "epoch": 439.61,
      "learning_rate": 0.00011257017156185904,
      "loss": 0.4762,
      "step": 22420
    },
    {
      "epoch": 439.8,
      "learning_rate": 0.00011253509126063428,
      "loss": 0.4721,
      "step": 22430
    },
    {
      "epoch": 440.0,
      "learning_rate": 0.0001125,
      "loss": 0.4732,
      "step": 22440
    },
    {
      "epoch": 440.0,
      "eval_loss": 0.47832006216049194,
      "eval_runtime": 2.181,
      "eval_samples_per_second": 1044.937,
      "eval_steps_per_second": 4.127,
      "step": 22440
    },
    {
      "epoch": 440.2,
      "learning_rate": 0.00011246489779020203,
      "loss": 0.4754,
      "step": 22450
    },
    {
      "epoch": 440.39,
      "learning_rate": 0.00011242978464148945,
      "loss": 0.4796,
      "step": 22460
    },
    {
      "epoch": 440.59,
      "learning_rate": 0.00011239466056411455,
      "loss": 0.4794,
      "step": 22470
    },
    {
      "epoch": 440.78,
      "learning_rate": 0.00011235952556833274,
      "loss": 0.4781,
      "step": 22480
    },
    {
      "epoch": 440.98,
      "learning_rate": 0.00011232437966440264,
      "loss": 0.4706,
      "step": 22490
    },
    {
      "epoch": 441.0,
      "eval_loss": 0.48102495074272156,
      "eval_runtime": 2.2838,
      "eval_samples_per_second": 997.887,
      "eval_steps_per_second": 3.941,
      "step": 22491
    },
    {
      "epoch": 441.18,
      "learning_rate": 0.00011228922286258613,
      "loss": 0.472,
      "step": 22500
    },
    {
      "epoch": 441.37,
      "learning_rate": 0.00011225405517314813,
      "loss": 0.4749,
      "step": 22510
    },
    {
      "epoch": 441.57,
      "learning_rate": 0.00011221887660635688,
      "loss": 0.479,
      "step": 22520
    },
    {
      "epoch": 441.76,
      "learning_rate": 0.00011218368717248373,
      "loss": 0.4701,
      "step": 22530
    },
    {
      "epoch": 441.96,
      "learning_rate": 0.0001121484868818032,
      "loss": 0.4735,
      "step": 22540
    },
    {
      "epoch": 442.0,
      "eval_loss": 0.477983683347702,
      "eval_runtime": 2.2047,
      "eval_samples_per_second": 1033.722,
      "eval_steps_per_second": 4.082,
      "step": 22542
    },
    {
      "epoch": 442.16,
      "learning_rate": 0.000112113275744593,
      "loss": 0.4774,
      "step": 22550
    },
    {
      "epoch": 442.35,
      "learning_rate": 0.00011207805377113397,
      "loss": 0.4765,
      "step": 22560
    },
    {
      "epoch": 442.55,
      "learning_rate": 0.00011204282097171016,
      "loss": 0.4727,
      "step": 22570
    },
    {
      "epoch": 442.75,
      "learning_rate": 0.0001120075773566088,
      "loss": 0.4713,
      "step": 22580
    },
    {
      "epoch": 442.94,
      "learning_rate": 0.00011197232293612015,
      "loss": 0.4796,
      "step": 22590
    },
    {
      "epoch": 443.0,
      "eval_loss": 0.4880768954753876,
      "eval_runtime": 2.2972,
      "eval_samples_per_second": 992.057,
      "eval_steps_per_second": 3.918,
      "step": 22593
    },
    {
      "epoch": 443.14,
      "learning_rate": 0.0001119370577205378,
      "loss": 0.4796,
      "step": 22600
    },
    {
      "epoch": 443.33,
      "learning_rate": 0.00011190178172015837,
      "loss": 0.4784,
      "step": 22610
    },
    {
      "epoch": 443.53,
      "learning_rate": 0.00011186649494528165,
      "loss": 0.4766,
      "step": 22620
    },
    {
      "epoch": 443.73,
      "learning_rate": 0.00011183119740621062,
      "loss": 0.4778,
      "step": 22630
    },
    {
      "epoch": 443.92,
      "learning_rate": 0.00011179588911325136,
      "loss": 0.4724,
      "step": 22640
    },
    {
      "epoch": 444.0,
      "eval_loss": 0.4784562289714813,
      "eval_runtime": 2.3023,
      "eval_samples_per_second": 989.881,
      "eval_steps_per_second": 3.909,
      "step": 22644
    },
    {
      "epoch": 444.12,
      "learning_rate": 0.0001117605700767131,
      "loss": 0.4807,
      "step": 22650
    },
    {
      "epoch": 444.31,
      "learning_rate": 0.00011172524030690823,
      "loss": 0.4827,
      "step": 22660
    },
    {
      "epoch": 444.51,
      "learning_rate": 0.00011168989981415223,
      "loss": 0.4754,
      "step": 22670
    },
    {
      "epoch": 444.71,
      "learning_rate": 0.00011165454860876375,
      "loss": 0.4823,
      "step": 22680
    },
    {
      "epoch": 444.9,
      "learning_rate": 0.00011161918670106455,
      "loss": 0.4701,
      "step": 22690
    },
    {
      "epoch": 445.0,
      "eval_loss": 0.47529175877571106,
      "eval_runtime": 2.1777,
      "eval_samples_per_second": 1046.517,
      "eval_steps_per_second": 4.133,
      "step": 22695
    },
    {
      "epoch": 445.1,
      "learning_rate": 0.00011158381410137952,
      "loss": 0.4754,
      "step": 22700
    },
    {
      "epoch": 445.29,
      "learning_rate": 0.00011154843082003669,
      "loss": 0.4733,
      "step": 22710
    },
    {
      "epoch": 445.49,
      "learning_rate": 0.00011151303686736717,
      "loss": 0.4736,
      "step": 22720
    },
    {
      "epoch": 445.69,
      "learning_rate": 0.00011147763225370518,
      "loss": 0.4716,
      "step": 22730
    },
    {
      "epoch": 445.88,
      "learning_rate": 0.00011144221698938812,
      "loss": 0.4764,
      "step": 22740
    },
    {
      "epoch": 446.0,
      "eval_loss": 0.47874537110328674,
      "eval_runtime": 2.1189,
      "eval_samples_per_second": 1075.539,
      "eval_steps_per_second": 4.247,
      "step": 22746
    },
    {
      "epoch": 446.08,
      "learning_rate": 0.00011140679108475641,
      "loss": 0.4709,
      "step": 22750
    },
    {
      "epoch": 446.27,
      "learning_rate": 0.0001113713545501537,
      "loss": 0.4714,
      "step": 22760
    },
    {
      "epoch": 446.47,
      "learning_rate": 0.0001113359073959266,
      "loss": 0.4686,
      "step": 22770
    },
    {
      "epoch": 446.67,
      "learning_rate": 0.00011130044963242492,
      "loss": 0.4723,
      "step": 22780
    },
    {
      "epoch": 446.86,
      "learning_rate": 0.0001112649812700015,
      "loss": 0.4729,
      "step": 22790
    },
    {
      "epoch": 447.0,
      "eval_loss": 0.48238447308540344,
      "eval_runtime": 2.236,
      "eval_samples_per_second": 1019.217,
      "eval_steps_per_second": 4.025,
      "step": 22797
    },
    {
      "epoch": 447.06,
      "learning_rate": 0.00011122950231901234,
      "loss": 0.4718,
      "step": 22800
    },
    {
      "epoch": 447.25,
      "learning_rate": 0.00011119401278981652,
      "loss": 0.4718,
      "step": 22810
    },
    {
      "epoch": 447.45,
      "learning_rate": 0.00011115851269277615,
      "loss": 0.4731,
      "step": 22820
    },
    {
      "epoch": 447.65,
      "learning_rate": 0.00011112300203825649,
      "loss": 0.4734,
      "step": 22830
    },
    {
      "epoch": 447.84,
      "learning_rate": 0.00011108748083662589,
      "loss": 0.4726,
      "step": 22840
    },
    {
      "epoch": 448.0,
      "eval_loss": 0.47418108582496643,
      "eval_runtime": 2.2463,
      "eval_samples_per_second": 1014.566,
      "eval_steps_per_second": 4.007,
      "step": 22848
    },
    {
      "epoch": 448.04,
      "learning_rate": 0.00011105194909825568,
      "loss": 0.4732,
      "step": 22850
    },
    {
      "epoch": 448.24,
      "learning_rate": 0.00011101640683352039,
      "loss": 0.4746,
      "step": 22860
    },
    {
      "epoch": 448.43,
      "learning_rate": 0.00011098085405279753,
      "loss": 0.4708,
      "step": 22870
    },
    {
      "epoch": 448.63,
      "learning_rate": 0.00011094529076646774,
      "loss": 0.4745,
      "step": 22880
    },
    {
      "epoch": 448.82,
      "learning_rate": 0.0001109097169849147,
      "loss": 0.4736,
      "step": 22890
    },
    {
      "epoch": 449.0,
      "eval_loss": 0.47750285267829895,
      "eval_runtime": 2.1452,
      "eval_samples_per_second": 1062.363,
      "eval_steps_per_second": 4.195,
      "step": 22899
    },
    {
      "epoch": 449.02,
      "learning_rate": 0.00011087413271852517,
      "loss": 0.4703,
      "step": 22900
    },
    {
      "epoch": 449.22,
      "learning_rate": 0.00011083853797768895,
      "loss": 0.4719,
      "step": 22910
    },
    {
      "epoch": 449.41,
      "learning_rate": 0.00011080293277279894,
      "loss": 0.4737,
      "step": 22920
    },
    {
      "epoch": 449.61,
      "learning_rate": 0.00011076731711425101,
      "loss": 0.4706,
      "step": 22930
    },
    {
      "epoch": 449.8,
      "learning_rate": 0.00011073169101244421,
      "loss": 0.4715,
      "step": 22940
    },
    {
      "epoch": 450.0,
      "learning_rate": 0.00011069605447778052,
      "loss": 0.4764,
      "step": 22950
    },
    {
      "epoch": 450.0,
      "eval_loss": 0.47553837299346924,
      "eval_runtime": 2.1747,
      "eval_samples_per_second": 1047.979,
      "eval_steps_per_second": 4.139,
      "step": 22950
    },
    {
      "epoch": 450.2,
      "learning_rate": 0.00011066040752066499,
      "loss": 0.4765,
      "step": 22960
    },
    {
      "epoch": 450.39,
      "learning_rate": 0.0001106247501515058,
      "loss": 0.4758,
      "step": 22970
    },
    {
      "epoch": 450.59,
      "learning_rate": 0.00011058908238071406,
      "loss": 0.4674,
      "step": 22980
    },
    {
      "epoch": 450.78,
      "learning_rate": 0.000110553404218704,
      "loss": 0.4684,
      "step": 22990
    },
    {
      "epoch": 450.98,
      "learning_rate": 0.0001105177156758928,
      "loss": 0.4701,
      "step": 23000
    },
    {
      "epoch": 451.0,
      "eval_loss": 0.47549954056739807,
      "eval_runtime": 2.2025,
      "eval_samples_per_second": 1034.721,
      "eval_steps_per_second": 4.086,
      "step": 23001
    },
    {
      "epoch": 451.18,
      "learning_rate": 0.00011048201676270076,
      "loss": 0.4771,
      "step": 23010
    },
    {
      "epoch": 451.37,
      "learning_rate": 0.00011044630748955113,
      "loss": 0.4733,
      "step": 23020
    },
    {
      "epoch": 451.57,
      "learning_rate": 0.00011041058786687028,
      "loss": 0.4733,
      "step": 23030
    },
    {
      "epoch": 451.76,
      "learning_rate": 0.00011037485790508745,
      "loss": 0.4714,
      "step": 23040
    },
    {
      "epoch": 451.96,
      "learning_rate": 0.0001103391176146351,
      "loss": 0.4746,
      "step": 23050
    },
    {
      "epoch": 452.0,
      "eval_loss": 0.4750150740146637,
      "eval_runtime": 2.2323,
      "eval_samples_per_second": 1020.924,
      "eval_steps_per_second": 4.032,
      "step": 23052
    },
    {
      "epoch": 452.16,
      "learning_rate": 0.00011030336700594852,
      "loss": 0.4654,
      "step": 23060
    },
    {
      "epoch": 452.35,
      "learning_rate": 0.00011026760608946611,
      "loss": 0.4708,
      "step": 23070
    },
    {
      "epoch": 452.55,
      "learning_rate": 0.00011023183487562929,
      "loss": 0.4726,
      "step": 23080
    },
    {
      "epoch": 452.75,
      "learning_rate": 0.00011019605337488241,
      "loss": 0.4665,
      "step": 23090
    },
    {
      "epoch": 452.94,
      "learning_rate": 0.0001101602615976729,
      "loss": 0.4727,
      "step": 23100
    },
    {
      "epoch": 453.0,
      "eval_loss": 0.47314518690109253,
      "eval_runtime": 2.1703,
      "eval_samples_per_second": 1050.085,
      "eval_steps_per_second": 4.147,
      "step": 23103
    },
    {
      "epoch": 453.14,
      "learning_rate": 0.00011012445955445117,
      "loss": 0.4679,
      "step": 23110
    },
    {
      "epoch": 453.33,
      "learning_rate": 0.00011008864725567059,
      "loss": 0.4682,
      "step": 23120
    },
    {
      "epoch": 453.53,
      "learning_rate": 0.00011005282471178757,
      "loss": 0.4684,
      "step": 23130
    },
    {
      "epoch": 453.73,
      "learning_rate": 0.00011001699193326147,
      "loss": 0.4692,
      "step": 23140
    },
    {
      "epoch": 453.92,
      "learning_rate": 0.00010998114893055469,
      "loss": 0.4691,
      "step": 23150
    },
    {
      "epoch": 454.0,
      "eval_loss": 0.4686477482318878,
      "eval_runtime": 2.3412,
      "eval_samples_per_second": 973.429,
      "eval_steps_per_second": 3.844,
      "step": 23154
    },
    {
      "epoch": 454.12,
      "learning_rate": 0.00010994529571413258,
      "loss": 0.4665,
      "step": 23160
    },
    {
      "epoch": 454.31,
      "learning_rate": 0.00010990943229446346,
      "loss": 0.466,
      "step": 23170
    },
    {
      "epoch": 454.51,
      "learning_rate": 0.0001098735586820187,
      "loss": 0.47,
      "step": 23180
    },
    {
      "epoch": 454.71,
      "learning_rate": 0.00010983767488727253,
      "loss": 0.4683,
      "step": 23190
    },
    {
      "epoch": 454.9,
      "learning_rate": 0.00010980178092070225,
      "loss": 0.4673,
      "step": 23200
    },
    {
      "epoch": 455.0,
      "eval_loss": 0.4761298596858978,
      "eval_runtime": 2.277,
      "eval_samples_per_second": 1000.862,
      "eval_steps_per_second": 3.953,
      "step": 23205
    },
    {
      "epoch": 455.1,
      "learning_rate": 0.00010976587679278812,
      "loss": 0.4718,
      "step": 23210
    },
    {
      "epoch": 455.29,
      "learning_rate": 0.00010972996251401328,
      "loss": 0.4687,
      "step": 23220
    },
    {
      "epoch": 455.49,
      "learning_rate": 0.00010969403809486397,
      "loss": 0.4687,
      "step": 23230
    },
    {
      "epoch": 455.69,
      "learning_rate": 0.0001096581035458293,
      "loss": 0.468,
      "step": 23240
    },
    {
      "epoch": 455.88,
      "learning_rate": 0.00010962215887740132,
      "loss": 0.4726,
      "step": 23250
    },
    {
      "epoch": 456.0,
      "eval_loss": 0.4763098955154419,
      "eval_runtime": 2.1556,
      "eval_samples_per_second": 1057.242,
      "eval_steps_per_second": 4.175,
      "step": 23256
    },
    {
      "epoch": 456.08,
      "learning_rate": 0.00010958620410007513,
      "loss": 0.4706,
      "step": 23260
    },
    {
      "epoch": 456.27,
      "learning_rate": 0.00010955023922434864,
      "loss": 0.4695,
      "step": 23270
    },
    {
      "epoch": 456.47,
      "learning_rate": 0.00010951426426072286,
      "loss": 0.4676,
      "step": 23280
    },
    {
      "epoch": 456.67,
      "learning_rate": 0.00010947827921970169,
      "loss": 0.4688,
      "step": 23290
    },
    {
      "epoch": 456.86,
      "learning_rate": 0.00010944228411179189,
      "loss": 0.4726,
      "step": 23300
    },
    {
      "epoch": 457.0,
      "eval_loss": 0.4806825816631317,
      "eval_runtime": 2.1723,
      "eval_samples_per_second": 1049.096,
      "eval_steps_per_second": 4.143,
      "step": 23307
    },
    {
      "epoch": 457.06,
      "learning_rate": 0.00010940627894750328,
      "loss": 0.4692,
      "step": 23310
    },
    {
      "epoch": 457.25,
      "learning_rate": 0.00010937026373734856,
      "loss": 0.478,
      "step": 23320
    },
    {
      "epoch": 457.45,
      "learning_rate": 0.00010933423849184336,
      "loss": 0.4758,
      "step": 23330
    },
    {
      "epoch": 457.65,
      "learning_rate": 0.00010929820322150624,
      "loss": 0.4698,
      "step": 23340
    },
    {
      "epoch": 457.84,
      "learning_rate": 0.00010926215793685869,
      "loss": 0.4696,
      "step": 23350
    },
    {
      "epoch": 458.0,
      "eval_loss": 0.4738100469112396,
      "eval_runtime": 2.3236,
      "eval_samples_per_second": 980.81,
      "eval_steps_per_second": 3.873,
      "step": 23358
    },
    {
      "epoch": 458.04,
      "learning_rate": 0.00010922610264842516,
      "loss": 0.4709,
      "step": 23360
    },
    {
      "epoch": 458.24,
      "learning_rate": 0.00010919003736673297,
      "loss": 0.4675,
      "step": 23370
    },
    {
      "epoch": 458.43,
      "learning_rate": 0.00010915396210231239,
      "loss": 0.4716,
      "step": 23380
    },
    {
      "epoch": 458.63,
      "learning_rate": 0.00010911787686569658,
      "loss": 0.4712,
      "step": 23390
    },
    {
      "epoch": 458.82,
      "learning_rate": 0.00010908178166742161,
      "loss": 0.4689,
      "step": 23400
    },
    {
      "epoch": 459.0,
      "eval_loss": 0.4727371335029602,
      "eval_runtime": 2.3226,
      "eval_samples_per_second": 981.246,
      "eval_steps_per_second": 3.875,
      "step": 23409
    },
    {
      "epoch": 459.02,
      "learning_rate": 0.0001090456765180265,
      "loss": 0.4678,
      "step": 23410
    },
    {
      "epoch": 459.22,
      "learning_rate": 0.00010900956142805315,
      "loss": 0.4697,
      "step": 23420
    },
    {
      "epoch": 459.41,
      "learning_rate": 0.00010897343640804634,
      "loss": 0.472,
      "step": 23430
    },
    {
      "epoch": 459.61,
      "learning_rate": 0.00010893730146855378,
      "loss": 0.4685,
      "step": 23440
    },
    {
      "epoch": 459.8,
      "learning_rate": 0.00010890115662012607,
      "loss": 0.4681,
      "step": 23450
    },
    {
      "epoch": 460.0,
      "learning_rate": 0.0001088650018733167,
      "loss": 0.4702,
      "step": 23460
    },
    {
      "epoch": 460.0,
      "eval_loss": 0.479326456785202,
      "eval_runtime": 2.2444,
      "eval_samples_per_second": 1015.425,
      "eval_steps_per_second": 4.01,
      "step": 23460
    },
    {
      "epoch": 460.2,
      "learning_rate": 0.00010882883723868205,
      "loss": 0.4758,
      "step": 23470
    },
    {
      "epoch": 460.39,
      "learning_rate": 0.00010879266272678136,
      "loss": 0.4722,
      "step": 23480
    },
    {
      "epoch": 460.59,
      "learning_rate": 0.00010875647834817681,
      "loss": 0.4707,
      "step": 23490
    },
    {
      "epoch": 460.78,
      "learning_rate": 0.00010872028411343344,
      "loss": 0.4692,
      "step": 23500
    },
    {
      "epoch": 460.98,
      "learning_rate": 0.00010868408003311912,
      "loss": 0.4692,
      "step": 23510
    },
    {
      "epoch": 461.0,
      "eval_loss": 0.4696498513221741,
      "eval_runtime": 2.2495,
      "eval_samples_per_second": 1013.127,
      "eval_steps_per_second": 4.001,
      "step": 23511
    },
    {
      "epoch": 461.18,
      "learning_rate": 0.00010864786611780469,
      "loss": 0.4652,
      "step": 23520
    },
    {
      "epoch": 461.37,
      "learning_rate": 0.00010861164237806375,
      "loss": 0.468,
      "step": 23530
    },
    {
      "epoch": 461.57,
      "learning_rate": 0.00010857540882447286,
      "loss": 0.4651,
      "step": 23540
    },
    {
      "epoch": 461.76,
      "learning_rate": 0.0001085391654676114,
      "loss": 0.4701,
      "step": 23550
    },
    {
      "epoch": 461.96,
      "learning_rate": 0.00010850291231806159,
      "loss": 0.4694,
      "step": 23560
    },
    {
      "epoch": 462.0,
      "eval_loss": 0.47131288051605225,
      "eval_runtime": 2.2683,
      "eval_samples_per_second": 1004.726,
      "eval_steps_per_second": 3.968,
      "step": 23562
    },
    {
      "epoch": 462.16,
      "learning_rate": 0.00010846664938640861,
      "loss": 0.4661,
      "step": 23570
    },
    {
      "epoch": 462.35,
      "learning_rate": 0.00010843037668324038,
      "loss": 0.4732,
      "step": 23580
    },
    {
      "epoch": 462.55,
      "learning_rate": 0.00010839409421914771,
      "loss": 0.4709,
      "step": 23590
    },
    {
      "epoch": 462.75,
      "learning_rate": 0.00010835780200472429,
      "loss": 0.4654,
      "step": 23600
    },
    {
      "epoch": 462.94,
      "learning_rate": 0.00010832150005056665,
      "loss": 0.4628,
      "step": 23610
    },
    {
      "epoch": 463.0,
      "eval_loss": 0.47472110390663147,
      "eval_runtime": 2.2214,
      "eval_samples_per_second": 1025.941,
      "eval_steps_per_second": 4.052,
      "step": 23613
    },
    {
      "epoch": 463.14,
      "learning_rate": 0.00010828518836727413,
      "loss": 0.4711,
      "step": 23620
    },
    {
      "epoch": 463.33,
      "learning_rate": 0.00010824886696544895,
      "loss": 0.4662,
      "step": 23630
    },
    {
      "epoch": 463.53,
      "learning_rate": 0.00010821253585569609,
      "loss": 0.471,
      "step": 23640
    },
    {
      "epoch": 463.73,
      "learning_rate": 0.00010817619504862352,
      "loss": 0.4736,
      "step": 23650
    },
    {
      "epoch": 463.92,
      "learning_rate": 0.00010813984455484189,
      "loss": 0.4677,
      "step": 23660
    },
    {
      "epoch": 464.0,
      "eval_loss": 0.4787036180496216,
      "eval_runtime": 2.1739,
      "eval_samples_per_second": 1048.334,
      "eval_steps_per_second": 4.14,
      "step": 23664
    },
    {
      "epoch": 464.12,
      "learning_rate": 0.00010810348438496473,
      "loss": 0.472,
      "step": 23670
    },
    {
      "epoch": 464.31,
      "learning_rate": 0.00010806711454960843,
      "loss": 0.4654,
      "step": 23680
    },
    {
      "epoch": 464.51,
      "learning_rate": 0.00010803073505939212,
      "loss": 0.4696,
      "step": 23690
    },
    {
      "epoch": 464.71,
      "learning_rate": 0.00010799434592493785,
      "loss": 0.467,
      "step": 23700
    },
    {
      "epoch": 464.9,
      "learning_rate": 0.0001079579471568704,
      "loss": 0.4673,
      "step": 23710
    },
    {
      "epoch": 465.0,
      "eval_loss": 0.4681728184223175,
      "eval_runtime": 2.1469,
      "eval_samples_per_second": 1061.532,
      "eval_steps_per_second": 4.192,
      "step": 23715
    },
    {
      "epoch": 465.1,
      "learning_rate": 0.00010792153876581743,
      "loss": 0.4626,
      "step": 23720
    },
    {
      "epoch": 465.29,
      "learning_rate": 0.00010788512076240935,
      "loss": 0.4646,
      "step": 23730
    },
    {
      "epoch": 465.49,
      "learning_rate": 0.00010784869315727942,
      "loss": 0.4706,
      "step": 23740
    },
    {
      "epoch": 465.69,
      "learning_rate": 0.0001078122559610637,
      "loss": 0.4601,
      "step": 23750
    },
    {
      "epoch": 465.88,
      "learning_rate": 0.000107775809184401,
      "loss": 0.4709,
      "step": 23760
    },
    {
      "epoch": 466.0,
      "eval_loss": 0.4692438542842865,
      "eval_runtime": 2.3021,
      "eval_samples_per_second": 989.952,
      "eval_steps_per_second": 3.909,
      "step": 23766
    },
    {
      "epoch": 466.08,
      "learning_rate": 0.00010773935283793298,
      "loss": 0.4682,
      "step": 23770
    },
    {
      "epoch": 466.27,
      "learning_rate": 0.00010770288693230411,
      "loss": 0.4682,
      "step": 23780
    },
    {
      "epoch": 466.47,
      "learning_rate": 0.00010766641147816161,
      "loss": 0.4669,
      "step": 23790
    },
    {
      "epoch": 466.67,
      "learning_rate": 0.00010762992648615548,
      "loss": 0.4654,
      "step": 23800
    },
    {
      "epoch": 466.86,
      "learning_rate": 0.00010759343196693854,
      "loss": 0.463,
      "step": 23810
    },
    {
      "epoch": 467.0,
      "eval_loss": 0.46763309836387634,
      "eval_runtime": 2.1636,
      "eval_samples_per_second": 1053.34,
      "eval_steps_per_second": 4.16,
      "step": 23817
    },
    {
      "epoch": 467.06,
      "learning_rate": 0.00010755692793116637,
      "loss": 0.4643,
      "step": 23820
    },
    {
      "epoch": 467.25,
      "learning_rate": 0.00010752041438949733,
      "loss": 0.4676,
      "step": 23830
    },
    {
      "epoch": 467.45,
      "learning_rate": 0.00010748389135259255,
      "loss": 0.4628,
      "step": 23840
    },
    {
      "epoch": 467.65,
      "learning_rate": 0.00010744735883111596,
      "loss": 0.4687,
      "step": 23850
    },
    {
      "epoch": 467.84,
      "learning_rate": 0.00010741081683573427,
      "loss": 0.4654,
      "step": 23860
    },
    {
      "epoch": 468.0,
      "eval_loss": 0.4696432054042816,
      "eval_runtime": 2.3135,
      "eval_samples_per_second": 985.094,
      "eval_steps_per_second": 3.89,
      "step": 23868
    },
    {
      "epoch": 468.04,
      "learning_rate": 0.00010737426537711687,
      "loss": 0.4669,
      "step": 23870
    },
    {
      "epoch": 468.24,
      "learning_rate": 0.00010733770446593599,
      "loss": 0.4703,
      "step": 23880
    },
    {
      "epoch": 468.43,
      "learning_rate": 0.00010730113411286661,
      "loss": 0.4674,
      "step": 23890
    },
    {
      "epoch": 468.63,
      "learning_rate": 0.00010726455432858645,
      "loss": 0.4677,
      "step": 23900
    },
    {
      "epoch": 468.82,
      "learning_rate": 0.000107227965123776,
      "loss": 0.4648,
      "step": 23910
    },
    {
      "epoch": 469.0,
      "eval_loss": 0.46745070815086365,
      "eval_runtime": 2.136,
      "eval_samples_per_second": 1066.943,
      "eval_steps_per_second": 4.213,
      "step": 23919
    },
    {
      "epoch": 469.02,
      "learning_rate": 0.0001071913665091185,
      "loss": 0.4628,
      "step": 23920
    },
    {
      "epoch": 469.22,
      "learning_rate": 0.0001071547584952999,
      "loss": 0.4594,
      "step": 23930
    },
    {
      "epoch": 469.41,
      "learning_rate": 0.00010711814109300897,
      "loss": 0.4666,
      "step": 23940
    },
    {
      "epoch": 469.61,
      "learning_rate": 0.0001070815143129371,
      "loss": 0.4666,
      "step": 23950
    },
    {
      "epoch": 469.8,
      "learning_rate": 0.00010704487816577857,
      "loss": 0.462,
      "step": 23960
    },
    {
      "epoch": 470.0,
      "learning_rate": 0.00010700823266223026,
      "loss": 0.4642,
      "step": 23970
    },
    {
      "epoch": 470.0,
      "eval_loss": 0.4700300395488739,
      "eval_runtime": 2.281,
      "eval_samples_per_second": 999.12,
      "eval_steps_per_second": 3.946,
      "step": 23970
    },
    {
      "epoch": 470.2,
      "learning_rate": 0.00010697157781299187,
      "loss": 0.4698,
      "step": 23980
    },
    {
      "epoch": 470.39,
      "learning_rate": 0.00010693491362876583,
      "loss": 0.4675,
      "step": 23990
    },
    {
      "epoch": 470.59,
      "learning_rate": 0.0001068982401202572,
      "loss": 0.4652,
      "step": 24000
    },
    {
      "epoch": 470.78,
      "learning_rate": 0.00010686155729817386,
      "loss": 0.4582,
      "step": 24010
    },
    {
      "epoch": 470.98,
      "learning_rate": 0.00010682486517322637,
      "loss": 0.4687,
      "step": 24020
    },
    {
      "epoch": 471.0,
      "eval_loss": 0.46906590461730957,
      "eval_runtime": 2.2917,
      "eval_samples_per_second": 994.474,
      "eval_steps_per_second": 3.927,
      "step": 24021
    },
    {
      "epoch": 471.18,
      "learning_rate": 0.000106788163756128,
      "loss": 0.4654,
      "step": 24030
    },
    {
      "epoch": 471.37,
      "learning_rate": 0.00010675145305759477,
      "loss": 0.4646,
      "step": 24040
    },
    {
      "epoch": 471.57,
      "learning_rate": 0.00010671473308834538,
      "loss": 0.4708,
      "step": 24050
    },
    {
      "epoch": 471.76,
      "learning_rate": 0.00010667800385910123,
      "loss": 0.4675,
      "step": 24060
    },
    {
      "epoch": 471.96,
      "learning_rate": 0.00010664126538058645,
      "loss": 0.469,
      "step": 24070
    },
    {
      "epoch": 472.0,
      "eval_loss": 0.4749109745025635,
      "eval_runtime": 2.2452,
      "eval_samples_per_second": 1015.044,
      "eval_steps_per_second": 4.009,
      "step": 24072
    },
    {
      "epoch": 472.16,
      "learning_rate": 0.0001066045176635278,
      "loss": 0.4687,
      "step": 24080
    },
    {
      "epoch": 472.35,
      "learning_rate": 0.0001065677607186549,
      "loss": 0.4688,
      "step": 24090
    },
    {
      "epoch": 472.55,
      "learning_rate": 0.00010653099455669988,
      "loss": 0.4732,
      "step": 24100
    },
    {
      "epoch": 472.75,
      "learning_rate": 0.00010649421918839764,
      "loss": 0.4664,
      "step": 24110
    },
    {
      "epoch": 472.94,
      "learning_rate": 0.0001064574346244858,
      "loss": 0.4692,
      "step": 24120
    },
    {
      "epoch": 473.0,
      "eval_loss": 0.4672113358974457,
      "eval_runtime": 2.1455,
      "eval_samples_per_second": 1062.232,
      "eval_steps_per_second": 4.195,
      "step": 24123
    },
    {
      "epoch": 473.14,
      "learning_rate": 0.00010642064087570464,
      "loss": 0.4617,
      "step": 24130
    },
    {
      "epoch": 473.33,
      "learning_rate": 0.00010638383795279706,
      "loss": 0.4674,
      "step": 24140
    },
    {
      "epoch": 473.53,
      "learning_rate": 0.00010634702586650875,
      "loss": 0.4667,
      "step": 24150
    },
    {
      "epoch": 473.73,
      "learning_rate": 0.00010631020462758798,
      "loss": 0.4658,
      "step": 24160
    },
    {
      "epoch": 473.92,
      "learning_rate": 0.00010627337424678576,
      "loss": 0.4635,
      "step": 24170
    },
    {
      "epoch": 474.0,
      "eval_loss": 0.4706786870956421,
      "eval_runtime": 2.1628,
      "eval_samples_per_second": 1053.708,
      "eval_steps_per_second": 4.161,
      "step": 24174
    },
    {
      "epoch": 474.12,
      "learning_rate": 0.0001062365347348557,
      "loss": 0.4611,
      "step": 24180
    },
    {
      "epoch": 474.31,
      "learning_rate": 0.00010619968610255416,
      "loss": 0.4698,
      "step": 24190
    },
    {
      "epoch": 474.51,
      "learning_rate": 0.00010616282836064008,
      "loss": 0.4638,
      "step": 24200
    },
    {
      "epoch": 474.71,
      "learning_rate": 0.00010612596151987513,
      "loss": 0.4641,
      "step": 24210
    },
    {
      "epoch": 474.9,
      "learning_rate": 0.00010608908559102359,
      "loss": 0.4635,
      "step": 24220
    },
    {
      "epoch": 475.0,
      "eval_loss": 0.46961140632629395,
      "eval_runtime": 2.3372,
      "eval_samples_per_second": 975.091,
      "eval_steps_per_second": 3.851,
      "step": 24225
    },
    {
      "epoch": 475.1,
      "learning_rate": 0.0001060522005848524,
      "loss": 0.4676,
      "step": 24230
    },
    {
      "epoch": 475.29,
      "learning_rate": 0.00010601530651213118,
      "loss": 0.4638,
      "step": 24240
    },
    {
      "epoch": 475.49,
      "learning_rate": 0.00010597840338363216,
      "loss": 0.4637,
      "step": 24250
    },
    {
      "epoch": 475.69,
      "learning_rate": 0.00010594149121013026,
      "loss": 0.4719,
      "step": 24260
    },
    {
      "epoch": 475.88,
      "learning_rate": 0.00010590457000240298,
      "loss": 0.4655,
      "step": 24270
    },
    {
      "epoch": 476.0,
      "eval_loss": 0.46518537402153015,
      "eval_runtime": 2.3011,
      "eval_samples_per_second": 990.409,
      "eval_steps_per_second": 3.911,
      "step": 24276
    },
    {
      "epoch": 476.08,
      "learning_rate": 0.0001058676397712305,
      "loss": 0.4668,
      "step": 24280
    },
    {
      "epoch": 476.27,
      "learning_rate": 0.00010583070052739558,
      "loss": 0.4618,
      "step": 24290
    },
    {
      "epoch": 476.47,
      "learning_rate": 0.00010579375228168375,
      "loss": 0.471,
      "step": 24300
    },
    {
      "epoch": 476.67,
      "learning_rate": 0.000105756795044883,
      "loss": 0.4621,
      "step": 24310
    },
    {
      "epoch": 476.86,
      "learning_rate": 0.00010571982882778404,
      "loss": 0.4633,
      "step": 24320
    },
    {
      "epoch": 477.0,
      "eval_loss": 0.47023797035217285,
      "eval_runtime": 2.2428,
      "eval_samples_per_second": 1016.149,
      "eval_steps_per_second": 4.013,
      "step": 24327
    },
    {
      "epoch": 477.06,
      "learning_rate": 0.00010568285364118019,
      "loss": 0.4672,
      "step": 24330
    },
    {
      "epoch": 477.25,
      "learning_rate": 0.00010564586949586735,
      "loss": 0.4653,
      "step": 24340
    },
    {
      "epoch": 477.45,
      "learning_rate": 0.00010560887640264411,
      "loss": 0.4642,
      "step": 24350
    },
    {
      "epoch": 477.65,
      "learning_rate": 0.0001055718743723116,
      "loss": 0.463,
      "step": 24360
    },
    {
      "epoch": 477.84,
      "learning_rate": 0.00010553486341567358,
      "loss": 0.4622,
      "step": 24370
    },
    {
      "epoch": 478.0,
      "eval_loss": 0.46373993158340454,
      "eval_runtime": 2.2432,
      "eval_samples_per_second": 1015.964,
      "eval_steps_per_second": 4.012,
      "step": 24378
    },
    {
      "epoch": 478.04,
      "learning_rate": 0.00010549784354353645,
      "loss": 0.4653,
      "step": 24380
    },
    {
      "epoch": 478.24,
      "learning_rate": 0.00010546081476670916,
      "loss": 0.4636,
      "step": 24390
    },
    {
      "epoch": 478.43,
      "learning_rate": 0.0001054237770960033,
      "loss": 0.4671,
      "step": 24400
    },
    {
      "epoch": 478.63,
      "learning_rate": 0.00010538673054223307,
      "loss": 0.4628,
      "step": 24410
    },
    {
      "epoch": 478.82,
      "learning_rate": 0.00010534967511621517,
      "loss": 0.4571,
      "step": 24420
    },
    {
      "epoch": 479.0,
      "eval_loss": 0.4678489565849304,
      "eval_runtime": 2.1558,
      "eval_samples_per_second": 1057.143,
      "eval_steps_per_second": 4.175,
      "step": 24429
    },
    {
      "epoch": 479.02,
      "learning_rate": 0.00010531261082876903,
      "loss": 0.4718,
      "step": 24430
    },
    {
      "epoch": 479.22,
      "learning_rate": 0.00010527553769071657,
      "loss": 0.4683,
      "step": 24440
    },
    {
      "epoch": 479.41,
      "learning_rate": 0.00010523845571288229,
      "loss": 0.4668,
      "step": 24450
    },
    {
      "epoch": 479.61,
      "learning_rate": 0.00010520136490609335,
      "loss": 0.4611,
      "step": 24460
    },
    {
      "epoch": 479.8,
      "learning_rate": 0.00010516426528117939,
      "loss": 0.4606,
      "step": 24470
    },
    {
      "epoch": 480.0,
      "learning_rate": 0.0001051271568489727,
      "loss": 0.4645,
      "step": 24480
    },
    {
      "epoch": 480.0,
      "eval_loss": 0.46348774433135986,
      "eval_runtime": 2.2724,
      "eval_samples_per_second": 1002.887,
      "eval_steps_per_second": 3.961,
      "step": 24480
    },
    {
      "epoch": 480.2,
      "learning_rate": 0.00010509003962030813,
      "loss": 0.4638,
      "step": 24490
    },
    {
      "epoch": 480.39,
      "learning_rate": 0.00010505291360602302,
      "loss": 0.4716,
      "step": 24500
    },
    {
      "epoch": 480.59,
      "learning_rate": 0.00010501577881695744,
      "loss": 0.465,
      "step": 24510
    },
    {
      "epoch": 480.78,
      "learning_rate": 0.00010497863526395384,
      "loss": 0.459,
      "step": 24520
    },
    {
      "epoch": 480.98,
      "learning_rate": 0.0001049414829578573,
      "loss": 0.4654,
      "step": 24530
    },
    {
      "epoch": 481.0,
      "eval_loss": 0.4655218720436096,
      "eval_runtime": 2.1945,
      "eval_samples_per_second": 1038.497,
      "eval_steps_per_second": 4.101,
      "step": 24531
    },
    {
      "epoch": 481.18,
      "learning_rate": 0.00010490432190951555,
      "loss": 0.4653,
      "step": 24540
    },
    {
      "epoch": 481.37,
      "learning_rate": 0.00010486715212977869,
      "loss": 0.4632,
      "step": 24550
    },
    {
      "epoch": 481.57,
      "learning_rate": 0.00010482997362949951,
      "loss": 0.46,
      "step": 24560
    },
    {
      "epoch": 481.76,
      "learning_rate": 0.00010479278641953334,
      "loss": 0.4667,
      "step": 24570
    },
    {
      "epoch": 481.96,
      "learning_rate": 0.00010475559051073795,
      "loss": 0.4588,
      "step": 24580
    },
    {
      "epoch": 482.0,
      "eval_loss": 0.4688310921192169,
      "eval_runtime": 2.2239,
      "eval_samples_per_second": 1024.76,
      "eval_steps_per_second": 4.047,
      "step": 24582
    },
    {
      "epoch": 482.16,
      "learning_rate": 0.00010471838591397375,
      "loss": 0.4668,
      "step": 24590
    },
    {
      "epoch": 482.35,
      "learning_rate": 0.00010468117264010365,
      "loss": 0.461,
      "step": 24600
    },
    {
      "epoch": 482.55,
      "learning_rate": 0.0001046439506999931,
      "loss": 0.4644,
      "step": 24610
    },
    {
      "epoch": 482.75,
      "learning_rate": 0.00010460672010451007,
      "loss": 0.4635,
      "step": 24620
    },
    {
      "epoch": 482.94,
      "learning_rate": 0.00010456948086452506,
      "loss": 0.4608,
      "step": 24630
    },
    {
      "epoch": 483.0,
      "eval_loss": 0.4639376103878021,
      "eval_runtime": 2.1825,
      "eval_samples_per_second": 1044.2,
      "eval_steps_per_second": 4.124,
      "step": 24633
    },
    {
      "epoch": 483.14,
      "learning_rate": 0.00010453223299091109,
      "loss": 0.4648,
      "step": 24640
    },
    {
      "epoch": 483.33,
      "learning_rate": 0.00010449497649454372,
      "loss": 0.4604,
      "step": 24650
    },
    {
      "epoch": 483.53,
      "learning_rate": 0.00010445771138630103,
      "loss": 0.4682,
      "step": 24660
    },
    {
      "epoch": 483.73,
      "learning_rate": 0.00010442043767706357,
      "loss": 0.4593,
      "step": 24670
    },
    {
      "epoch": 483.92,
      "learning_rate": 0.00010438315537771447,
      "loss": 0.4606,
      "step": 24680
    },
    {
      "epoch": 484.0,
      "eval_loss": 0.4653979241847992,
      "eval_runtime": 2.1706,
      "eval_samples_per_second": 1049.951,
      "eval_steps_per_second": 4.146,
      "step": 24684
    },
    {
      "epoch": 484.12,
      "learning_rate": 0.0001043458644991393,
      "loss": 0.4604,
      "step": 24690
    },
    {
      "epoch": 484.31,
      "learning_rate": 0.00010430856505222615,
      "loss": 0.4633,
      "step": 24700
    },
    {
      "epoch": 484.51,
      "learning_rate": 0.00010427125704786566,
      "loss": 0.4568,
      "step": 24710
    },
    {
      "epoch": 484.71,
      "learning_rate": 0.00010423394049695094,
      "loss": 0.4643,
      "step": 24720
    },
    {
      "epoch": 484.9,
      "learning_rate": 0.00010419661541037757,
      "loss": 0.4624,
      "step": 24730
    },
    {
      "epoch": 485.0,
      "eval_loss": 0.46611276268959045,
      "eval_runtime": 2.1771,
      "eval_samples_per_second": 1046.812,
      "eval_steps_per_second": 4.134,
      "step": 24735
    },
    {
      "epoch": 485.1,
      "learning_rate": 0.00010415928179904363,
      "loss": 0.4584,
      "step": 24740
    },
    {
      "epoch": 485.29,
      "learning_rate": 0.00010412193967384975,
      "loss": 0.4598,
      "step": 24750
    },
    {
      "epoch": 485.49,
      "learning_rate": 0.00010408458904569895,
      "loss": 0.4652,
      "step": 24760
    },
    {
      "epoch": 485.69,
      "learning_rate": 0.00010404722992549679,
      "loss": 0.4618,
      "step": 24770
    },
    {
      "epoch": 485.88,
      "learning_rate": 0.00010400986232415133,
      "loss": 0.4612,
      "step": 24780
    },
    {
      "epoch": 486.0,
      "eval_loss": 0.4668976664543152,
      "eval_runtime": 2.2071,
      "eval_samples_per_second": 1032.556,
      "eval_steps_per_second": 4.078,
      "step": 24786
    },
    {
      "epoch": 486.08,
      "learning_rate": 0.00010397248625257304,
      "loss": 0.4547,
      "step": 24790
    },
    {
      "epoch": 486.27,
      "learning_rate": 0.0001039351017216749,
      "loss": 0.4597,
      "step": 24800
    },
    {
      "epoch": 486.47,
      "learning_rate": 0.00010389770874237239,
      "loss": 0.4615,
      "step": 24810
    },
    {
      "epoch": 486.67,
      "learning_rate": 0.00010386030732558342,
      "loss": 0.4635,
      "step": 24820
    },
    {
      "epoch": 486.86,
      "learning_rate": 0.00010382289748222834,
      "loss": 0.46,
      "step": 24830
    },
    {
      "epoch": 487.0,
      "eval_loss": 0.4653010666370392,
      "eval_runtime": 2.233,
      "eval_samples_per_second": 1020.607,
      "eval_steps_per_second": 4.03,
      "step": 24837
    },
    {
      "epoch": 487.06,
      "learning_rate": 0.00010378547922323,
      "loss": 0.4602,
      "step": 24840
    },
    {
      "epoch": 487.25,
      "learning_rate": 0.00010374805255951372,
      "loss": 0.4638,
      "step": 24850
    },
    {
      "epoch": 487.45,
      "learning_rate": 0.00010371061750200723,
      "loss": 0.4647,
      "step": 24860
    },
    {
      "epoch": 487.65,
      "learning_rate": 0.00010367317406164075,
      "loss": 0.4633,
      "step": 24870
    },
    {
      "epoch": 487.84,
      "learning_rate": 0.00010363572224934692,
      "loss": 0.4623,
      "step": 24880
    },
    {
      "epoch": 488.0,
      "eval_loss": 0.468781054019928,
      "eval_runtime": 2.2652,
      "eval_samples_per_second": 1006.101,
      "eval_steps_per_second": 3.973,
      "step": 24888
    },
    {
      "epoch": 488.04,
      "learning_rate": 0.00010359826207606081,
      "loss": 0.4618,
      "step": 24890
    },
    {
      "epoch": 488.24,
      "learning_rate": 0.00010356079355272,
      "loss": 0.4628,
      "step": 24900
    },
    {
      "epoch": 488.43,
      "learning_rate": 0.00010352331669026443,
      "loss": 0.4608,
      "step": 24910
    },
    {
      "epoch": 488.63,
      "learning_rate": 0.0001034858314996365,
      "loss": 0.4598,
      "step": 24920
    },
    {
      "epoch": 488.82,
      "learning_rate": 0.00010344833799178109,
      "loss": 0.4648,
      "step": 24930
    },
    {
      "epoch": 489.0,
      "eval_loss": 0.464847594499588,
      "eval_runtime": 2.2742,
      "eval_samples_per_second": 1002.105,
      "eval_steps_per_second": 3.957,
      "step": 24939
    },
    {
      "epoch": 489.02,
      "learning_rate": 0.00010341083617764545,
      "loss": 0.4605,
      "step": 24940
    },
    {
      "epoch": 489.22,
      "learning_rate": 0.00010337332606817925,
      "loss": 0.4586,
      "step": 24950
    },
    {
      "epoch": 489.41,
      "learning_rate": 0.00010333580767433465,
      "loss": 0.4569,
      "step": 24960
    },
    {
      "epoch": 489.61,
      "learning_rate": 0.00010329828100706613,
      "loss": 0.4621,
      "step": 24970
    },
    {
      "epoch": 489.8,
      "learning_rate": 0.00010326074607733068,
      "loss": 0.4627,
      "step": 24980
    },
    {
      "epoch": 490.0,
      "learning_rate": 0.00010322320289608766,
      "loss": 0.4602,
      "step": 24990
    },
    {
      "epoch": 490.0,
      "eval_loss": 0.46202248334884644,
      "eval_runtime": 2.2413,
      "eval_samples_per_second": 1016.833,
      "eval_steps_per_second": 4.016,
      "step": 24990
    },
    {
      "epoch": 490.2,
      "learning_rate": 0.0001031856514742988,
      "loss": 0.4667,
      "step": 25000
    },
    {
      "epoch": 490.39,
      "learning_rate": 0.00010314809182292835,
      "loss": 0.4642,
      "step": 25010
    },
    {
      "epoch": 490.59,
      "learning_rate": 0.00010311052395294285,
      "loss": 0.4599,
      "step": 25020
    },
    {
      "epoch": 490.78,
      "learning_rate": 0.00010307294787531127,
      "loss": 0.4623,
      "step": 25030
    },
    {
      "epoch": 490.98,
      "learning_rate": 0.00010303536360100501,
      "loss": 0.4587,
      "step": 25040
    },
    {
      "epoch": 491.0,
      "eval_loss": 0.46522802114486694,
      "eval_runtime": 2.2035,
      "eval_samples_per_second": 1034.275,
      "eval_steps_per_second": 4.084,
      "step": 25041
    },
    {
      "epoch": 491.18,
      "learning_rate": 0.0001029977711409978,
      "loss": 0.4634,
      "step": 25050
    },
    {
      "epoch": 491.37,
      "learning_rate": 0.00010296017050626583,
      "loss": 0.4635,
      "step": 25060
    },
    {
      "epoch": 491.57,
      "learning_rate": 0.00010292256170778768,
      "loss": 0.46,
      "step": 25070
    },
    {
      "epoch": 491.76,
      "learning_rate": 0.0001028849447565442,
      "loss": 0.4615,
      "step": 25080
    },
    {
      "epoch": 491.96,
      "learning_rate": 0.00010284731966351879,
      "loss": 0.4627,
      "step": 25090
    },
    {
      "epoch": 492.0,
      "eval_loss": 0.46937766671180725,
      "eval_runtime": 2.2693,
      "eval_samples_per_second": 1004.287,
      "eval_steps_per_second": 3.966,
      "step": 25092
    },
    {
      "epoch": 492.16,
      "learning_rate": 0.00010280968643969705,
      "loss": 0.4662,
      "step": 25100
    },
    {
      "epoch": 492.35,
      "learning_rate": 0.00010277204509606712,
      "loss": 0.4631,
      "step": 25110
    },
    {
      "epoch": 492.55,
      "learning_rate": 0.0001027343956436194,
      "loss": 0.4627,
      "step": 25120
    },
    {
      "epoch": 492.75,
      "learning_rate": 0.00010269673809334665,
      "loss": 0.4622,
      "step": 25130
    },
    {
      "epoch": 492.94,
      "learning_rate": 0.00010265907245624411,
      "loss": 0.4638,
      "step": 25140
    },
    {
      "epoch": 493.0,
      "eval_loss": 0.4619758725166321,
      "eval_runtime": 2.1822,
      "eval_samples_per_second": 1044.355,
      "eval_steps_per_second": 4.124,
      "step": 25143
    },
    {
      "epoch": 493.14,
      "learning_rate": 0.00010262139874330926,
      "loss": 0.4589,
      "step": 25150
    },
    {
      "epoch": 493.33,
      "learning_rate": 0.00010258371696554199,
      "loss": 0.4604,
      "step": 25160
    },
    {
      "epoch": 493.53,
      "learning_rate": 0.00010254602713394455,
      "loss": 0.4613,
      "step": 25170
    },
    {
      "epoch": 493.73,
      "learning_rate": 0.0001025083292595215,
      "loss": 0.4568,
      "step": 25180
    },
    {
      "epoch": 493.92,
      "learning_rate": 0.00010247062335327983,
      "loss": 0.4565,
      "step": 25190
    },
    {
      "epoch": 494.0,
      "eval_loss": 0.4652526378631592,
      "eval_runtime": 2.2708,
      "eval_samples_per_second": 1003.596,
      "eval_steps_per_second": 3.963,
      "step": 25194
    },
    {
      "epoch": 494.12,
      "learning_rate": 0.00010243290942622879,
      "loss": 0.462,
      "step": 25200
    },
    {
      "epoch": 494.31,
      "learning_rate": 0.00010239518748937999,
      "loss": 0.4635,
      "step": 25210
    },
    {
      "epoch": 494.51,
      "learning_rate": 0.00010235745755374745,
      "loss": 0.4616,
      "step": 25220
    },
    {
      "epoch": 494.71,
      "learning_rate": 0.0001023197196303474,
      "loss": 0.4571,
      "step": 25230
    },
    {
      "epoch": 494.9,
      "learning_rate": 0.00010228197373019853,
      "loss": 0.4588,
      "step": 25240
    },
    {
      "epoch": 495.0,
      "eval_loss": 0.45982059836387634,
      "eval_runtime": 2.3244,
      "eval_samples_per_second": 980.453,
      "eval_steps_per_second": 3.872,
      "step": 25245
    },
    {
      "epoch": 495.1,
      "learning_rate": 0.00010224421986432178,
      "loss": 0.4594,
      "step": 25250
    },
    {
      "epoch": 495.29,
      "learning_rate": 0.0001022064580437404,
      "loss": 0.4618,
      "step": 25260
    },
    {
      "epoch": 495.49,
      "learning_rate": 0.00010216868827948008,
      "loss": 0.4567,
      "step": 25270
    },
    {
      "epoch": 495.69,
      "learning_rate": 0.00010213091058256868,
      "loss": 0.4546,
      "step": 25280
    },
    {
      "epoch": 495.88,
      "learning_rate": 0.00010209312496403647,
      "loss": 0.4568,
      "step": 25290
    },
    {
      "epoch": 496.0,
      "eval_loss": 0.461697518825531,
      "eval_runtime": 2.2304,
      "eval_samples_per_second": 1021.781,
      "eval_steps_per_second": 4.035,
      "step": 25296
    },
    {
      "epoch": 496.08,
      "learning_rate": 0.00010205533143491601,
      "loss": 0.4572,
      "step": 25300
    },
    {
      "epoch": 496.27,
      "learning_rate": 0.00010201753000624215,
      "loss": 0.4592,
      "step": 25310
    },
    {
      "epoch": 496.47,
      "learning_rate": 0.00010197972068905208,
      "loss": 0.4641,
      "step": 25320
    },
    {
      "epoch": 496.67,
      "learning_rate": 0.0001019419034943853,
      "loss": 0.4587,
      "step": 25330
    },
    {
      "epoch": 496.86,
      "learning_rate": 0.00010190407843328351,
      "loss": 0.4524,
      "step": 25340
    },
    {
      "epoch": 497.0,
      "eval_loss": 0.4631481468677521,
      "eval_runtime": 2.1613,
      "eval_samples_per_second": 1054.478,
      "eval_steps_per_second": 4.164,
      "step": 25347
    },
    {
      "epoch": 497.06,
      "learning_rate": 0.00010186624551679089,
      "loss": 0.4544,
      "step": 25350
    },
    {
      "epoch": 497.25,
      "learning_rate": 0.00010182840475595374,
      "loss": 0.462,
      "step": 25360
    },
    {
      "epoch": 497.45,
      "learning_rate": 0.00010179055616182074,
      "loss": 0.4558,
      "step": 25370
    },
    {
      "epoch": 497.65,
      "learning_rate": 0.00010175269974544281,
      "loss": 0.4606,
      "step": 25380
    },
    {
      "epoch": 497.84,
      "learning_rate": 0.0001017148355178732,
      "loss": 0.4635,
      "step": 25390
    },
    {
      "epoch": 498.0,
      "eval_loss": 0.4639947712421417,
      "eval_runtime": 2.2201,
      "eval_samples_per_second": 1026.549,
      "eval_steps_per_second": 4.054,
      "step": 25398
    },
    {
      "epoch": 498.04,
      "learning_rate": 0.00010167696349016742,
      "loss": 0.4639,
      "step": 25400
    },
    {
      "epoch": 498.24,
      "learning_rate": 0.00010163908367338325,
      "loss": 0.463,
      "step": 25410
    },
    {
      "epoch": 498.43,
      "learning_rate": 0.00010160119607858076,
      "loss": 0.4628,
      "step": 25420
    },
    {
      "epoch": 498.63,
      "learning_rate": 0.0001015633007168223,
      "loss": 0.4606,
      "step": 25430
    },
    {
      "epoch": 498.82,
      "learning_rate": 0.00010152539759917242,
      "loss": 0.4534,
      "step": 25440
    },
    {
      "epoch": 499.0,
      "eval_loss": 0.4642672538757324,
      "eval_runtime": 2.2526,
      "eval_samples_per_second": 1011.722,
      "eval_steps_per_second": 3.995,
      "step": 25449
    },
    {
      "epoch": 499.02,
      "learning_rate": 0.00010148748673669804,
      "loss": 0.4633,
      "step": 25450
    },
    {
      "epoch": 499.22,
      "learning_rate": 0.00010144956814046823,
      "loss": 0.4603,
      "step": 25460
    },
    {
      "epoch": 499.41,
      "learning_rate": 0.00010141164182155442,
      "loss": 0.4532,
      "step": 25470
    },
    {
      "epoch": 499.61,
      "learning_rate": 0.00010137370779103025,
      "loss": 0.4535,
      "step": 25480
    },
    {
      "epoch": 499.8,
      "learning_rate": 0.00010133576605997158,
      "loss": 0.4539,
      "step": 25490
    },
    {
      "epoch": 500.0,
      "learning_rate": 0.00010129781663945658,
      "loss": 0.4599,
      "step": 25500
    },
    {
      "epoch": 500.0,
      "eval_loss": 0.46625402569770813,
      "eval_runtime": 2.1508,
      "eval_samples_per_second": 1059.606,
      "eval_steps_per_second": 4.184,
      "step": 25500
    },
    {
      "epoch": 500.2,
      "learning_rate": 0.00010125985954056561,
      "loss": 0.4591,
      "step": 25510
    },
    {
      "epoch": 500.39,
      "learning_rate": 0.0001012218947743813,
      "loss": 0.4557,
      "step": 25520
    },
    {
      "epoch": 500.59,
      "learning_rate": 0.00010118392235198851,
      "loss": 0.4556,
      "step": 25530
    },
    {
      "epoch": 500.78,
      "learning_rate": 0.00010114594228447439,
      "loss": 0.4598,
      "step": 25540
    },
    {
      "epoch": 500.98,
      "learning_rate": 0.0001011079545829282,
      "loss": 0.4549,
      "step": 25550
    },
    {
      "epoch": 501.0,
      "eval_loss": 0.4588215947151184,
      "eval_runtime": 2.1877,
      "eval_samples_per_second": 1041.737,
      "eval_steps_per_second": 4.114,
      "step": 25551
    },
    {
      "epoch": 501.18,
      "learning_rate": 0.00010106995925844154,
      "loss": 0.4607,
      "step": 25560
    },
    {
      "epoch": 501.37,
      "learning_rate": 0.0001010319563221082,
      "loss": 0.4562,
      "step": 25570
    },
    {
      "epoch": 501.57,
      "learning_rate": 0.00010099394578502419,
      "loss": 0.4575,
      "step": 25580
    },
    {
      "epoch": 501.76,
      "learning_rate": 0.00010095592765828774,
      "loss": 0.46,
      "step": 25590
    },
    {
      "epoch": 501.96,
      "learning_rate": 0.00010091790195299925,
      "loss": 0.4595,
      "step": 25600
    },
    {
      "epoch": 502.0,
      "eval_loss": 0.46614253520965576,
      "eval_runtime": 2.3019,
      "eval_samples_per_second": 990.035,
      "eval_steps_per_second": 3.91,
      "step": 25602
    },
    {
      "epoch": 502.16,
      "learning_rate": 0.00010087986868026144,
      "loss": 0.4567,
      "step": 25610
    },
    {
      "epoch": 502.35,
      "learning_rate": 0.00010084182785117916,
      "loss": 0.4569,
      "step": 25620
    },
    {
      "epoch": 502.55,
      "learning_rate": 0.00010080377947685946,
      "loss": 0.4602,
      "step": 25630
    },
    {
      "epoch": 502.75,
      "learning_rate": 0.00010076572356841164,
      "loss": 0.461,
      "step": 25640
    },
    {
      "epoch": 502.94,
      "learning_rate": 0.00010072766013694715,
      "loss": 0.46,
      "step": 25650
    },
    {
      "epoch": 503.0,
      "eval_loss": 0.4626482427120209,
      "eval_runtime": 2.185,
      "eval_samples_per_second": 1043.005,
      "eval_steps_per_second": 4.119,
      "step": 25653
    },
    {
      "epoch": 503.14,
      "learning_rate": 0.0001006895891935797,
      "loss": 0.4623,
      "step": 25660
    },
    {
      "epoch": 503.33,
      "learning_rate": 0.00010065151074942516,
      "loss": 0.4602,
      "step": 25670
    },
    {
      "epoch": 503.53,
      "learning_rate": 0.00010061342481560151,
      "loss": 0.457,
      "step": 25680
    },
    {
      "epoch": 503.73,
      "learning_rate": 0.0001005753314032291,
      "loss": 0.4564,
      "step": 25690
    },
    {
      "epoch": 503.92,
      "learning_rate": 0.0001005372305234303,
      "loss": 0.4504,
      "step": 25700
    },
    {
      "epoch": 504.0,
      "eval_loss": 0.4590928256511688,
      "eval_runtime": 2.299,
      "eval_samples_per_second": 991.307,
      "eval_steps_per_second": 3.915,
      "step": 25704
    },
    {
      "epoch": 504.12,
      "learning_rate": 0.00010049912218732971,
      "loss": 0.4553,
      "step": 25710
    },
    {
      "epoch": 504.31,
      "learning_rate": 0.00010046100640605413,
      "loss": 0.4599,
      "step": 25720
    },
    {
      "epoch": 504.51,
      "learning_rate": 0.0001004228831907325,
      "loss": 0.456,
      "step": 25730
    },
    {
      "epoch": 504.71,
      "learning_rate": 0.00010038475255249597,
      "loss": 0.4505,
      "step": 25740
    },
    {
      "epoch": 504.9,
      "learning_rate": 0.00010034661450247785,
      "loss": 0.459,
      "step": 25750
    },
    {
      "epoch": 505.0,
      "eval_loss": 0.46226629614830017,
      "eval_runtime": 2.2506,
      "eval_samples_per_second": 1012.612,
      "eval_steps_per_second": 3.999,
      "step": 25755
    },
    {
      "epoch": 505.1,
      "learning_rate": 0.00010030846905181356,
      "loss": 0.456,
      "step": 25760
    },
    {
      "epoch": 505.29,
      "learning_rate": 0.00010027031621164076,
      "loss": 0.4556,
      "step": 25770
    },
    {
      "epoch": 505.49,
      "learning_rate": 0.0001002321559930992,
      "loss": 0.4565,
      "step": 25780
    },
    {
      "epoch": 505.69,
      "learning_rate": 0.00010019398840733082,
      "loss": 0.4603,
      "step": 25790
    },
    {
      "epoch": 505.88,
      "learning_rate": 0.00010015581346547969,
      "loss": 0.4582,
      "step": 25800
    },
    {
      "epoch": 506.0,
      "eval_loss": 0.46172964572906494,
      "eval_runtime": 2.1975,
      "eval_samples_per_second": 1037.086,
      "eval_steps_per_second": 4.096,
      "step": 25806
    },
    {
      "epoch": 506.08,
      "learning_rate": 0.00010011763117869207,
      "loss": 0.4576,
      "step": 25810
    },
    {
      "epoch": 506.27,
      "learning_rate": 0.00010007944155811633,
      "loss": 0.4531,
      "step": 25820
    },
    {
      "epoch": 506.47,
      "learning_rate": 0.00010004124461490297,
      "loss": 0.4574,
      "step": 25830
    },
    {
      "epoch": 506.67,
      "learning_rate": 0.00010000304036020466,
      "loss": 0.456,
      "step": 25840
    },
    {
      "epoch": 506.86,
      "learning_rate": 9.996482880517619e-05,
      "loss": 0.4532,
      "step": 25850
    },
    {
      "epoch": 507.0,
      "eval_loss": 0.4579889178276062,
      "eval_runtime": 2.2839,
      "eval_samples_per_second": 997.87,
      "eval_steps_per_second": 3.941,
      "step": 25857
    },
    {
      "epoch": 507.06,
      "learning_rate": 9.992660996097446e-05,
      "loss": 0.4539,
      "step": 25860
    },
    {
      "epoch": 507.25,
      "learning_rate": 9.988838383875856e-05,
      "loss": 0.4575,
      "step": 25870
    },
    {
      "epoch": 507.45,
      "learning_rate": 9.985015044968964e-05,
      "loss": 0.4508,
      "step": 25880
    },
    {
      "epoch": 507.65,
      "learning_rate": 9.981190980493099e-05,
      "loss": 0.4547,
      "step": 25890
    },
    {
      "epoch": 507.84,
      "learning_rate": 9.977366191564806e-05,
      "loss": 0.4555,
      "step": 25900
    },
    {
      "epoch": 508.0,
      "eval_loss": 0.46151694655418396,
      "eval_runtime": 2.2996,
      "eval_samples_per_second": 991.055,
      "eval_steps_per_second": 3.914,
      "step": 25908
    },
    {
      "epoch": 508.04,
      "learning_rate": 9.973540679300834e-05,
      "loss": 0.4548,
      "step": 25910
    },
    {
      "epoch": 508.24,
      "learning_rate": 9.96971444481815e-05,
      "loss": 0.4524,
      "step": 25920
    },
    {
      "epoch": 508.43,
      "learning_rate": 9.965887489233927e-05,
      "loss": 0.4586,
      "step": 25930
    },
    {
      "epoch": 508.63,
      "learning_rate": 9.962059813665552e-05,
      "loss": 0.4573,
      "step": 25940
    },
    {
      "epoch": 508.82,
      "learning_rate": 9.95823141923062e-05,
      "loss": 0.4571,
      "step": 25950
    },
    {
      "epoch": 509.0,
      "eval_loss": 0.4616622030735016,
      "eval_runtime": 2.1945,
      "eval_samples_per_second": 1038.515,
      "eval_steps_per_second": 4.101,
      "step": 25959
    },
    {
      "epoch": 509.02,
      "learning_rate": 9.954402307046938e-05,
      "loss": 0.4542,
      "step": 25960
    },
    {
      "epoch": 509.22,
      "learning_rate": 9.950572478232521e-05,
      "loss": 0.4546,
      "step": 25970
    },
    {
      "epoch": 509.41,
      "learning_rate": 9.946741933905595e-05,
      "loss": 0.4548,
      "step": 25980
    },
    {
      "epoch": 509.61,
      "learning_rate": 9.942910675184589e-05,
      "loss": 0.46,
      "step": 25990
    },
    {
      "epoch": 509.8,
      "learning_rate": 9.93907870318815e-05,
      "loss": 0.4555,
      "step": 26000
    },
    {
      "epoch": 510.0,
      "learning_rate": 9.935246019035126e-05,
      "loss": 0.4561,
      "step": 26010
    },
    {
      "epoch": 510.0,
      "eval_loss": 0.4578864276409149,
      "eval_runtime": 2.2028,
      "eval_samples_per_second": 1034.57,
      "eval_steps_per_second": 4.086,
      "step": 26010
    },
    {
      "epoch": 510.2,
      "learning_rate": 9.931412623844574e-05,
      "loss": 0.4559,
      "step": 26020
    },
    {
      "epoch": 510.39,
      "learning_rate": 9.927578518735765e-05,
      "loss": 0.4575,
      "step": 26030
    },
    {
      "epoch": 510.59,
      "learning_rate": 9.923743704828166e-05,
      "loss": 0.4473,
      "step": 26040
    },
    {
      "epoch": 510.78,
      "learning_rate": 9.919908183241461e-05,
      "loss": 0.4509,
      "step": 26050
    },
    {
      "epoch": 510.98,
      "learning_rate": 9.916071955095537e-05,
      "loss": 0.4541,
      "step": 26060
    },
    {
      "epoch": 511.0,
      "eval_loss": 0.46014508605003357,
      "eval_runtime": 2.2714,
      "eval_samples_per_second": 1003.329,
      "eval_steps_per_second": 3.962,
      "step": 26061
    },
    {
      "epoch": 511.18,
      "learning_rate": 9.912235021510483e-05,
      "loss": 0.4526,
      "step": 26070
    },
    {
      "epoch": 511.37,
      "learning_rate": 9.908397383606601e-05,
      "loss": 0.4553,
      "step": 26080
    },
    {
      "epoch": 511.57,
      "learning_rate": 9.904559042504398e-05,
      "loss": 0.455,
      "step": 26090
    },
    {
      "epoch": 511.76,
      "learning_rate": 9.900719999324578e-05,
      "loss": 0.4538,
      "step": 26100
    },
    {
      "epoch": 511.96,
      "learning_rate": 9.896880255188064e-05,
      "loss": 0.4534,
      "step": 26110
    },
    {
      "epoch": 512.0,
      "eval_loss": 0.4626559019088745,
      "eval_runtime": 2.1826,
      "eval_samples_per_second": 1044.191,
      "eval_steps_per_second": 4.124,
      "step": 26112
    },
    {
      "epoch": 512.16,
      "learning_rate": 9.893039811215967e-05,
      "loss": 0.4576,
      "step": 26120
    },
    {
      "epoch": 512.35,
      "learning_rate": 9.889198668529617e-05,
      "loss": 0.4529,
      "step": 26130
    },
    {
      "epoch": 512.55,
      "learning_rate": 9.88535682825054e-05,
      "loss": 0.457,
      "step": 26140
    },
    {
      "epoch": 512.75,
      "learning_rate": 9.881514291500467e-05,
      "loss": 0.4545,
      "step": 26150
    },
    {
      "epoch": 512.94,
      "learning_rate": 9.877671059401334e-05,
      "loss": 0.4569,
      "step": 26160
    },
    {
      "epoch": 513.0,
      "eval_loss": 0.46150699257850647,
      "eval_runtime": 2.2927,
      "eval_samples_per_second": 994.031,
      "eval_steps_per_second": 3.926,
      "step": 26163
    },
    {
      "epoch": 513.14,
      "learning_rate": 9.873827133075279e-05,
      "loss": 0.4467,
      "step": 26170
    },
    {
      "epoch": 513.33,
      "learning_rate": 9.869982513644645e-05,
      "loss": 0.4549,
      "step": 26180
    },
    {
      "epoch": 513.53,
      "learning_rate": 9.866137202231968e-05,
      "loss": 0.4542,
      "step": 26190
    },
    {
      "epoch": 513.73,
      "learning_rate": 9.86229119996e-05,
      "loss": 0.4548,
      "step": 26200
    },
    {
      "epoch": 513.92,
      "learning_rate": 9.858444507951688e-05,
      "loss": 0.4583,
      "step": 26210
    },
    {
      "epoch": 514.0,
      "eval_loss": 0.45271191000938416,
      "eval_runtime": 2.2058,
      "eval_samples_per_second": 1033.196,
      "eval_steps_per_second": 4.08,
      "step": 26214
    },
    {
      "epoch": 514.12,
      "learning_rate": 9.854597127330176e-05,
      "loss": 0.4542,
      "step": 26220
    },
    {
      "epoch": 514.31,
      "learning_rate": 9.850749059218815e-05,
      "loss": 0.4526,
      "step": 26230
    },
    {
      "epoch": 514.51,
      "learning_rate": 9.846900304741158e-05,
      "loss": 0.4558,
      "step": 26240
    },
    {
      "epoch": 514.71,
      "learning_rate": 9.84305086502095e-05,
      "loss": 0.4566,
      "step": 26250
    },
    {
      "epoch": 514.9,
      "learning_rate": 9.839200741182147e-05,
      "loss": 0.4498,
      "step": 26260
    },
    {
      "epoch": 515.0,
      "eval_loss": 0.45869016647338867,
      "eval_runtime": 2.3386,
      "eval_samples_per_second": 974.499,
      "eval_steps_per_second": 3.848,
      "step": 26265
    },
    {
      "epoch": 515.1,
      "learning_rate": 9.835349934348896e-05,
      "loss": 0.4524,
      "step": 26270
    },
    {
      "epoch": 515.29,
      "learning_rate": 9.831498445645545e-05,
      "loss": 0.4531,
      "step": 26280
    },
    {
      "epoch": 515.49,
      "learning_rate": 9.827646276196647e-05,
      "loss": 0.4572,
      "step": 26290
    },
    {
      "epoch": 515.69,
      "learning_rate": 9.82379342712695e-05,
      "loss": 0.4539,
      "step": 26300
    },
    {
      "epoch": 515.88,
      "learning_rate": 9.819939899561396e-05,
      "loss": 0.4511,
      "step": 26310
    },
    {
      "epoch": 516.0,
      "eval_loss": 0.45518627762794495,
      "eval_runtime": 2.1521,
      "eval_samples_per_second": 1058.985,
      "eval_steps_per_second": 4.182,
      "step": 26316
    },
    {
      "epoch": 516.08,
      "learning_rate": 9.816085694625133e-05,
      "loss": 0.4531,
      "step": 26320
    },
    {
      "epoch": 516.27,
      "learning_rate": 9.812230813443498e-05,
      "loss": 0.4527,
      "step": 26330
    },
    {
      "epoch": 516.47,
      "learning_rate": 9.808375257142035e-05,
      "loss": 0.4538,
      "step": 26340
    },
    {
      "epoch": 516.67,
      "learning_rate": 9.804519026846476e-05,
      "loss": 0.4529,
      "step": 26350
    },
    {
      "epoch": 516.86,
      "learning_rate": 9.800662123682759e-05,
      "loss": 0.4535,
      "step": 26360
    },
    {
      "epoch": 517.0,
      "eval_loss": 0.457948237657547,
      "eval_runtime": 2.2407,
      "eval_samples_per_second": 1017.082,
      "eval_steps_per_second": 4.017,
      "step": 26367
    },
    {
      "epoch": 517.06,
      "learning_rate": 9.796804548777013e-05,
      "loss": 0.456,
      "step": 26370
    },
    {
      "epoch": 517.25,
      "learning_rate": 9.79294630325556e-05,
      "loss": 0.4534,
      "step": 26380
    },
    {
      "epoch": 517.45,
      "learning_rate": 9.789087388244927e-05,
      "loss": 0.4549,
      "step": 26390
    },
    {
      "epoch": 517.65,
      "learning_rate": 9.785227804871827e-05,
      "loss": 0.4502,
      "step": 26400
    },
    {
      "epoch": 517.84,
      "learning_rate": 9.781367554263172e-05,
      "loss": 0.4551,
      "step": 26410
    },
    {
      "epoch": 518.0,
      "eval_loss": 0.4542873203754425,
      "eval_runtime": 2.2808,
      "eval_samples_per_second": 999.213,
      "eval_steps_per_second": 3.946,
      "step": 26418
    },
    {
      "epoch": 518.04,
      "learning_rate": 9.777506637546072e-05,
      "loss": 0.4515,
      "step": 26420
    },
    {
      "epoch": 518.24,
      "learning_rate": 9.773645055847825e-05,
      "loss": 0.4536,
      "step": 26430
    },
    {
      "epoch": 518.43,
      "learning_rate": 9.76978281029593e-05,
      "loss": 0.4534,
      "step": 26440
    },
    {
      "epoch": 518.63,
      "learning_rate": 9.76591990201808e-05,
      "loss": 0.4444,
      "step": 26450
    },
    {
      "epoch": 518.82,
      "learning_rate": 9.762056332142147e-05,
      "loss": 0.4581,
      "step": 26460
    },
    {
      "epoch": 519.0,
      "eval_loss": 0.4596610963344574,
      "eval_runtime": 2.2928,
      "eval_samples_per_second": 993.96,
      "eval_steps_per_second": 3.925,
      "step": 26469
    },
    {
      "epoch": 519.02,
      "learning_rate": 9.758192101796217e-05,
      "loss": 0.454,
      "step": 26470
    },
    {
      "epoch": 519.22,
      "learning_rate": 9.754327212108556e-05,
      "loss": 0.4528,
      "step": 26480
    },
    {
      "epoch": 519.41,
      "learning_rate": 9.750461664207622e-05,
      "loss": 0.4552,
      "step": 26490
    },
    {
      "epoch": 519.61,
      "learning_rate": 9.746595459222076e-05,
      "loss": 0.4541,
      "step": 26500
    },
    {
      "epoch": 519.8,
      "learning_rate": 9.742728598280759e-05,
      "loss": 0.4487,
      "step": 26510
    },
    {
      "epoch": 520.0,
      "learning_rate": 9.738861082512709e-05,
      "loss": 0.4573,
      "step": 26520
    },
    {
      "epoch": 520.0,
      "eval_loss": 0.45396384596824646,
      "eval_runtime": 2.2352,
      "eval_samples_per_second": 1019.61,
      "eval_steps_per_second": 4.027,
      "step": 26520
    },
    {
      "epoch": 520.2,
      "learning_rate": 9.734992913047155e-05,
      "loss": 0.4491,
      "step": 26530
    },
    {
      "epoch": 520.39,
      "learning_rate": 9.731124091013513e-05,
      "loss": 0.452,
      "step": 26540
    },
    {
      "epoch": 520.59,
      "learning_rate": 9.727254617541398e-05,
      "loss": 0.4491,
      "step": 26550
    },
    {
      "epoch": 520.78,
      "learning_rate": 9.723384493760606e-05,
      "loss": 0.4543,
      "step": 26560
    },
    {
      "epoch": 520.98,
      "learning_rate": 9.719513720801126e-05,
      "loss": 0.4495,
      "step": 26570
    },
    {
      "epoch": 521.0,
      "eval_loss": 0.4577941596508026,
      "eval_runtime": 2.2275,
      "eval_samples_per_second": 1023.139,
      "eval_steps_per_second": 4.04,
      "step": 26571
    },
    {
      "epoch": 521.18,
      "learning_rate": 9.715642299793144e-05,
      "loss": 0.4459,
      "step": 26580
    },
    {
      "epoch": 521.37,
      "learning_rate": 9.711770231867022e-05,
      "loss": 0.4513,
      "step": 26590
    },
    {
      "epoch": 521.57,
      "learning_rate": 9.70789751815332e-05,
      "loss": 0.4512,
      "step": 26600
    },
    {
      "epoch": 521.76,
      "learning_rate": 9.704024159782782e-05,
      "loss": 0.4571,
      "step": 26610
    },
    {
      "epoch": 521.96,
      "learning_rate": 9.700150157886345e-05,
      "loss": 0.4532,
      "step": 26620
    },
    {
      "epoch": 522.0,
      "eval_loss": 0.4605408012866974,
      "eval_runtime": 2.251,
      "eval_samples_per_second": 1012.42,
      "eval_steps_per_second": 3.998,
      "step": 26622
    },
    {
      "epoch": 522.16,
      "learning_rate": 9.69627551359513e-05,
      "loss": 0.455,
      "step": 26630
    },
    {
      "epoch": 522.35,
      "learning_rate": 9.692400228040447e-05,
      "loss": 0.4555,
      "step": 26640
    },
    {
      "epoch": 522.55,
      "learning_rate": 9.688524302353792e-05,
      "loss": 0.4535,
      "step": 26650
    },
    {
      "epoch": 522.75,
      "learning_rate": 9.68464773766685e-05,
      "loss": 0.4543,
      "step": 26660
    },
    {
      "epoch": 522.94,
      "learning_rate": 9.68077053511149e-05,
      "loss": 0.4474,
      "step": 26670
    },
    {
      "epoch": 523.0,
      "eval_loss": 0.45791128277778625,
      "eval_runtime": 2.139,
      "eval_samples_per_second": 1065.459,
      "eval_steps_per_second": 4.208,
      "step": 26673
    },
    {
      "epoch": 523.14,
      "learning_rate": 9.67689269581977e-05,
      "loss": 0.454,
      "step": 26680
    },
    {
      "epoch": 523.33,
      "learning_rate": 9.673014220923934e-05,
      "loss": 0.4547,
      "step": 26690
    },
    {
      "epoch": 523.53,
      "learning_rate": 9.669135111556406e-05,
      "loss": 0.4555,
      "step": 26700
    },
    {
      "epoch": 523.73,
      "learning_rate": 9.665255368849804e-05,
      "loss": 0.4555,
      "step": 26710
    },
    {
      "epoch": 523.92,
      "learning_rate": 9.661374993936924e-05,
      "loss": 0.4504,
      "step": 26720
    },
    {
      "epoch": 524.0,
      "eval_loss": 0.456340491771698,
      "eval_runtime": 2.2323,
      "eval_samples_per_second": 1020.94,
      "eval_steps_per_second": 4.032,
      "step": 26724
    },
    {
      "epoch": 524.12,
      "learning_rate": 9.657493987950747e-05,
      "loss": 0.4502,
      "step": 26730
    },
    {
      "epoch": 524.31,
      "learning_rate": 9.653612352024446e-05,
      "loss": 0.4512,
      "step": 26740
    },
    {
      "epoch": 524.51,
      "learning_rate": 9.649730087291364e-05,
      "loss": 0.4583,
      "step": 26750
    },
    {
      "epoch": 524.71,
      "learning_rate": 9.645847194885042e-05,
      "loss": 0.4529,
      "step": 26760
    },
    {
      "epoch": 524.9,
      "learning_rate": 9.641963675939197e-05,
      "loss": 0.4529,
      "step": 26770
    },
    {
      "epoch": 525.0,
      "eval_loss": 0.45831215381622314,
      "eval_runtime": 2.2948,
      "eval_samples_per_second": 993.117,
      "eval_steps_per_second": 3.922,
      "step": 26775
    },
    {
      "epoch": 525.1,
      "learning_rate": 9.638079531587728e-05,
      "loss": 0.4495,
      "step": 26780
    },
    {
      "epoch": 525.29,
      "learning_rate": 9.63419476296472e-05,
      "loss": 0.4527,
      "step": 26790
    },
    {
      "epoch": 525.49,
      "learning_rate": 9.63030937120444e-05,
      "loss": 0.4501,
      "step": 26800
    },
    {
      "epoch": 525.69,
      "learning_rate": 9.626423357441331e-05,
      "loss": 0.4495,
      "step": 26810
    },
    {
      "epoch": 525.88,
      "learning_rate": 9.622536722810026e-05,
      "loss": 0.4475,
      "step": 26820
    },
    {
      "epoch": 526.0,
      "eval_loss": 0.4616130292415619,
      "eval_runtime": 2.2822,
      "eval_samples_per_second": 998.609,
      "eval_steps_per_second": 3.944,
      "step": 26826
    },
    {
      "epoch": 526.08,
      "learning_rate": 9.618649468445336e-05,
      "loss": 0.4521,
      "step": 26830
    },
    {
      "epoch": 526.27,
      "learning_rate": 9.614761595482252e-05,
      "loss": 0.4569,
      "step": 26840
    },
    {
      "epoch": 526.47,
      "learning_rate": 9.610873105055945e-05,
      "loss": 0.458,
      "step": 26850
    },
    {
      "epoch": 526.67,
      "learning_rate": 9.60698399830177e-05,
      "loss": 0.4507,
      "step": 26860
    },
    {
      "epoch": 526.86,
      "learning_rate": 9.603094276355257e-05,
      "loss": 0.4457,
      "step": 26870
    },
    {
      "epoch": 527.0,
      "eval_loss": 0.4558161199092865,
      "eval_runtime": 2.317,
      "eval_samples_per_second": 983.601,
      "eval_steps_per_second": 3.884,
      "step": 26877
    },
    {
      "epoch": 527.06,
      "learning_rate": 9.599203940352118e-05,
      "loss": 0.451,
      "step": 26880
    },
    {
      "epoch": 527.25,
      "learning_rate": 9.595312991428245e-05,
      "loss": 0.4454,
      "step": 26890
    },
    {
      "epoch": 527.45,
      "learning_rate": 9.59142143071971e-05,
      "loss": 0.4559,
      "step": 26900
    },
    {
      "epoch": 527.65,
      "learning_rate": 9.587529259362759e-05,
      "loss": 0.4518,
      "step": 26910
    },
    {
      "epoch": 527.84,
      "learning_rate": 9.583636478493823e-05,
      "loss": 0.4532,
      "step": 26920
    },
    {
      "epoch": 528.0,
      "eval_loss": 0.45839163661003113,
      "eval_runtime": 2.2859,
      "eval_samples_per_second": 996.975,
      "eval_steps_per_second": 3.937,
      "step": 26928
    },
    {
      "epoch": 528.04,
      "learning_rate": 9.579743089249503e-05,
      "loss": 0.4491,
      "step": 26930
    },
    {
      "epoch": 528.24,
      "learning_rate": 9.575849092766584e-05,
      "loss": 0.4496,
      "step": 26940
    },
    {
      "epoch": 528.43,
      "learning_rate": 9.571954490182026e-05,
      "loss": 0.4544,
      "step": 26950
    },
    {
      "epoch": 528.63,
      "learning_rate": 9.568059282632964e-05,
      "loss": 0.4531,
      "step": 26960
    },
    {
      "epoch": 528.82,
      "learning_rate": 9.564163471256716e-05,
      "loss": 0.4566,
      "step": 26970
    },
    {
      "epoch": 529.0,
      "eval_loss": 0.4572843313217163,
      "eval_runtime": 2.3239,
      "eval_samples_per_second": 980.668,
      "eval_steps_per_second": 3.873,
      "step": 26979
    },
    {
      "epoch": 529.02,
      "learning_rate": 9.56026705719077e-05,
      "loss": 0.4539,
      "step": 26980
    },
    {
      "epoch": 529.22,
      "learning_rate": 9.55637004157279e-05,
      "loss": 0.46,
      "step": 26990
    },
    {
      "epoch": 529.41,
      "learning_rate": 9.552472425540622e-05,
      "loss": 0.4526,
      "step": 27000
    },
    {
      "epoch": 529.61,
      "learning_rate": 9.548574210232277e-05,
      "loss": 0.454,
      "step": 27010
    },
    {
      "epoch": 529.8,
      "learning_rate": 9.544675396785952e-05,
      "loss": 0.4532,
      "step": 27020
    },
    {
      "epoch": 530.0,
      "learning_rate": 9.540775986340012e-05,
      "loss": 0.4546,
      "step": 27030
    },
    {
      "epoch": 530.0,
      "eval_loss": 0.4563215970993042,
      "eval_runtime": 2.1683,
      "eval_samples_per_second": 1051.064,
      "eval_steps_per_second": 4.151,
      "step": 27030
    },
    {
      "epoch": 530.2,
      "learning_rate": 9.536875980032996e-05,
      "loss": 0.4493,
      "step": 27040
    },
    {
      "epoch": 530.39,
      "learning_rate": 9.532975379003623e-05,
      "loss": 0.4495,
      "step": 27050
    },
    {
      "epoch": 530.59,
      "learning_rate": 9.529074184390779e-05,
      "loss": 0.4491,
      "step": 27060
    },
    {
      "epoch": 530.78,
      "learning_rate": 9.525172397333525e-05,
      "loss": 0.4553,
      "step": 27070
    },
    {
      "epoch": 530.98,
      "learning_rate": 9.521270018971095e-05,
      "loss": 0.4479,
      "step": 27080
    },
    {
      "epoch": 531.0,
      "eval_loss": 0.46282848715782166,
      "eval_runtime": 2.3449,
      "eval_samples_per_second": 971.905,
      "eval_steps_per_second": 3.838,
      "step": 27081
    },
    {
      "epoch": 531.18,
      "learning_rate": 9.5173670504429e-05,
      "loss": 0.4551,
      "step": 27090
    },
    {
      "epoch": 531.37,
      "learning_rate": 9.513463492888519e-05,
      "loss": 0.4503,
      "step": 27100
    },
    {
      "epoch": 531.57,
      "learning_rate": 9.509559347447701e-05,
      "loss": 0.4468,
      "step": 27110
    },
    {
      "epoch": 531.76,
      "learning_rate": 9.50565461526037e-05,
      "loss": 0.4551,
      "step": 27120
    },
    {
      "epoch": 531.96,
      "learning_rate": 9.501749297466626e-05,
      "loss": 0.4485,
      "step": 27130
    },
    {
      "epoch": 532.0,
      "eval_loss": 0.45467355847358704,
      "eval_runtime": 2.2383,
      "eval_samples_per_second": 1018.188,
      "eval_steps_per_second": 4.021,
      "step": 27132
    },
    {
      "epoch": 532.16,
      "learning_rate": 9.497843395206726e-05,
      "loss": 0.4511,
      "step": 27140
    },
    {
      "epoch": 532.35,
      "learning_rate": 9.493936909621113e-05,
      "loss": 0.4563,
      "step": 27150
    },
    {
      "epoch": 532.55,
      "learning_rate": 9.49002984185039e-05,
      "loss": 0.4486,
      "step": 27160
    },
    {
      "epoch": 532.75,
      "learning_rate": 9.486122193035337e-05,
      "loss": 0.4467,
      "step": 27170
    },
    {
      "epoch": 532.94,
      "learning_rate": 9.482213964316898e-05,
      "loss": 0.4491,
      "step": 27180
    },
    {
      "epoch": 533.0,
      "eval_loss": 0.45390358567237854,
      "eval_runtime": 2.2377,
      "eval_samples_per_second": 1018.434,
      "eval_steps_per_second": 4.022,
      "step": 27183
    },
    {
      "epoch": 533.14,
      "learning_rate": 9.478305156836188e-05,
      "loss": 0.4484,
      "step": 27190
    },
    {
      "epoch": 533.33,
      "learning_rate": 9.474395771734493e-05,
      "loss": 0.45,
      "step": 27200
    },
    {
      "epoch": 533.53,
      "learning_rate": 9.470485810153268e-05,
      "loss": 0.4471,
      "step": 27210
    },
    {
      "epoch": 533.73,
      "learning_rate": 9.46657527323413e-05,
      "loss": 0.449,
      "step": 27220
    },
    {
      "epoch": 533.92,
      "learning_rate": 9.462664162118871e-05,
      "loss": 0.4522,
      "step": 27230
    },
    {
      "epoch": 534.0,
      "eval_loss": 0.4536179304122925,
      "eval_runtime": 2.288,
      "eval_samples_per_second": 996.082,
      "eval_steps_per_second": 3.934,
      "step": 27234
    },
    {
      "epoch": 534.12,
      "learning_rate": 9.458752477949451e-05,
      "loss": 0.4502,
      "step": 27240
    },
    {
      "epoch": 534.31,
      "learning_rate": 9.454840221867989e-05,
      "loss": 0.449,
      "step": 27250
    },
    {
      "epoch": 534.51,
      "learning_rate": 9.450927395016781e-05,
      "loss": 0.4502,
      "step": 27260
    },
    {
      "epoch": 534.71,
      "learning_rate": 9.447013998538283e-05,
      "loss": 0.4442,
      "step": 27270
    },
    {
      "epoch": 534.9,
      "learning_rate": 9.44310003357512e-05,
      "loss": 0.4477,
      "step": 27280
    },
    {
      "epoch": 535.0,
      "eval_loss": 0.45614269375801086,
      "eval_runtime": 2.3434,
      "eval_samples_per_second": 972.526,
      "eval_steps_per_second": 3.841,
      "step": 27285
    },
    {
      "epoch": 535.1,
      "learning_rate": 9.439185501270083e-05,
      "loss": 0.4535,
      "step": 27290
    },
    {
      "epoch": 535.29,
      "learning_rate": 9.435270402766128e-05,
      "loss": 0.4503,
      "step": 27300
    },
    {
      "epoch": 535.49,
      "learning_rate": 9.431354739206374e-05,
      "loss": 0.4503,
      "step": 27310
    },
    {
      "epoch": 535.69,
      "learning_rate": 9.42743851173411e-05,
      "loss": 0.4542,
      "step": 27320
    },
    {
      "epoch": 535.88,
      "learning_rate": 9.423521721492788e-05,
      "loss": 0.45,
      "step": 27330
    },
    {
      "epoch": 536.0,
      "eval_loss": 0.4529837667942047,
      "eval_runtime": 2.2382,
      "eval_samples_per_second": 1018.237,
      "eval_steps_per_second": 4.021,
      "step": 27336
    },
    {
      "epoch": 536.08,
      "learning_rate": 9.419604369626024e-05,
      "loss": 0.4511,
      "step": 27340
    },
    {
      "epoch": 536.27,
      "learning_rate": 9.415686457277593e-05,
      "loss": 0.4497,
      "step": 27350
    },
    {
      "epoch": 536.47,
      "learning_rate": 9.41176798559144e-05,
      "loss": 0.4475,
      "step": 27360
    },
    {
      "epoch": 536.67,
      "learning_rate": 9.407848955711672e-05,
      "loss": 0.445,
      "step": 27370
    },
    {
      "epoch": 536.86,
      "learning_rate": 9.403929368782558e-05,
      "loss": 0.4522,
      "step": 27380
    },
    {
      "epoch": 537.0,
      "eval_loss": 0.45247963070869446,
      "eval_runtime": 2.2916,
      "eval_samples_per_second": 994.507,
      "eval_steps_per_second": 3.927,
      "step": 27387
    },
    {
      "epoch": 537.06,
      "learning_rate": 9.40000922594853e-05,
      "loss": 0.4471,
      "step": 27390
    },
    {
      "epoch": 537.25,
      "learning_rate": 9.396088528354184e-05,
      "loss": 0.4472,
      "step": 27400
    },
    {
      "epoch": 537.45,
      "learning_rate": 9.392167277144273e-05,
      "loss": 0.4466,
      "step": 27410
    },
    {
      "epoch": 537.65,
      "learning_rate": 9.388245473463717e-05,
      "loss": 0.4453,
      "step": 27420
    },
    {
      "epoch": 537.84,
      "learning_rate": 9.384323118457593e-05,
      "loss": 0.4475,
      "step": 27430
    },
    {
      "epoch": 538.0,
      "eval_loss": 0.4553549885749817,
      "eval_runtime": 2.1572,
      "eval_samples_per_second": 1056.468,
      "eval_steps_per_second": 4.172,
      "step": 27438
    },
    {
      "epoch": 538.04,
      "learning_rate": 9.380400213271146e-05,
      "loss": 0.4426,
      "step": 27440
    },
    {
      "epoch": 538.24,
      "learning_rate": 9.376476759049773e-05,
      "loss": 0.4476,
      "step": 27450
    },
    {
      "epoch": 538.43,
      "learning_rate": 9.372552756939033e-05,
      "loss": 0.447,
      "step": 27460
    },
    {
      "epoch": 538.63,
      "learning_rate": 9.368628208084654e-05,
      "loss": 0.4471,
      "step": 27470
    },
    {
      "epoch": 538.82,
      "learning_rate": 9.36470311363251e-05,
      "loss": 0.4475,
      "step": 27480
    },
    {
      "epoch": 539.0,
      "eval_loss": 0.44862520694732666,
      "eval_runtime": 2.2485,
      "eval_samples_per_second": 1013.542,
      "eval_steps_per_second": 4.003,
      "step": 27489
    },
    {
      "epoch": 539.02,
      "learning_rate": 9.360777474728644e-05,
      "loss": 0.446,
      "step": 27490
    },
    {
      "epoch": 539.22,
      "learning_rate": 9.356851292519255e-05,
      "loss": 0.4503,
      "step": 27500
    },
    {
      "epoch": 539.41,
      "learning_rate": 9.3529245681507e-05,
      "loss": 0.4517,
      "step": 27510
    },
    {
      "epoch": 539.61,
      "learning_rate": 9.348997302769497e-05,
      "loss": 0.4513,
      "step": 27520
    },
    {
      "epoch": 539.8,
      "learning_rate": 9.345069497522318e-05,
      "loss": 0.445,
      "step": 27530
    },
    {
      "epoch": 540.0,
      "learning_rate": 9.341141153555993e-05,
      "loss": 0.4512,
      "step": 27540
    },
    {
      "epoch": 540.0,
      "eval_loss": 0.45837074518203735,
      "eval_runtime": 2.1784,
      "eval_samples_per_second": 1046.161,
      "eval_steps_per_second": 4.131,
      "step": 27540
    },
    {
      "epoch": 540.2,
      "learning_rate": 9.337212272017514e-05,
      "loss": 0.4532,
      "step": 27550
    },
    {
      "epoch": 540.39,
      "learning_rate": 9.333282854054025e-05,
      "loss": 0.454,
      "step": 27560
    },
    {
      "epoch": 540.59,
      "learning_rate": 9.329352900812828e-05,
      "loss": 0.4488,
      "step": 27570
    },
    {
      "epoch": 540.78,
      "learning_rate": 9.325422413441384e-05,
      "loss": 0.4521,
      "step": 27580
    },
    {
      "epoch": 540.98,
      "learning_rate": 9.321491393087304e-05,
      "loss": 0.445,
      "step": 27590
    },
    {
      "epoch": 541.0,
      "eval_loss": 0.4543311297893524,
      "eval_runtime": 2.2001,
      "eval_samples_per_second": 1035.874,
      "eval_steps_per_second": 4.091,
      "step": 27591
    },
    {
      "epoch": 541.18,
      "learning_rate": 9.317559840898362e-05,
      "loss": 0.4519,
      "step": 27600
    },
    {
      "epoch": 541.37,
      "learning_rate": 9.313627758022483e-05,
      "loss": 0.4481,
      "step": 27610
    },
    {
      "epoch": 541.57,
      "learning_rate": 9.309695145607745e-05,
      "loss": 0.4495,
      "step": 27620
    },
    {
      "epoch": 541.76,
      "learning_rate": 9.305762004802384e-05,
      "loss": 0.4435,
      "step": 27630
    },
    {
      "epoch": 541.96,
      "learning_rate": 9.30182833675479e-05,
      "loss": 0.4478,
      "step": 27640
    },
    {
      "epoch": 542.0,
      "eval_loss": 0.45065122842788696,
      "eval_runtime": 2.1992,
      "eval_samples_per_second": 1036.271,
      "eval_steps_per_second": 4.092,
      "step": 27642
    },
    {
      "epoch": 542.16,
      "learning_rate": 9.297894142613508e-05,
      "loss": 0.4459,
      "step": 27650
    },
    {
      "epoch": 542.35,
      "learning_rate": 9.293959423527233e-05,
      "loss": 0.4501,
      "step": 27660
    },
    {
      "epoch": 542.55,
      "learning_rate": 9.290024180644814e-05,
      "loss": 0.4467,
      "step": 27670
    },
    {
      "epoch": 542.75,
      "learning_rate": 9.286088415115258e-05,
      "loss": 0.4475,
      "step": 27680
    },
    {
      "epoch": 542.94,
      "learning_rate": 9.282152128087714e-05,
      "loss": 0.4472,
      "step": 27690
    },
    {
      "epoch": 543.0,
      "eval_loss": 0.45196664333343506,
      "eval_runtime": 2.1993,
      "eval_samples_per_second": 1036.26,
      "eval_steps_per_second": 4.092,
      "step": 27693
    },
    {
      "epoch": 543.14,
      "learning_rate": 9.278215320711498e-05,
      "loss": 0.4518,
      "step": 27700
    },
    {
      "epoch": 543.33,
      "learning_rate": 9.274277994136068e-05,
      "loss": 0.4531,
      "step": 27710
    },
    {
      "epoch": 543.53,
      "learning_rate": 9.270340149511031e-05,
      "loss": 0.4465,
      "step": 27720
    },
    {
      "epoch": 543.73,
      "learning_rate": 9.266401787986152e-05,
      "loss": 0.4475,
      "step": 27730
    },
    {
      "epoch": 543.92,
      "learning_rate": 9.262462910711349e-05,
      "loss": 0.448,
      "step": 27740
    },
    {
      "epoch": 544.0,
      "eval_loss": 0.450714111328125,
      "eval_runtime": 2.2524,
      "eval_samples_per_second": 1011.789,
      "eval_steps_per_second": 3.996,
      "step": 27744
    },
    {
      "epoch": 544.12,
      "learning_rate": 9.25852351883668e-05,
      "loss": 0.4441,
      "step": 27750
    },
    {
      "epoch": 544.31,
      "learning_rate": 9.254583613512365e-05,
      "loss": 0.4489,
      "step": 27760
    },
    {
      "epoch": 544.51,
      "learning_rate": 9.250643195888763e-05,
      "loss": 0.4485,
      "step": 27770
    },
    {
      "epoch": 544.71,
      "learning_rate": 9.24670226711639e-05,
      "loss": 0.4464,
      "step": 27780
    },
    {
      "epoch": 544.9,
      "learning_rate": 9.242760828345914e-05,
      "loss": 0.4447,
      "step": 27790
    },
    {
      "epoch": 545.0,
      "eval_loss": 0.4513770639896393,
      "eval_runtime": 2.2074,
      "eval_samples_per_second": 1032.432,
      "eval_steps_per_second": 4.077,
      "step": 27795
    },
    {
      "epoch": 545.1,
      "learning_rate": 9.238818880728141e-05,
      "loss": 0.4453,
      "step": 27800
    },
    {
      "epoch": 545.29,
      "learning_rate": 9.234876425414038e-05,
      "loss": 0.4424,
      "step": 27810
    },
    {
      "epoch": 545.49,
      "learning_rate": 9.230933463554707e-05,
      "loss": 0.4513,
      "step": 27820
    },
    {
      "epoch": 545.69,
      "learning_rate": 9.226989996301406e-05,
      "loss": 0.4442,
      "step": 27830
    },
    {
      "epoch": 545.88,
      "learning_rate": 9.223046024805545e-05,
      "loss": 0.4485,
      "step": 27840
    },
    {
      "epoch": 546.0,
      "eval_loss": 0.45527341961860657,
      "eval_runtime": 2.2727,
      "eval_samples_per_second": 1002.78,
      "eval_steps_per_second": 3.96,
      "step": 27846
    },
    {
      "epoch": 546.08,
      "learning_rate": 9.21910155021867e-05,
      "loss": 0.4453,
      "step": 27850
    },
    {
      "epoch": 546.27,
      "learning_rate": 9.215156573692484e-05,
      "loss": 0.4465,
      "step": 27860
    },
    {
      "epoch": 546.47,
      "learning_rate": 9.211211096378832e-05,
      "loss": 0.4485,
      "step": 27870
    },
    {
      "epoch": 546.67,
      "learning_rate": 9.207265119429701e-05,
      "loss": 0.447,
      "step": 27880
    },
    {
      "epoch": 546.86,
      "learning_rate": 9.203318643997231e-05,
      "loss": 0.4482,
      "step": 27890
    },
    {
      "epoch": 547.0,
      "eval_loss": 0.45322051644325256,
      "eval_runtime": 2.2565,
      "eval_samples_per_second": 1009.989,
      "eval_steps_per_second": 3.989,
      "step": 27897
    },
    {
      "epoch": 547.06,
      "learning_rate": 9.199371671233703e-05,
      "loss": 0.4495,
      "step": 27900
    },
    {
      "epoch": 547.25,
      "learning_rate": 9.19542420229155e-05,
      "loss": 0.4469,
      "step": 27910
    },
    {
      "epoch": 547.45,
      "learning_rate": 9.19147623832334e-05,
      "loss": 0.4501,
      "step": 27920
    },
    {
      "epoch": 547.65,
      "learning_rate": 9.18752778048179e-05,
      "loss": 0.4452,
      "step": 27930
    },
    {
      "epoch": 547.84,
      "learning_rate": 9.183578829919766e-05,
      "loss": 0.4448,
      "step": 27940
    },
    {
      "epoch": 548.0,
      "eval_loss": 0.45331457257270813,
      "eval_runtime": 2.3182,
      "eval_samples_per_second": 983.097,
      "eval_steps_per_second": 3.882,
      "step": 27948
    },
    {
      "epoch": 548.04,
      "learning_rate": 9.179629387790273e-05,
      "loss": 0.4482,
      "step": 27950
    },
    {
      "epoch": 548.24,
      "learning_rate": 9.175679455246455e-05,
      "loss": 0.4493,
      "step": 27960
    },
    {
      "epoch": 548.43,
      "learning_rate": 9.171729033441608e-05,
      "loss": 0.4473,
      "step": 27970
    },
    {
      "epoch": 548.63,
      "learning_rate": 9.167778123529166e-05,
      "loss": 0.4484,
      "step": 27980
    },
    {
      "epoch": 548.82,
      "learning_rate": 9.163826726662708e-05,
      "loss": 0.4467,
      "step": 27990
    },
    {
      "epoch": 549.0,
      "eval_loss": 0.451092928647995,
      "eval_runtime": 2.3345,
      "eval_samples_per_second": 976.221,
      "eval_steps_per_second": 3.855,
      "step": 27999
    },
    {
      "epoch": 549.02,
      "learning_rate": 9.159874843995953e-05,
      "loss": 0.441,
      "step": 28000
    },
    {
      "epoch": 549.22,
      "learning_rate": 9.155922476682761e-05,
      "loss": 0.4482,
      "step": 28010
    },
    {
      "epoch": 549.41,
      "learning_rate": 9.151969625877138e-05,
      "loss": 0.4456,
      "step": 28020
    },
    {
      "epoch": 549.61,
      "learning_rate": 9.148016292733227e-05,
      "loss": 0.4459,
      "step": 28030
    },
    {
      "epoch": 549.8,
      "learning_rate": 9.144062478405311e-05,
      "loss": 0.447,
      "step": 28040
    },
    {
      "epoch": 550.0,
      "learning_rate": 9.140108184047819e-05,
      "loss": 0.4473,
      "step": 28050
    },
    {
      "epoch": 550.0,
      "eval_loss": 0.4531325399875641,
      "eval_runtime": 2.2118,
      "eval_samples_per_second": 1030.365,
      "eval_steps_per_second": 4.069,
      "step": 28050
    },
    {
      "epoch": 550.2,
      "learning_rate": 9.136153410815314e-05,
      "loss": 0.4424,
      "step": 28060
    },
    {
      "epoch": 550.39,
      "learning_rate": 9.132198159862502e-05,
      "loss": 0.4469,
      "step": 28070
    },
    {
      "epoch": 550.59,
      "learning_rate": 9.128242432344232e-05,
      "loss": 0.4473,
      "step": 28080
    },
    {
      "epoch": 550.78,
      "learning_rate": 9.124286229415483e-05,
      "loss": 0.4431,
      "step": 28090
    },
    {
      "epoch": 550.98,
      "learning_rate": 9.12032955223138e-05,
      "loss": 0.4423,
      "step": 28100
    },
    {
      "epoch": 551.0,
      "eval_loss": 0.4461700916290283,
      "eval_runtime": 2.3161,
      "eval_samples_per_second": 983.994,
      "eval_steps_per_second": 3.886,
      "step": 28101
    },
    {
      "epoch": 551.18,
      "learning_rate": 9.116372401947184e-05,
      "loss": 0.4453,
      "step": 28110
    },
    {
      "epoch": 551.37,
      "learning_rate": 9.112414779718297e-05,
      "loss": 0.4445,
      "step": 28120
    },
    {
      "epoch": 551.57,
      "learning_rate": 9.108456686700254e-05,
      "loss": 0.4451,
      "step": 28130
    },
    {
      "epoch": 551.76,
      "learning_rate": 9.104498124048729e-05,
      "loss": 0.4423,
      "step": 28140
    },
    {
      "epoch": 551.96,
      "learning_rate": 9.100539092919539e-05,
      "loss": 0.4473,
      "step": 28150
    },
    {
      "epoch": 552.0,
      "eval_loss": 0.45376914739608765,
      "eval_runtime": 2.2299,
      "eval_samples_per_second": 1022.003,
      "eval_steps_per_second": 4.036,
      "step": 28152
    },
    {
      "epoch": 552.16,
      "learning_rate": 9.096579594468628e-05,
      "loss": 0.4518,
      "step": 28160
    },
    {
      "epoch": 552.35,
      "learning_rate": 9.092619629852082e-05,
      "loss": 0.4467,
      "step": 28170
    },
    {
      "epoch": 552.55,
      "learning_rate": 9.088659200226123e-05,
      "loss": 0.4415,
      "step": 28180
    },
    {
      "epoch": 552.75,
      "learning_rate": 9.084698306747106e-05,
      "loss": 0.4454,
      "step": 28190
    },
    {
      "epoch": 552.94,
      "learning_rate": 9.080736950571528e-05,
      "loss": 0.4463,
      "step": 28200
    },
    {
      "epoch": 553.0,
      "eval_loss": 0.44718244671821594,
      "eval_runtime": 2.2312,
      "eval_samples_per_second": 1021.403,
      "eval_steps_per_second": 4.034,
      "step": 28203
    },
    {
      "epoch": 553.14,
      "learning_rate": 9.076775132856014e-05,
      "loss": 0.4421,
      "step": 28210
    },
    {
      "epoch": 553.33,
      "learning_rate": 9.072812854757326e-05,
      "loss": 0.4447,
      "step": 28220
    },
    {
      "epoch": 553.53,
      "learning_rate": 9.068850117432362e-05,
      "loss": 0.4417,
      "step": 28230
    },
    {
      "epoch": 553.73,
      "learning_rate": 9.064886922038155e-05,
      "loss": 0.4433,
      "step": 28240
    },
    {
      "epoch": 553.92,
      "learning_rate": 9.060923269731863e-05,
      "loss": 0.4459,
      "step": 28250
    },
    {
      "epoch": 554.0,
      "eval_loss": 0.44858473539352417,
      "eval_runtime": 2.2955,
      "eval_samples_per_second": 992.806,
      "eval_steps_per_second": 3.921,
      "step": 28254
    },
    {
      "epoch": 554.12,
      "learning_rate": 9.056959161670789e-05,
      "loss": 0.4465,
      "step": 28260
    },
    {
      "epoch": 554.31,
      "learning_rate": 9.052994599012364e-05,
      "loss": 0.4401,
      "step": 28270
    },
    {
      "epoch": 554.51,
      "learning_rate": 9.049029582914152e-05,
      "loss": 0.4439,
      "step": 28280
    },
    {
      "epoch": 554.71,
      "learning_rate": 9.045064114533851e-05,
      "loss": 0.4463,
      "step": 28290
    },
    {
      "epoch": 554.9,
      "learning_rate": 9.041098195029282e-05,
      "loss": 0.4432,
      "step": 28300
    },
    {
      "epoch": 555.0,
      "eval_loss": 0.4470457136631012,
      "eval_runtime": 2.3026,
      "eval_samples_per_second": 989.739,
      "eval_steps_per_second": 3.909,
      "step": 28305
    },
    {
      "epoch": 555.1,
      "learning_rate": 9.037131825558412e-05,
      "loss": 0.4453,
      "step": 28310
    },
    {
      "epoch": 555.29,
      "learning_rate": 9.033165007279328e-05,
      "loss": 0.4443,
      "step": 28320
    },
    {
      "epoch": 555.49,
      "learning_rate": 9.029197741350259e-05,
      "loss": 0.4401,
      "step": 28330
    },
    {
      "epoch": 555.69,
      "learning_rate": 9.025230028929551e-05,
      "loss": 0.4378,
      "step": 28340
    },
    {
      "epoch": 555.88,
      "learning_rate": 9.021261871175689e-05,
      "loss": 0.4448,
      "step": 28350
    },
    {
      "epoch": 556.0,
      "eval_loss": 0.45223483443260193,
      "eval_runtime": 2.292,
      "eval_samples_per_second": 994.322,
      "eval_steps_per_second": 3.927,
      "step": 28356
    },
    {
      "epoch": 556.08,
      "learning_rate": 9.017293269247294e-05,
      "loss": 0.4481,
      "step": 28360
    },
    {
      "epoch": 556.27,
      "learning_rate": 9.0133242243031e-05,
      "loss": 0.448,
      "step": 28370
    },
    {
      "epoch": 556.47,
      "learning_rate": 9.009354737501981e-05,
      "loss": 0.4442,
      "step": 28380
    },
    {
      "epoch": 556.67,
      "learning_rate": 9.005384810002943e-05,
      "loss": 0.4417,
      "step": 28390
    },
    {
      "epoch": 556.86,
      "learning_rate": 9.001414442965111e-05,
      "loss": 0.4406,
      "step": 28400
    },
    {
      "epoch": 557.0,
      "eval_loss": 0.45280978083610535,
      "eval_runtime": 2.1811,
      "eval_samples_per_second": 1044.869,
      "eval_steps_per_second": 4.126,
      "step": 28407
    },
    {
      "epoch": 557.06,
      "learning_rate": 8.997443637547749e-05,
      "loss": 0.4386,
      "step": 28410
    },
    {
      "epoch": 557.25,
      "learning_rate": 8.99347239491024e-05,
      "loss": 0.4453,
      "step": 28420
    },
    {
      "epoch": 557.45,
      "learning_rate": 8.9895007162121e-05,
      "loss": 0.445,
      "step": 28430
    },
    {
      "epoch": 557.65,
      "learning_rate": 8.98552860261297e-05,
      "loss": 0.4407,
      "step": 28440
    },
    {
      "epoch": 557.84,
      "learning_rate": 8.981556055272618e-05,
      "loss": 0.4433,
      "step": 28450
    },
    {
      "epoch": 558.0,
      "eval_loss": 0.45024630427360535,
      "eval_runtime": 2.2208,
      "eval_samples_per_second": 1026.227,
      "eval_steps_per_second": 4.053,
      "step": 28458
    },
    {
      "epoch": 558.04,
      "learning_rate": 8.97758307535094e-05,
      "loss": 0.4461,
      "step": 28460
    },
    {
      "epoch": 558.24,
      "learning_rate": 8.973609664007956e-05,
      "loss": 0.4451,
      "step": 28470
    },
    {
      "epoch": 558.43,
      "learning_rate": 8.969635822403816e-05,
      "loss": 0.4448,
      "step": 28480
    },
    {
      "epoch": 558.63,
      "learning_rate": 8.965661551698793e-05,
      "loss": 0.4462,
      "step": 28490
    },
    {
      "epoch": 558.82,
      "learning_rate": 8.961686853053284e-05,
      "loss": 0.4447,
      "step": 28500
    },
    {
      "epoch": 559.0,
      "eval_loss": 0.44705361127853394,
      "eval_runtime": 2.3532,
      "eval_samples_per_second": 968.453,
      "eval_steps_per_second": 3.825,
      "step": 28509
    },
    {
      "epoch": 559.02,
      "learning_rate": 8.95771172762781e-05,
      "loss": 0.4436,
      "step": 28510
    },
    {
      "epoch": 559.22,
      "learning_rate": 8.953736176583024e-05,
      "loss": 0.4435,
      "step": 28520
    },
    {
      "epoch": 559.41,
      "learning_rate": 8.949760201079695e-05,
      "loss": 0.4488,
      "step": 28530
    },
    {
      "epoch": 559.61,
      "learning_rate": 8.945783802278721e-05,
      "loss": 0.4413,
      "step": 28540
    },
    {
      "epoch": 559.8,
      "learning_rate": 8.941806981341121e-05,
      "loss": 0.4442,
      "step": 28550
    },
    {
      "epoch": 560.0,
      "learning_rate": 8.937829739428038e-05,
      "loss": 0.4438,
      "step": 28560
    },
    {
      "epoch": 560.0,
      "eval_loss": 0.44999274611473083,
      "eval_runtime": 2.2349,
      "eval_samples_per_second": 1019.738,
      "eval_steps_per_second": 4.027,
      "step": 28560
    },
    {
      "epoch": 560.2,
      "learning_rate": 8.933852077700738e-05,
      "loss": 0.4454,
      "step": 28570
    },
    {
      "epoch": 560.39,
      "learning_rate": 8.929873997320608e-05,
      "loss": 0.4419,
      "step": 28580
    },
    {
      "epoch": 560.59,
      "learning_rate": 8.92589549944916e-05,
      "loss": 0.4426,
      "step": 28590
    },
    {
      "epoch": 560.78,
      "learning_rate": 8.921916585248027e-05,
      "loss": 0.4401,
      "step": 28600
    },
    {
      "epoch": 560.98,
      "learning_rate": 8.917937255878963e-05,
      "loss": 0.4433,
      "step": 28610
    },
    {
      "epoch": 561.0,
      "eval_loss": 0.4470755159854889,
      "eval_runtime": 2.354,
      "eval_samples_per_second": 968.157,
      "eval_steps_per_second": 3.823,
      "step": 28611
    },
    {
      "epoch": 561.18,
      "learning_rate": 8.913957512503844e-05,
      "loss": 0.4507,
      "step": 28620
    },
    {
      "epoch": 561.37,
      "learning_rate": 8.909977356284665e-05,
      "loss": 0.4438,
      "step": 28630
    },
    {
      "epoch": 561.57,
      "learning_rate": 8.905996788383543e-05,
      "loss": 0.4419,
      "step": 28640
    },
    {
      "epoch": 561.76,
      "learning_rate": 8.902015809962717e-05,
      "loss": 0.4417,
      "step": 28650
    },
    {
      "epoch": 561.96,
      "learning_rate": 8.898034422184542e-05,
      "loss": 0.4412,
      "step": 28660
    },
    {
      "epoch": 562.0,
      "eval_loss": 0.44909417629241943,
      "eval_runtime": 2.2227,
      "eval_samples_per_second": 1025.318,
      "eval_steps_per_second": 4.049,
      "step": 28662
    },
    {
      "epoch": 562.16,
      "learning_rate": 8.894052626211494e-05,
      "loss": 0.4466,
      "step": 28670
    },
    {
      "epoch": 562.35,
      "learning_rate": 8.890070423206171e-05,
      "loss": 0.4483,
      "step": 28680
    },
    {
      "epoch": 562.55,
      "learning_rate": 8.886087814331283e-05,
      "loss": 0.4412,
      "step": 28690
    },
    {
      "epoch": 562.75,
      "learning_rate": 8.882104800749671e-05,
      "loss": 0.4419,
      "step": 28700
    },
    {
      "epoch": 562.94,
      "learning_rate": 8.878121383624278e-05,
      "loss": 0.4357,
      "step": 28710
    },
    {
      "epoch": 563.0,
      "eval_loss": 0.4474387466907501,
      "eval_runtime": 2.317,
      "eval_samples_per_second": 983.597,
      "eval_steps_per_second": 3.884,
      "step": 28713
    },
    {
      "epoch": 563.14,
      "learning_rate": 8.874137564118174e-05,
      "loss": 0.4407,
      "step": 28720
    },
    {
      "epoch": 563.33,
      "learning_rate": 8.870153343394552e-05,
      "loss": 0.4416,
      "step": 28730
    },
    {
      "epoch": 563.53,
      "learning_rate": 8.866168722616707e-05,
      "loss": 0.4397,
      "step": 28740
    },
    {
      "epoch": 563.73,
      "learning_rate": 8.862183702948066e-05,
      "loss": 0.4414,
      "step": 28750
    },
    {
      "epoch": 563.92,
      "learning_rate": 8.858198285552164e-05,
      "loss": 0.4424,
      "step": 28760
    },
    {
      "epoch": 564.0,
      "eval_loss": 0.44805294275283813,
      "eval_runtime": 2.3439,
      "eval_samples_per_second": 972.294,
      "eval_steps_per_second": 3.84,
      "step": 28764
    },
    {
      "epoch": 564.12,
      "learning_rate": 8.854212471592652e-05,
      "loss": 0.4423,
      "step": 28770
    },
    {
      "epoch": 564.31,
      "learning_rate": 8.850226262233302e-05,
      "loss": 0.4466,
      "step": 28780
    },
    {
      "epoch": 564.51,
      "learning_rate": 8.846239658637994e-05,
      "loss": 0.4365,
      "step": 28790
    },
    {
      "epoch": 564.71,
      "learning_rate": 8.84225266197073e-05,
      "loss": 0.4449,
      "step": 28800
    },
    {
      "epoch": 564.9,
      "learning_rate": 8.838265273395625e-05,
      "loss": 0.4412,
      "step": 28810
    },
    {
      "epoch": 565.0,
      "eval_loss": 0.4479809105396271,
      "eval_runtime": 2.2726,
      "eval_samples_per_second": 1002.819,
      "eval_steps_per_second": 3.96,
      "step": 28815
    },
    {
      "epoch": 565.1,
      "learning_rate": 8.834277494076904e-05,
      "loss": 0.4408,
      "step": 28820
    },
    {
      "epoch": 565.29,
      "learning_rate": 8.830289325178915e-05,
      "loss": 0.4453,
      "step": 28830
    },
    {
      "epoch": 565.49,
      "learning_rate": 8.826300767866111e-05,
      "loss": 0.4493,
      "step": 28840
    },
    {
      "epoch": 565.69,
      "learning_rate": 8.822311823303061e-05,
      "loss": 0.4414,
      "step": 28850
    },
    {
      "epoch": 565.88,
      "learning_rate": 8.818322492654448e-05,
      "loss": 0.4483,
      "step": 28860
    },
    {
      "epoch": 566.0,
      "eval_loss": 0.4453369081020355,
      "eval_runtime": 2.2664,
      "eval_samples_per_second": 1005.562,
      "eval_steps_per_second": 3.971,
      "step": 28866
    },
    {
      "epoch": 566.08,
      "learning_rate": 8.81433277708507e-05,
      "loss": 0.4432,
      "step": 28870
    },
    {
      "epoch": 566.27,
      "learning_rate": 8.810342677759833e-05,
      "loss": 0.4364,
      "step": 28880
    },
    {
      "epoch": 566.47,
      "learning_rate": 8.80635219584376e-05,
      "loss": 0.439,
      "step": 28890
    },
    {
      "epoch": 566.67,
      "learning_rate": 8.802361332501978e-05,
      "loss": 0.4412,
      "step": 28900
    },
    {
      "epoch": 566.86,
      "learning_rate": 8.798370088899733e-05,
      "loss": 0.4397,
      "step": 28910
    },
    {
      "epoch": 567.0,
      "eval_loss": 0.4435195326805115,
      "eval_runtime": 2.2184,
      "eval_samples_per_second": 1027.336,
      "eval_steps_per_second": 4.057,
      "step": 28917
    },
    {
      "epoch": 567.06,
      "learning_rate": 8.794378466202377e-05,
      "loss": 0.4363,
      "step": 28920
    },
    {
      "epoch": 567.25,
      "learning_rate": 8.790386465575376e-05,
      "loss": 0.4437,
      "step": 28930
    },
    {
      "epoch": 567.45,
      "learning_rate": 8.78639408818431e-05,
      "loss": 0.4402,
      "step": 28940
    },
    {
      "epoch": 567.65,
      "learning_rate": 8.782401335194854e-05,
      "loss": 0.4403,
      "step": 28950
    },
    {
      "epoch": 567.84,
      "learning_rate": 8.778408207772813e-05,
      "loss": 0.4377,
      "step": 28960
    },
    {
      "epoch": 568.0,
      "eval_loss": 0.446013480424881,
      "eval_runtime": 2.2216,
      "eval_samples_per_second": 1025.817,
      "eval_steps_per_second": 4.051,
      "step": 28968
    },
    {
      "epoch": 568.04,
      "learning_rate": 8.774414707084085e-05,
      "loss": 0.4416,
      "step": 28970
    },
    {
      "epoch": 568.24,
      "learning_rate": 8.770420834294683e-05,
      "loss": 0.435,
      "step": 28980
    },
    {
      "epoch": 568.43,
      "learning_rate": 8.766426590570733e-05,
      "loss": 0.4426,
      "step": 28990
    },
    {
      "epoch": 568.63,
      "learning_rate": 8.762431977078461e-05,
      "loss": 0.4417,
      "step": 29000
    },
    {
      "epoch": 568.82,
      "learning_rate": 8.758436994984206e-05,
      "loss": 0.4424,
      "step": 29010
    },
    {
      "epoch": 569.0,
      "eval_loss": 0.4475310444831848,
      "eval_runtime": 2.2115,
      "eval_samples_per_second": 1030.531,
      "eval_steps_per_second": 4.07,
      "step": 29019
    },
    {
      "epoch": 569.02,
      "learning_rate": 8.754441645454416e-05,
      "loss": 0.4454,
      "step": 29020
    },
    {
      "epoch": 569.22,
      "learning_rate": 8.750445929655642e-05,
      "loss": 0.4375,
      "step": 29030
    },
    {
      "epoch": 569.41,
      "learning_rate": 8.746449848754546e-05,
      "loss": 0.44,
      "step": 29040
    },
    {
      "epoch": 569.61,
      "learning_rate": 8.74245340391789e-05,
      "loss": 0.4443,
      "step": 29050
    },
    {
      "epoch": 569.8,
      "learning_rate": 8.738456596312549e-05,
      "loss": 0.44,
      "step": 29060
    },
    {
      "epoch": 570.0,
      "learning_rate": 8.734459427105504e-05,
      "loss": 0.4412,
      "step": 29070
    },
    {
      "epoch": 570.0,
      "eval_loss": 0.44452720880508423,
      "eval_runtime": 2.2457,
      "eval_samples_per_second": 1014.851,
      "eval_steps_per_second": 4.008,
      "step": 29070
    },
    {
      "epoch": 570.2,
      "learning_rate": 8.730461897463838e-05,
      "loss": 0.4409,
      "step": 29080
    },
    {
      "epoch": 570.39,
      "learning_rate": 8.726464008554736e-05,
      "loss": 0.4418,
      "step": 29090
    },
    {
      "epoch": 570.59,
      "learning_rate": 8.7224657615455e-05,
      "loss": 0.4427,
      "step": 29100
    },
    {
      "epoch": 570.78,
      "learning_rate": 8.718467157603525e-05,
      "loss": 0.4463,
      "step": 29110
    },
    {
      "epoch": 570.98,
      "learning_rate": 8.714468197896313e-05,
      "loss": 0.4435,
      "step": 29120
    },
    {
      "epoch": 571.0,
      "eval_loss": 0.441842257976532,
      "eval_runtime": 2.1954,
      "eval_samples_per_second": 1038.08,
      "eval_steps_per_second": 4.099,
      "step": 29121
    },
    {
      "epoch": 571.18,
      "learning_rate": 8.710468883591474e-05,
      "loss": 0.44,
      "step": 29130
    },
    {
      "epoch": 571.37,
      "learning_rate": 8.706469215856715e-05,
      "loss": 0.4434,
      "step": 29140
    },
    {
      "epoch": 571.57,
      "learning_rate": 8.702469195859853e-05,
      "loss": 0.4397,
      "step": 29150
    },
    {
      "epoch": 571.76,
      "learning_rate": 8.698468824768803e-05,
      "loss": 0.4398,
      "step": 29160
    },
    {
      "epoch": 571.96,
      "learning_rate": 8.694468103751586e-05,
      "loss": 0.4398,
      "step": 29170
    },
    {
      "epoch": 572.0,
      "eval_loss": 0.4434479773044586,
      "eval_runtime": 2.2832,
      "eval_samples_per_second": 998.16,
      "eval_steps_per_second": 3.942,
      "step": 29172
    },
    {
      "epoch": 572.16,
      "learning_rate": 8.690467033976322e-05,
      "loss": 0.4408,
      "step": 29180
    },
    {
      "epoch": 572.35,
      "learning_rate": 8.686465616611232e-05,
      "loss": 0.4413,
      "step": 29190
    },
    {
      "epoch": 572.55,
      "learning_rate": 8.682463852824644e-05,
      "loss": 0.4385,
      "step": 29200
    },
    {
      "epoch": 572.75,
      "learning_rate": 8.678461743784983e-05,
      "loss": 0.4384,
      "step": 29210
    },
    {
      "epoch": 572.94,
      "learning_rate": 8.674459290660773e-05,
      "loss": 0.4427,
      "step": 29220
    },
    {
      "epoch": 573.0,
      "eval_loss": 0.44168439507484436,
      "eval_runtime": 2.2332,
      "eval_samples_per_second": 1020.522,
      "eval_steps_per_second": 4.03,
      "step": 29223
    },
    {
      "epoch": 573.14,
      "learning_rate": 8.670456494620645e-05,
      "loss": 0.4434,
      "step": 29230
    },
    {
      "epoch": 573.33,
      "learning_rate": 8.666453356833323e-05,
      "loss": 0.4396,
      "step": 29240
    },
    {
      "epoch": 573.53,
      "learning_rate": 8.662449878467637e-05,
      "loss": 0.4406,
      "step": 29250
    },
    {
      "epoch": 573.73,
      "learning_rate": 8.658446060692512e-05,
      "loss": 0.4434,
      "step": 29260
    },
    {
      "epoch": 573.92,
      "learning_rate": 8.65444190467697e-05,
      "loss": 0.4409,
      "step": 29270
    },
    {
      "epoch": 574.0,
      "eval_loss": 0.44099777936935425,
      "eval_runtime": 2.2519,
      "eval_samples_per_second": 1012.023,
      "eval_steps_per_second": 3.997,
      "step": 29274
    },
    {
      "epoch": 574.12,
      "learning_rate": 8.650437411590141e-05,
      "loss": 0.4399,
      "step": 29280
    },
    {
      "epoch": 574.31,
      "learning_rate": 8.646432582601244e-05,
      "loss": 0.4385,
      "step": 29290
    },
    {
      "epoch": 574.51,
      "learning_rate": 8.6424274188796e-05,
      "loss": 0.4378,
      "step": 29300
    },
    {
      "epoch": 574.71,
      "learning_rate": 8.63842192159463e-05,
      "loss": 0.4413,
      "step": 29310
    },
    {
      "epoch": 574.9,
      "learning_rate": 8.634416091915846e-05,
      "loss": 0.4425,
      "step": 29320
    },
    {
      "epoch": 575.0,
      "eval_loss": 0.4433988630771637,
      "eval_runtime": 2.3093,
      "eval_samples_per_second": 986.89,
      "eval_steps_per_second": 3.897,
      "step": 29325
    },
    {
      "epoch": 575.1,
      "learning_rate": 8.630409931012866e-05,
      "loss": 0.445,
      "step": 29330
    },
    {
      "epoch": 575.29,
      "learning_rate": 8.626403440055395e-05,
      "loss": 0.439,
      "step": 29340
    },
    {
      "epoch": 575.49,
      "learning_rate": 8.622396620213241e-05,
      "loss": 0.4458,
      "step": 29350
    },
    {
      "epoch": 575.69,
      "learning_rate": 8.618389472656305e-05,
      "loss": 0.4361,
      "step": 29360
    },
    {
      "epoch": 575.88,
      "learning_rate": 8.614381998554585e-05,
      "loss": 0.4402,
      "step": 29370
    },
    {
      "epoch": 576.0,
      "eval_loss": 0.4489006996154785,
      "eval_runtime": 2.2375,
      "eval_samples_per_second": 1018.567,
      "eval_steps_per_second": 4.022,
      "step": 29376
    },
    {
      "epoch": 576.08,
      "learning_rate": 8.610374199078179e-05,
      "loss": 0.4417,
      "step": 29380
    },
    {
      "epoch": 576.27,
      "learning_rate": 8.606366075397266e-05,
      "loss": 0.4436,
      "step": 29390
    },
    {
      "epoch": 576.47,
      "learning_rate": 8.602357628682135e-05,
      "loss": 0.4445,
      "step": 29400
    },
    {
      "epoch": 576.67,
      "learning_rate": 8.598348860103162e-05,
      "loss": 0.4367,
      "step": 29410
    },
    {
      "epoch": 576.86,
      "learning_rate": 8.594339770830815e-05,
      "loss": 0.4394,
      "step": 29420
    },
    {
      "epoch": 577.0,
      "eval_loss": 0.4435146450996399,
      "eval_runtime": 2.2075,
      "eval_samples_per_second": 1032.38,
      "eval_steps_per_second": 4.077,
      "step": 29427
    },
    {
      "epoch": 577.06,
      "learning_rate": 8.590330362035663e-05,
      "loss": 0.4387,
      "step": 29430
    },
    {
      "epoch": 577.25,
      "learning_rate": 8.58632063488836e-05,
      "loss": 0.4438,
      "step": 29440
    },
    {
      "epoch": 577.45,
      "learning_rate": 8.582310590559662e-05,
      "loss": 0.4413,
      "step": 29450
    },
    {
      "epoch": 577.65,
      "learning_rate": 8.578300230220408e-05,
      "loss": 0.4334,
      "step": 29460
    },
    {
      "epoch": 577.84,
      "learning_rate": 8.574289555041537e-05,
      "loss": 0.4379,
      "step": 29470
    },
    {
      "epoch": 578.0,
      "eval_loss": 0.4446564018726349,
      "eval_runtime": 2.2644,
      "eval_samples_per_second": 1006.439,
      "eval_steps_per_second": 3.975,
      "step": 29478
    },
    {
      "epoch": 578.04,
      "learning_rate": 8.570278566194071e-05,
      "loss": 0.4394,
      "step": 29480
    },
    {
      "epoch": 578.24,
      "learning_rate": 8.566267264849137e-05,
      "loss": 0.4376,
      "step": 29490
    },
    {
      "epoch": 578.43,
      "learning_rate": 8.56225565217794e-05,
      "loss": 0.4346,
      "step": 29500
    },
    {
      "epoch": 578.63,
      "learning_rate": 8.558243729351784e-05,
      "loss": 0.442,
      "step": 29510
    },
    {
      "epoch": 578.82,
      "learning_rate": 8.554231497542058e-05,
      "loss": 0.4391,
      "step": 29520
    },
    {
      "epoch": 579.0,
      "eval_loss": 0.44711729884147644,
      "eval_runtime": 2.3296,
      "eval_samples_per_second": 978.296,
      "eval_steps_per_second": 3.863,
      "step": 29529
    },
    {
      "epoch": 579.02,
      "learning_rate": 8.550218957920247e-05,
      "loss": 0.4372,
      "step": 29530
    },
    {
      "epoch": 579.22,
      "learning_rate": 8.546206111657923e-05,
      "loss": 0.4419,
      "step": 29540
    },
    {
      "epoch": 579.41,
      "learning_rate": 8.542192959926748e-05,
      "loss": 0.4369,
      "step": 29550
    },
    {
      "epoch": 579.61,
      "learning_rate": 8.538179503898471e-05,
      "loss": 0.4351,
      "step": 29560
    },
    {
      "epoch": 579.8,
      "learning_rate": 8.534165744744933e-05,
      "loss": 0.4397,
      "step": 29570
    },
    {
      "epoch": 580.0,
      "learning_rate": 8.530151683638061e-05,
      "loss": 0.4404,
      "step": 29580
    },
    {
      "epoch": 580.0,
      "eval_loss": 0.44352006912231445,
      "eval_runtime": 2.2363,
      "eval_samples_per_second": 1019.074,
      "eval_steps_per_second": 4.024,
      "step": 29580
    },
    {
      "epoch": 580.2,
      "learning_rate": 8.526137321749872e-05,
      "loss": 0.4387,
      "step": 29590
    },
    {
      "epoch": 580.39,
      "learning_rate": 8.522122660252471e-05,
      "loss": 0.4392,
      "step": 29600
    },
    {
      "epoch": 580.59,
      "learning_rate": 8.518107700318048e-05,
      "loss": 0.4391,
      "step": 29610
    },
    {
      "epoch": 580.78,
      "learning_rate": 8.514092443118883e-05,
      "loss": 0.4382,
      "step": 29620
    },
    {
      "epoch": 580.98,
      "learning_rate": 8.51007688982734e-05,
      "loss": 0.4399,
      "step": 29630
    },
    {
      "epoch": 581.0,
      "eval_loss": 0.4410766363143921,
      "eval_runtime": 2.2013,
      "eval_samples_per_second": 1035.315,
      "eval_steps_per_second": 4.089,
      "step": 29631
    },
    {
      "epoch": 581.18,
      "learning_rate": 8.506061041615872e-05,
      "loss": 0.4412,
      "step": 29640
    },
    {
      "epoch": 581.37,
      "learning_rate": 8.50204489965702e-05,
      "loss": 0.4364,
      "step": 29650
    },
    {
      "epoch": 581.57,
      "learning_rate": 8.498028465123402e-05,
      "loss": 0.439,
      "step": 29660
    },
    {
      "epoch": 581.76,
      "learning_rate": 8.494011739187732e-05,
      "loss": 0.4371,
      "step": 29670
    },
    {
      "epoch": 581.96,
      "learning_rate": 8.489994723022801e-05,
      "loss": 0.4353,
      "step": 29680
    },
    {
      "epoch": 582.0,
      "eval_loss": 0.4415852725505829,
      "eval_runtime": 2.2155,
      "eval_samples_per_second": 1028.655,
      "eval_steps_per_second": 4.062,
      "step": 29682
    },
    {
      "epoch": 582.16,
      "learning_rate": 8.485977417801492e-05,
      "loss": 0.4406,
      "step": 29690
    },
    {
      "epoch": 582.35,
      "learning_rate": 8.481959824696765e-05,
      "loss": 0.4348,
      "step": 29700
    },
    {
      "epoch": 582.55,
      "learning_rate": 8.47794194488167e-05,
      "loss": 0.4389,
      "step": 29710
    },
    {
      "epoch": 582.75,
      "learning_rate": 8.473923779529337e-05,
      "loss": 0.4417,
      "step": 29720
    },
    {
      "epoch": 582.94,
      "learning_rate": 8.469905329812981e-05,
      "loss": 0.4417,
      "step": 29730
    },
    {
      "epoch": 583.0,
      "eval_loss": 0.4416983425617218,
      "eval_runtime": 2.1672,
      "eval_samples_per_second": 1051.592,
      "eval_steps_per_second": 4.153,
      "step": 29733
    },
    {
      "epoch": 583.14,
      "learning_rate": 8.4658865969059e-05,
      "loss": 0.4421,
      "step": 29740
    },
    {
      "epoch": 583.33,
      "learning_rate": 8.461867581981472e-05,
      "loss": 0.4421,
      "step": 29750
    },
    {
      "epoch": 583.53,
      "learning_rate": 8.457848286213166e-05,
      "loss": 0.435,
      "step": 29760
    },
    {
      "epoch": 583.73,
      "learning_rate": 8.453828710774517e-05,
      "loss": 0.4389,
      "step": 29770
    },
    {
      "epoch": 583.92,
      "learning_rate": 8.44980885683916e-05,
      "loss": 0.4389,
      "step": 29780
    },
    {
      "epoch": 584.0,
      "eval_loss": 0.4399338662624359,
      "eval_runtime": 2.2366,
      "eval_samples_per_second": 1018.961,
      "eval_steps_per_second": 4.024,
      "step": 29784
    },
    {
      "epoch": 584.12,
      "learning_rate": 8.4457887255808e-05,
      "loss": 0.4362,
      "step": 29790
    },
    {
      "epoch": 584.31,
      "learning_rate": 8.441768318173226e-05,
      "loss": 0.4391,
      "step": 29800
    },
    {
      "epoch": 584.51,
      "learning_rate": 8.437747635790304e-05,
      "loss": 0.4367,
      "step": 29810
    },
    {
      "epoch": 584.71,
      "learning_rate": 8.433726679605987e-05,
      "loss": 0.4409,
      "step": 29820
    },
    {
      "epoch": 584.9,
      "learning_rate": 8.429705450794304e-05,
      "loss": 0.4378,
      "step": 29830
    },
    {
      "epoch": 585.0,
      "eval_loss": 0.44315850734710693,
      "eval_runtime": 2.3103,
      "eval_samples_per_second": 986.471,
      "eval_steps_per_second": 3.896,
      "step": 29835
    },
    {
      "epoch": 585.1,
      "learning_rate": 8.425683950529364e-05,
      "loss": 0.4343,
      "step": 29840
    },
    {
      "epoch": 585.29,
      "learning_rate": 8.421662179985356e-05,
      "loss": 0.4368,
      "step": 29850
    },
    {
      "epoch": 585.49,
      "learning_rate": 8.417640140336546e-05,
      "loss": 0.4365,
      "step": 29860
    },
    {
      "epoch": 585.69,
      "learning_rate": 8.413617832757278e-05,
      "loss": 0.4407,
      "step": 29870
    },
    {
      "epoch": 585.88,
      "learning_rate": 8.409595258421981e-05,
      "loss": 0.439,
      "step": 29880
    },
    {
      "epoch": 586.0,
      "eval_loss": 0.44265684485435486,
      "eval_runtime": 2.3136,
      "eval_samples_per_second": 985.054,
      "eval_steps_per_second": 3.89,
      "step": 29886
    },
    {
      "epoch": 586.08,
      "learning_rate": 8.405572418505156e-05,
      "loss": 0.4379,
      "step": 29890
    },
    {
      "epoch": 586.27,
      "learning_rate": 8.401549314181376e-05,
      "loss": 0.4392,
      "step": 29900
    },
    {
      "epoch": 586.47,
      "learning_rate": 8.397525946625307e-05,
      "loss": 0.438,
      "step": 29910
    },
    {
      "epoch": 586.67,
      "learning_rate": 8.393502317011676e-05,
      "loss": 0.4313,
      "step": 29920
    },
    {
      "epoch": 586.86,
      "learning_rate": 8.389478426515299e-05,
      "loss": 0.431,
      "step": 29930
    },
    {
      "epoch": 587.0,
      "eval_loss": 0.4403259754180908,
      "eval_runtime": 2.3194,
      "eval_samples_per_second": 982.582,
      "eval_steps_per_second": 3.88,
      "step": 29937
    },
    {
      "epoch": 587.06,
      "learning_rate": 8.385454276311057e-05,
      "loss": 0.4365,
      "step": 29940
    },
    {
      "epoch": 587.25,
      "learning_rate": 8.381429867573911e-05,
      "loss": 0.4384,
      "step": 29950
    },
    {
      "epoch": 587.45,
      "learning_rate": 8.377405201478904e-05,
      "loss": 0.433,
      "step": 29960
    },
    {
      "epoch": 587.65,
      "learning_rate": 8.373380279201146e-05,
      "loss": 0.4378,
      "step": 29970
    },
    {
      "epoch": 587.84,
      "learning_rate": 8.369355101915824e-05,
      "loss": 0.4348,
      "step": 29980
    },
    {
      "epoch": 588.0,
      "eval_loss": 0.4408820867538452,
      "eval_runtime": 2.3452,
      "eval_samples_per_second": 971.782,
      "eval_steps_per_second": 3.838,
      "step": 29988
    },
    {
      "epoch": 588.04,
      "learning_rate": 8.365329670798203e-05,
      "loss": 0.435,
      "step": 29990
    },
    {
      "epoch": 588.24,
      "learning_rate": 8.361303987023614e-05,
      "loss": 0.4375,
      "step": 30000
    },
    {
      "epoch": 588.43,
      "learning_rate": 8.357278051767472e-05,
      "loss": 0.4412,
      "step": 30010
    },
    {
      "epoch": 588.63,
      "learning_rate": 8.353251866205257e-05,
      "loss": 0.4345,
      "step": 30020
    },
    {
      "epoch": 588.82,
      "learning_rate": 8.349225431512524e-05,
      "loss": 0.4363,
      "step": 30030
    },
    {
      "epoch": 589.0,
      "eval_loss": 0.44250038266181946,
      "eval_runtime": 2.2027,
      "eval_samples_per_second": 1034.662,
      "eval_steps_per_second": 4.086,
      "step": 30039
    },
    {
      "epoch": 589.02,
      "learning_rate": 8.345198748864909e-05,
      "loss": 0.4344,
      "step": 30040
    },
    {
      "epoch": 589.22,
      "learning_rate": 8.341171819438106e-05,
      "loss": 0.4384,
      "step": 30050
    },
    {
      "epoch": 589.41,
      "learning_rate": 8.337144644407893e-05,
      "loss": 0.4389,
      "step": 30060
    },
    {
      "epoch": 589.61,
      "learning_rate": 8.333117224950114e-05,
      "loss": 0.4378,
      "step": 30070
    },
    {
      "epoch": 589.8,
      "learning_rate": 8.329089562240686e-05,
      "loss": 0.4367,
      "step": 30080
    },
    {
      "epoch": 590.0,
      "learning_rate": 8.325061657455594e-05,
      "loss": 0.4399,
      "step": 30090
    },
    {
      "epoch": 590.0,
      "eval_loss": 0.4393501877784729,
      "eval_runtime": 2.3569,
      "eval_samples_per_second": 966.933,
      "eval_steps_per_second": 3.819,
      "step": 30090
    },
    {
      "epoch": 590.2,
      "learning_rate": 8.3210335117709e-05,
      "loss": 0.4309,
      "step": 30100
    },
    {
      "epoch": 590.39,
      "learning_rate": 8.317005126362731e-05,
      "loss": 0.4375,
      "step": 30110
    },
    {
      "epoch": 590.59,
      "learning_rate": 8.312976502407288e-05,
      "loss": 0.435,
      "step": 30120
    },
    {
      "epoch": 590.78,
      "learning_rate": 8.308947641080836e-05,
      "loss": 0.4352,
      "step": 30130
    },
    {
      "epoch": 590.98,
      "learning_rate": 8.304918543559715e-05,
      "loss": 0.4342,
      "step": 30140
    },
    {
      "epoch": 591.0,
      "eval_loss": 0.4411936104297638,
      "eval_runtime": 2.2081,
      "eval_samples_per_second": 1032.125,
      "eval_steps_per_second": 4.076,
      "step": 30141
    },
    {
      "epoch": 591.18,
      "learning_rate": 8.300889211020331e-05,
      "loss": 0.4317,
      "step": 30150
    },
    {
      "epoch": 591.37,
      "learning_rate": 8.296859644639157e-05,
      "loss": 0.4366,
      "step": 30160
    },
    {
      "epoch": 591.57,
      "learning_rate": 8.292829845592739e-05,
      "loss": 0.4366,
      "step": 30170
    },
    {
      "epoch": 591.76,
      "learning_rate": 8.288799815057689e-05,
      "loss": 0.4329,
      "step": 30180
    },
    {
      "epoch": 591.96,
      "learning_rate": 8.284769554210685e-05,
      "loss": 0.4342,
      "step": 30190
    },
    {
      "epoch": 592.0,
      "eval_loss": 0.4399246275424957,
      "eval_runtime": 2.2423,
      "eval_samples_per_second": 1016.359,
      "eval_steps_per_second": 4.014,
      "step": 30192
    },
    {
      "epoch": 592.16,
      "learning_rate": 8.280739064228471e-05,
      "loss": 0.4357,
      "step": 30200
    },
    {
      "epoch": 592.35,
      "learning_rate": 8.276708346287865e-05,
      "loss": 0.4347,
      "step": 30210
    },
    {
      "epoch": 592.55,
      "learning_rate": 8.272677401565742e-05,
      "loss": 0.4355,
      "step": 30220
    },
    {
      "epoch": 592.75,
      "learning_rate": 8.268646231239052e-05,
      "loss": 0.4405,
      "step": 30230
    },
    {
      "epoch": 592.94,
      "learning_rate": 8.264614836484803e-05,
      "loss": 0.4348,
      "step": 30240
    },
    {
      "epoch": 593.0,
      "eval_loss": 0.441998690366745,
      "eval_runtime": 2.2767,
      "eval_samples_per_second": 1001.018,
      "eval_steps_per_second": 3.953,
      "step": 30243
    },
    {
      "epoch": 593.14,
      "learning_rate": 8.260583218480075e-05,
      "loss": 0.4352,
      "step": 30250
    },
    {
      "epoch": 593.33,
      "learning_rate": 8.256551378402012e-05,
      "loss": 0.4402,
      "step": 30260
    },
    {
      "epoch": 593.53,
      "learning_rate": 8.252519317427817e-05,
      "loss": 0.436,
      "step": 30270
    },
    {
      "epoch": 593.73,
      "learning_rate": 8.248487036734766e-05,
      "loss": 0.4357,
      "step": 30280
    },
    {
      "epoch": 593.92,
      "learning_rate": 8.244454537500189e-05,
      "loss": 0.4326,
      "step": 30290
    },
    {
      "epoch": 594.0,
      "eval_loss": 0.44458866119384766,
      "eval_runtime": 2.2919,
      "eval_samples_per_second": 994.37,
      "eval_steps_per_second": 3.927,
      "step": 30294
    },
    {
      "epoch": 594.12,
      "learning_rate": 8.240421820901495e-05,
      "loss": 0.4314,
      "step": 30300
    },
    {
      "epoch": 594.31,
      "learning_rate": 8.23638888811614e-05,
      "loss": 0.4389,
      "step": 30310
    },
    {
      "epoch": 594.51,
      "learning_rate": 8.232355740321651e-05,
      "loss": 0.4343,
      "step": 30320
    },
    {
      "epoch": 594.71,
      "learning_rate": 8.228322378695622e-05,
      "loss": 0.433,
      "step": 30330
    },
    {
      "epoch": 594.9,
      "learning_rate": 8.2242888044157e-05,
      "loss": 0.4333,
      "step": 30340
    },
    {
      "epoch": 595.0,
      "eval_loss": 0.44296392798423767,
      "eval_runtime": 2.1971,
      "eval_samples_per_second": 1037.271,
      "eval_steps_per_second": 4.096,
      "step": 30345
    },
    {
      "epoch": 595.1,
      "learning_rate": 8.220255018659601e-05,
      "loss": 0.4384,
      "step": 30350
    },
    {
      "epoch": 595.29,
      "learning_rate": 8.2162210226051e-05,
      "loss": 0.4359,
      "step": 30360
    },
    {
      "epoch": 595.49,
      "learning_rate": 8.212186817430031e-05,
      "loss": 0.4307,
      "step": 30370
    },
    {
      "epoch": 595.69,
      "learning_rate": 8.208152404312299e-05,
      "loss": 0.4335,
      "step": 30380
    },
    {
      "epoch": 595.88,
      "learning_rate": 8.204117784429856e-05,
      "loss": 0.4336,
      "step": 30390
    },
    {
      "epoch": 596.0,
      "eval_loss": 0.4396732747554779,
      "eval_runtime": 2.2713,
      "eval_samples_per_second": 1003.396,
      "eval_steps_per_second": 3.963,
      "step": 30396
    },
    {
      "epoch": 596.08,
      "learning_rate": 8.200082958960723e-05,
      "loss": 0.4356,
      "step": 30400
    },
    {
      "epoch": 596.27,
      "learning_rate": 8.196047929082981e-05,
      "loss": 0.4374,
      "step": 30410
    },
    {
      "epoch": 596.47,
      "learning_rate": 8.192012695974765e-05,
      "loss": 0.4351,
      "step": 30420
    },
    {
      "epoch": 596.67,
      "learning_rate": 8.187977260814275e-05,
      "loss": 0.431,
      "step": 30430
    },
    {
      "epoch": 596.86,
      "learning_rate": 8.183941624779769e-05,
      "loss": 0.4314,
      "step": 30440
    },
    {
      "epoch": 597.0,
      "eval_loss": 0.44181305170059204,
      "eval_runtime": 2.2614,
      "eval_samples_per_second": 1007.787,
      "eval_steps_per_second": 3.98,
      "step": 30447
    },
    {
      "epoch": 597.06,
      "learning_rate": 8.179905789049561e-05,
      "loss": 0.4307,
      "step": 30450
    },
    {
      "epoch": 597.25,
      "learning_rate": 8.175869754802028e-05,
      "loss": 0.4337,
      "step": 30460
    },
    {
      "epoch": 597.45,
      "learning_rate": 8.1718335232156e-05,
      "loss": 0.4334,
      "step": 30470
    },
    {
      "epoch": 597.65,
      "learning_rate": 8.167797095468766e-05,
      "loss": 0.4348,
      "step": 30480
    },
    {
      "epoch": 597.84,
      "learning_rate": 8.163760472740073e-05,
      "loss": 0.4371,
      "step": 30490
    },
    {
      "epoch": 598.0,
      "eval_loss": 0.441135048866272,
      "eval_runtime": 2.2413,
      "eval_samples_per_second": 1016.834,
      "eval_steps_per_second": 4.016,
      "step": 30498
    },
    {
      "epoch": 598.04,
      "learning_rate": 8.159723656208126e-05,
      "loss": 0.436,
      "step": 30500
    },
    {
      "epoch": 598.24,
      "learning_rate": 8.155686647051584e-05,
      "loss": 0.4382,
      "step": 30510
    },
    {
      "epoch": 598.43,
      "learning_rate": 8.151649446449163e-05,
      "loss": 0.4335,
      "step": 30520
    },
    {
      "epoch": 598.63,
      "learning_rate": 8.147612055579639e-05,
      "loss": 0.434,
      "step": 30530
    },
    {
      "epoch": 598.82,
      "learning_rate": 8.143574475621837e-05,
      "loss": 0.4333,
      "step": 30540
    },
    {
      "epoch": 599.0,
      "eval_loss": 0.4385489225387573,
      "eval_runtime": 2.2156,
      "eval_samples_per_second": 1028.626,
      "eval_steps_per_second": 4.062,
      "step": 30549
    },
    {
      "epoch": 599.02,
      "learning_rate": 8.139536707754641e-05,
      "loss": 0.4423,
      "step": 30550
    },
    {
      "epoch": 599.22,
      "learning_rate": 8.13549875315699e-05,
      "loss": 0.4333,
      "step": 30560
    },
    {
      "epoch": 599.41,
      "learning_rate": 8.131460613007875e-05,
      "loss": 0.4335,
      "step": 30570
    },
    {
      "epoch": 599.61,
      "learning_rate": 8.127422288486345e-05,
      "loss": 0.432,
      "step": 30580
    },
    {
      "epoch": 599.8,
      "learning_rate": 8.123383780771498e-05,
      "loss": 0.4281,
      "step": 30590
    },
    {
      "epoch": 600.0,
      "learning_rate": 8.119345091042493e-05,
      "loss": 0.4337,
      "step": 30600
    },
    {
      "epoch": 600.0,
      "eval_loss": 0.43944406509399414,
      "eval_runtime": 2.3431,
      "eval_samples_per_second": 972.654,
      "eval_steps_per_second": 3.841,
      "step": 30600
    },
    {
      "epoch": 600.2,
      "learning_rate": 8.115306220478532e-05,
      "loss": 0.4308,
      "step": 30610
    },
    {
      "epoch": 600.39,
      "learning_rate": 8.111267170258878e-05,
      "loss": 0.4389,
      "step": 30620
    },
    {
      "epoch": 600.59,
      "learning_rate": 8.107227941562841e-05,
      "loss": 0.4416,
      "step": 30630
    },
    {
      "epoch": 600.78,
      "learning_rate": 8.103188535569788e-05,
      "loss": 0.4374,
      "step": 30640
    },
    {
      "epoch": 600.98,
      "learning_rate": 8.099148953459137e-05,
      "loss": 0.4371,
      "step": 30650
    },
    {
      "epoch": 601.0,
      "eval_loss": 0.44066575169563293,
      "eval_runtime": 2.2914,
      "eval_samples_per_second": 994.578,
      "eval_steps_per_second": 3.928,
      "step": 30651
    },
    {
      "epoch": 601.18,
      "learning_rate": 8.095109196410353e-05,
      "loss": 0.4357,
      "step": 30660
    },
    {
      "epoch": 601.37,
      "learning_rate": 8.091069265602957e-05,
      "loss": 0.4378,
      "step": 30670
    },
    {
      "epoch": 601.57,
      "learning_rate": 8.087029162216514e-05,
      "loss": 0.435,
      "step": 30680
    },
    {
      "epoch": 601.76,
      "learning_rate": 8.082988887430652e-05,
      "loss": 0.4314,
      "step": 30690
    },
    {
      "epoch": 601.96,
      "learning_rate": 8.078948442425035e-05,
      "loss": 0.4294,
      "step": 30700
    },
    {
      "epoch": 602.0,
      "eval_loss": 0.43954363465309143,
      "eval_runtime": 2.1748,
      "eval_samples_per_second": 1047.926,
      "eval_steps_per_second": 4.138,
      "step": 30702
    },
    {
      "epoch": 602.16,
      "learning_rate": 8.074907828379383e-05,
      "loss": 0.4387,
      "step": 30710
    },
    {
      "epoch": 602.35,
      "learning_rate": 8.070867046473468e-05,
      "loss": 0.431,
      "step": 30720
    },
    {
      "epoch": 602.55,
      "learning_rate": 8.066826097887109e-05,
      "loss": 0.4358,
      "step": 30730
    },
    {
      "epoch": 602.75,
      "learning_rate": 8.062784983800169e-05,
      "loss": 0.437,
      "step": 30740
    },
    {
      "epoch": 602.94,
      "learning_rate": 8.058743705392566e-05,
      "loss": 0.4323,
      "step": 30750
    },
    {
      "epoch": 603.0,
      "eval_loss": 0.4404396712779999,
      "eval_runtime": 2.3305,
      "eval_samples_per_second": 977.881,
      "eval_steps_per_second": 3.862,
      "step": 30753
    },
    {
      "epoch": 603.14,
      "learning_rate": 8.054702263844258e-05,
      "loss": 0.4352,
      "step": 30760
    },
    {
      "epoch": 603.33,
      "learning_rate": 8.050660660335264e-05,
      "loss": 0.4357,
      "step": 30770
    },
    {
      "epoch": 603.53,
      "learning_rate": 8.046618896045638e-05,
      "loss": 0.4345,
      "step": 30780
    },
    {
      "epoch": 603.73,
      "learning_rate": 8.042576972155484e-05,
      "loss": 0.4309,
      "step": 30790
    },
    {
      "epoch": 603.92,
      "learning_rate": 8.038534889844957e-05,
      "loss": 0.4303,
      "step": 30800
    },
    {
      "epoch": 604.0,
      "eval_loss": 0.44217541813850403,
      "eval_runtime": 2.3094,
      "eval_samples_per_second": 986.824,
      "eval_steps_per_second": 3.897,
      "step": 30804
    },
    {
      "epoch": 604.12,
      "learning_rate": 8.03449265029425e-05,
      "loss": 0.4332,
      "step": 30810
    },
    {
      "epoch": 604.31,
      "learning_rate": 8.030450254683612e-05,
      "loss": 0.4369,
      "step": 30820
    },
    {
      "epoch": 604.51,
      "learning_rate": 8.026407704193327e-05,
      "loss": 0.4384,
      "step": 30830
    },
    {
      "epoch": 604.71,
      "learning_rate": 8.022365000003734e-05,
      "loss": 0.4343,
      "step": 30840
    },
    {
      "epoch": 604.9,
      "learning_rate": 8.01832214329521e-05,
      "loss": 0.4325,
      "step": 30850
    },
    {
      "epoch": 605.0,
      "eval_loss": 0.4375738203525543,
      "eval_runtime": 2.1954,
      "eval_samples_per_second": 1038.103,
      "eval_steps_per_second": 4.1,
      "step": 30855
    },
    {
      "epoch": 605.1,
      "learning_rate": 8.014279135248181e-05,
      "loss": 0.437,
      "step": 30860
    },
    {
      "epoch": 605.29,
      "learning_rate": 8.010235977043112e-05,
      "loss": 0.4353,
      "step": 30870
    },
    {
      "epoch": 605.49,
      "learning_rate": 8.006192669860521e-05,
      "loss": 0.4295,
      "step": 30880
    },
    {
      "epoch": 605.69,
      "learning_rate": 8.002149214880955e-05,
      "loss": 0.4342,
      "step": 30890
    },
    {
      "epoch": 605.88,
      "learning_rate": 7.99810561328502e-05,
      "loss": 0.44,
      "step": 30900
    },
    {
      "epoch": 606.0,
      "eval_loss": 0.4398665130138397,
      "eval_runtime": 2.2661,
      "eval_samples_per_second": 1005.707,
      "eval_steps_per_second": 3.972,
      "step": 30906
    },
    {
      "epoch": 606.08,
      "learning_rate": 7.994061866253355e-05,
      "loss": 0.436,
      "step": 30910
    },
    {
      "epoch": 606.27,
      "learning_rate": 7.990017974966642e-05,
      "loss": 0.433,
      "step": 30920
    },
    {
      "epoch": 606.47,
      "learning_rate": 7.98597394060561e-05,
      "loss": 0.4341,
      "step": 30930
    },
    {
      "epoch": 606.67,
      "learning_rate": 7.981929764351026e-05,
      "loss": 0.4318,
      "step": 30940
    },
    {
      "epoch": 606.86,
      "learning_rate": 7.977885447383698e-05,
      "loss": 0.4343,
      "step": 30950
    },
    {
      "epoch": 607.0,
      "eval_loss": 0.4403430223464966,
      "eval_runtime": 2.2274,
      "eval_samples_per_second": 1023.166,
      "eval_steps_per_second": 4.041,
      "step": 30957
    },
    {
      "epoch": 607.06,
      "learning_rate": 7.973840990884477e-05,
      "loss": 0.4345,
      "step": 30960
    },
    {
      "epoch": 607.25,
      "learning_rate": 7.969796396034253e-05,
      "loss": 0.4375,
      "step": 30970
    },
    {
      "epoch": 607.45,
      "learning_rate": 7.965751664013962e-05,
      "loss": 0.4318,
      "step": 30980
    },
    {
      "epoch": 607.65,
      "learning_rate": 7.961706796004572e-05,
      "loss": 0.4307,
      "step": 30990
    },
    {
      "epoch": 607.84,
      "learning_rate": 7.957661793187091e-05,
      "loss": 0.4313,
      "step": 31000
    },
    {
      "epoch": 608.0,
      "eval_loss": 0.43968504667282104,
      "eval_runtime": 2.2198,
      "eval_samples_per_second": 1026.684,
      "eval_steps_per_second": 4.054,
      "step": 31008
    },
    {
      "epoch": 608.04,
      "learning_rate": 7.953616656742579e-05,
      "loss": 0.4283,
      "step": 31010
    },
    {
      "epoch": 608.24,
      "learning_rate": 7.949571387852114e-05,
      "loss": 0.4336,
      "step": 31020
    },
    {
      "epoch": 608.43,
      "learning_rate": 7.945525987696835e-05,
      "loss": 0.4313,
      "step": 31030
    },
    {
      "epoch": 608.63,
      "learning_rate": 7.941480457457901e-05,
      "loss": 0.4299,
      "step": 31040
    },
    {
      "epoch": 608.82,
      "learning_rate": 7.937434798316518e-05,
      "loss": 0.4338,
      "step": 31050
    },
    {
      "epoch": 609.0,
      "eval_loss": 0.4378510117530823,
      "eval_runtime": 2.2222,
      "eval_samples_per_second": 1025.549,
      "eval_steps_per_second": 4.05,
      "step": 31059
    },
    {
      "epoch": 609.02,
      "learning_rate": 7.933389011453933e-05,
      "loss": 0.4263,
      "step": 31060
    },
    {
      "epoch": 609.22,
      "learning_rate": 7.929343098051422e-05,
      "loss": 0.4302,
      "step": 31070
    },
    {
      "epoch": 609.41,
      "learning_rate": 7.9252970592903e-05,
      "loss": 0.4299,
      "step": 31080
    },
    {
      "epoch": 609.61,
      "learning_rate": 7.921250896351922e-05,
      "loss": 0.4326,
      "step": 31090
    },
    {
      "epoch": 609.8,
      "learning_rate": 7.917204610417677e-05,
      "loss": 0.4275,
      "step": 31100
    },
    {
      "epoch": 610.0,
      "learning_rate": 7.91315820266899e-05,
      "loss": 0.4299,
      "step": 31110
    },
    {
      "epoch": 610.0,
      "eval_loss": 0.4349246919155121,
      "eval_runtime": 2.3617,
      "eval_samples_per_second": 964.973,
      "eval_steps_per_second": 3.811,
      "step": 31110
    },
    {
      "epoch": 610.2,
      "learning_rate": 7.909111674287323e-05,
      "loss": 0.4344,
      "step": 31120
    },
    {
      "epoch": 610.39,
      "learning_rate": 7.905065026454171e-05,
      "loss": 0.4368,
      "step": 31130
    },
    {
      "epoch": 610.59,
      "learning_rate": 7.901018260351064e-05,
      "loss": 0.4281,
      "step": 31140
    },
    {
      "epoch": 610.78,
      "learning_rate": 7.896971377159571e-05,
      "loss": 0.4305,
      "step": 31150
    },
    {
      "epoch": 610.98,
      "learning_rate": 7.892924378061289e-05,
      "loss": 0.4325,
      "step": 31160
    },
    {
      "epoch": 611.0,
      "eval_loss": 0.4369864761829376,
      "eval_runtime": 2.1774,
      "eval_samples_per_second": 1046.683,
      "eval_steps_per_second": 4.133,
      "step": 31161
    },
    {
      "epoch": 611.18,
      "learning_rate": 7.88887726423785e-05,
      "loss": 0.4301,
      "step": 31170
    },
    {
      "epoch": 611.37,
      "learning_rate": 7.884830036870921e-05,
      "loss": 0.427,
      "step": 31180
    },
    {
      "epoch": 611.57,
      "learning_rate": 7.880782697142207e-05,
      "loss": 0.4304,
      "step": 31190
    },
    {
      "epoch": 611.76,
      "learning_rate": 7.876735246233437e-05,
      "loss": 0.4378,
      "step": 31200
    },
    {
      "epoch": 611.96,
      "learning_rate": 7.872687685326375e-05,
      "loss": 0.429,
      "step": 31210
    },
    {
      "epoch": 612.0,
      "eval_loss": 0.43705418705940247,
      "eval_runtime": 2.3129,
      "eval_samples_per_second": 985.344,
      "eval_steps_per_second": 3.891,
      "step": 31212
    },
    {
      "epoch": 612.16,
      "learning_rate": 7.868640015602824e-05,
      "loss": 0.4303,
      "step": 31220
    },
    {
      "epoch": 612.35,
      "learning_rate": 7.864592238244607e-05,
      "loss": 0.4328,
      "step": 31230
    },
    {
      "epoch": 612.55,
      "learning_rate": 7.86054435443359e-05,
      "loss": 0.4279,
      "step": 31240
    },
    {
      "epoch": 612.75,
      "learning_rate": 7.85649636535166e-05,
      "loss": 0.4313,
      "step": 31250
    },
    {
      "epoch": 612.94,
      "learning_rate": 7.852448272180744e-05,
      "loss": 0.4291,
      "step": 31260
    },
    {
      "epoch": 613.0,
      "eval_loss": 0.42991194128990173,
      "eval_runtime": 2.234,
      "eval_samples_per_second": 1020.124,
      "eval_steps_per_second": 4.029,
      "step": 31263
    },
    {
      "epoch": 613.14,
      "learning_rate": 7.848400076102792e-05,
      "loss": 0.4317,
      "step": 31270
    },
    {
      "epoch": 613.33,
      "learning_rate": 7.844351778299788e-05,
      "loss": 0.4335,
      "step": 31280
    },
    {
      "epoch": 613.53,
      "learning_rate": 7.840303379953746e-05,
      "loss": 0.4325,
      "step": 31290
    },
    {
      "epoch": 613.73,
      "learning_rate": 7.836254882246704e-05,
      "loss": 0.4302,
      "step": 31300
    },
    {
      "epoch": 613.92,
      "learning_rate": 7.832206286360736e-05,
      "loss": 0.4349,
      "step": 31310
    },
    {
      "epoch": 614.0,
      "eval_loss": 0.43643268942832947,
      "eval_runtime": 2.2319,
      "eval_samples_per_second": 1021.095,
      "eval_steps_per_second": 4.032,
      "step": 31314
    },
    {
      "epoch": 614.12,
      "learning_rate": 7.828157593477942e-05,
      "loss": 0.4316,
      "step": 31320
    },
    {
      "epoch": 614.31,
      "learning_rate": 7.82410880478045e-05,
      "loss": 0.4332,
      "step": 31330
    },
    {
      "epoch": 614.51,
      "learning_rate": 7.820059921450414e-05,
      "loss": 0.431,
      "step": 31340
    },
    {
      "epoch": 614.71,
      "learning_rate": 7.816010944670021e-05,
      "loss": 0.435,
      "step": 31350
    },
    {
      "epoch": 614.9,
      "learning_rate": 7.811961875621478e-05,
      "loss": 0.4308,
      "step": 31360
    },
    {
      "epoch": 615.0,
      "eval_loss": 0.43355175852775574,
      "eval_runtime": 2.3224,
      "eval_samples_per_second": 981.333,
      "eval_steps_per_second": 3.875,
      "step": 31365
    },
    {
      "epoch": 615.1,
      "learning_rate": 7.807912715487025e-05,
      "loss": 0.4322,
      "step": 31370
    },
    {
      "epoch": 615.29,
      "learning_rate": 7.803863465448927e-05,
      "loss": 0.4239,
      "step": 31380
    },
    {
      "epoch": 615.49,
      "learning_rate": 7.799814126689471e-05,
      "loss": 0.4337,
      "step": 31390
    },
    {
      "epoch": 615.69,
      "learning_rate": 7.79576470039098e-05,
      "loss": 0.4332,
      "step": 31400
    },
    {
      "epoch": 615.88,
      "learning_rate": 7.791715187735792e-05,
      "loss": 0.4305,
      "step": 31410
    },
    {
      "epoch": 616.0,
      "eval_loss": 0.4343326687812805,
      "eval_runtime": 2.3142,
      "eval_samples_per_second": 984.779,
      "eval_steps_per_second": 3.889,
      "step": 31416
    },
    {
      "epoch": 616.08,
      "learning_rate": 7.787665589906275e-05,
      "loss": 0.4302,
      "step": 31420
    },
    {
      "epoch": 616.27,
      "learning_rate": 7.783615908084822e-05,
      "loss": 0.4308,
      "step": 31430
    },
    {
      "epoch": 616.47,
      "learning_rate": 7.779566143453846e-05,
      "loss": 0.4339,
      "step": 31440
    },
    {
      "epoch": 616.67,
      "learning_rate": 7.775516297195794e-05,
      "loss": 0.4281,
      "step": 31450
    },
    {
      "epoch": 616.86,
      "learning_rate": 7.771466370493127e-05,
      "loss": 0.4267,
      "step": 31460
    },
    {
      "epoch": 617.0,
      "eval_loss": 0.4391220808029175,
      "eval_runtime": 2.3012,
      "eval_samples_per_second": 990.354,
      "eval_steps_per_second": 3.911,
      "step": 31467
    },
    {
      "epoch": 617.06,
      "learning_rate": 7.767416364528332e-05,
      "loss": 0.4367,
      "step": 31470
    },
    {
      "epoch": 617.25,
      "learning_rate": 7.763366280483926e-05,
      "loss": 0.4325,
      "step": 31480
    },
    {
      "epoch": 617.45,
      "learning_rate": 7.759316119542437e-05,
      "loss": 0.4279,
      "step": 31490
    },
    {
      "epoch": 617.65,
      "learning_rate": 7.755265882886426e-05,
      "loss": 0.4301,
      "step": 31500
    },
    {
      "epoch": 617.84,
      "learning_rate": 7.75121557169847e-05,
      "loss": 0.4329,
      "step": 31510
    },
    {
      "epoch": 618.0,
      "eval_loss": 0.43645963072776794,
      "eval_runtime": 2.1947,
      "eval_samples_per_second": 1038.398,
      "eval_steps_per_second": 4.101,
      "step": 31518
    },
    {
      "epoch": 618.04,
      "learning_rate": 7.747165187161168e-05,
      "loss": 0.4271,
      "step": 31520
    },
    {
      "epoch": 618.24,
      "learning_rate": 7.743114730457145e-05,
      "loss": 0.428,
      "step": 31530
    },
    {
      "epoch": 618.43,
      "learning_rate": 7.739064202769044e-05,
      "loss": 0.4333,
      "step": 31540
    },
    {
      "epoch": 618.63,
      "learning_rate": 7.735013605279525e-05,
      "loss": 0.4311,
      "step": 31550
    },
    {
      "epoch": 618.82,
      "learning_rate": 7.730962939171278e-05,
      "loss": 0.4269,
      "step": 31560
    },
    {
      "epoch": 619.0,
      "eval_loss": 0.43330323696136475,
      "eval_runtime": 2.2191,
      "eval_samples_per_second": 1026.991,
      "eval_steps_per_second": 4.056,
      "step": 31569
    },
    {
      "epoch": 619.02,
      "learning_rate": 7.726912205627e-05,
      "loss": 0.4339,
      "step": 31570
    },
    {
      "epoch": 619.22,
      "learning_rate": 7.722861405829422e-05,
      "loss": 0.4303,
      "step": 31580
    },
    {
      "epoch": 619.41,
      "learning_rate": 7.718810540961281e-05,
      "loss": 0.43,
      "step": 31590
    },
    {
      "epoch": 619.61,
      "learning_rate": 7.714759612205342e-05,
      "loss": 0.4249,
      "step": 31600
    },
    {
      "epoch": 619.8,
      "learning_rate": 7.710708620744387e-05,
      "loss": 0.4292,
      "step": 31610
    },
    {
      "epoch": 620.0,
      "learning_rate": 7.706657567761216e-05,
      "loss": 0.4251,
      "step": 31620
    },
    {
      "epoch": 620.0,
      "eval_loss": 0.4343318045139313,
      "eval_runtime": 2.1695,
      "eval_samples_per_second": 1050.467,
      "eval_steps_per_second": 4.148,
      "step": 31620
    },
    {
      "epoch": 620.2,
      "learning_rate": 7.702606454438641e-05,
      "loss": 0.4296,
      "step": 31630
    },
    {
      "epoch": 620.39,
      "learning_rate": 7.698555281959501e-05,
      "loss": 0.4276,
      "step": 31640
    },
    {
      "epoch": 620.59,
      "learning_rate": 7.694504051506647e-05,
      "loss": 0.4316,
      "step": 31650
    },
    {
      "epoch": 620.78,
      "learning_rate": 7.690452764262947e-05,
      "loss": 0.4313,
      "step": 31660
    },
    {
      "epoch": 620.98,
      "learning_rate": 7.686401421411288e-05,
      "loss": 0.427,
      "step": 31670
    },
    {
      "epoch": 621.0,
      "eval_loss": 0.4344363510608673,
      "eval_runtime": 2.2851,
      "eval_samples_per_second": 997.328,
      "eval_steps_per_second": 3.939,
      "step": 31671
    },
    {
      "epoch": 621.18,
      "learning_rate": 7.68235002413457e-05,
      "loss": 0.427,
      "step": 31680
    },
    {
      "epoch": 621.37,
      "learning_rate": 7.678298573615714e-05,
      "loss": 0.4335,
      "step": 31690
    },
    {
      "epoch": 621.57,
      "learning_rate": 7.67424707103765e-05,
      "loss": 0.4321,
      "step": 31700
    },
    {
      "epoch": 621.76,
      "learning_rate": 7.670195517583325e-05,
      "loss": 0.4297,
      "step": 31710
    },
    {
      "epoch": 621.96,
      "learning_rate": 7.666143914435709e-05,
      "loss": 0.4327,
      "step": 31720
    },
    {
      "epoch": 622.0,
      "eval_loss": 0.434471994638443,
      "eval_runtime": 2.1731,
      "eval_samples_per_second": 1048.718,
      "eval_steps_per_second": 4.141,
      "step": 31722
    },
    {
      "epoch": 622.16,
      "learning_rate": 7.662092262777771e-05,
      "loss": 0.4279,
      "step": 31730
    },
    {
      "epoch": 622.35,
      "learning_rate": 7.658040563792508e-05,
      "loss": 0.4317,
      "step": 31740
    },
    {
      "epoch": 622.55,
      "learning_rate": 7.653988818662927e-05,
      "loss": 0.4361,
      "step": 31750
    },
    {
      "epoch": 622.75,
      "learning_rate": 7.649937028572046e-05,
      "loss": 0.4314,
      "step": 31760
    },
    {
      "epoch": 622.94,
      "learning_rate": 7.645885194702896e-05,
      "loss": 0.4263,
      "step": 31770
    },
    {
      "epoch": 623.0,
      "eval_loss": 0.4369990825653076,
      "eval_runtime": 2.2753,
      "eval_samples_per_second": 1001.637,
      "eval_steps_per_second": 3.956,
      "step": 31773
    },
    {
      "epoch": 623.14,
      "learning_rate": 7.641833318238519e-05,
      "loss": 0.429,
      "step": 31780
    },
    {
      "epoch": 623.33,
      "learning_rate": 7.63778140036198e-05,
      "loss": 0.4323,
      "step": 31790
    },
    {
      "epoch": 623.53,
      "learning_rate": 7.633729442256343e-05,
      "loss": 0.4243,
      "step": 31800
    },
    {
      "epoch": 623.73,
      "learning_rate": 7.629677445104691e-05,
      "loss": 0.427,
      "step": 31810
    },
    {
      "epoch": 623.92,
      "learning_rate": 7.62562541009012e-05,
      "loss": 0.4288,
      "step": 31820
    },
    {
      "epoch": 624.0,
      "eval_loss": 0.43234148621559143,
      "eval_runtime": 2.3479,
      "eval_samples_per_second": 970.674,
      "eval_steps_per_second": 3.833,
      "step": 31824
    },
    {
      "epoch": 624.12,
      "learning_rate": 7.621573338395731e-05,
      "loss": 0.4321,
      "step": 31830
    },
    {
      "epoch": 624.31,
      "learning_rate": 7.617521231204636e-05,
      "loss": 0.4283,
      "step": 31840
    },
    {
      "epoch": 624.51,
      "learning_rate": 7.613469089699965e-05,
      "loss": 0.433,
      "step": 31850
    },
    {
      "epoch": 624.71,
      "learning_rate": 7.609416915064846e-05,
      "loss": 0.4244,
      "step": 31860
    },
    {
      "epoch": 624.9,
      "learning_rate": 7.605364708482432e-05,
      "loss": 0.4316,
      "step": 31870
    },
    {
      "epoch": 625.0,
      "eval_loss": 0.4324721395969391,
      "eval_runtime": 2.2438,
      "eval_samples_per_second": 1015.687,
      "eval_steps_per_second": 4.011,
      "step": 31875
    },
    {
      "epoch": 625.1,
      "learning_rate": 7.60131247113587e-05,
      "loss": 0.4274,
      "step": 31880
    },
    {
      "epoch": 625.29,
      "learning_rate": 7.597260204208328e-05,
      "loss": 0.4307,
      "step": 31890
    },
    {
      "epoch": 625.49,
      "learning_rate": 7.593207908882977e-05,
      "loss": 0.4314,
      "step": 31900
    },
    {
      "epoch": 625.69,
      "learning_rate": 7.589155586342992e-05,
      "loss": 0.4292,
      "step": 31910
    },
    {
      "epoch": 625.88,
      "learning_rate": 7.585103237771566e-05,
      "loss": 0.431,
      "step": 31920
    },
    {
      "epoch": 626.0,
      "eval_loss": 0.43281376361846924,
      "eval_runtime": 2.193,
      "eval_samples_per_second": 1039.194,
      "eval_steps_per_second": 4.104,
      "step": 31926
    },
    {
      "epoch": 626.08,
      "learning_rate": 7.581050864351893e-05,
      "loss": 0.4305,
      "step": 31930
    },
    {
      "epoch": 626.27,
      "learning_rate": 7.576998467267174e-05,
      "loss": 0.435,
      "step": 31940
    },
    {
      "epoch": 626.47,
      "learning_rate": 7.57294604770062e-05,
      "loss": 0.4336,
      "step": 31950
    },
    {
      "epoch": 626.67,
      "learning_rate": 7.568893606835449e-05,
      "loss": 0.4347,
      "step": 31960
    },
    {
      "epoch": 626.86,
      "learning_rate": 7.56484114585488e-05,
      "loss": 0.4316,
      "step": 31970
    },
    {
      "epoch": 627.0,
      "eval_loss": 0.4315592646598816,
      "eval_runtime": 2.2604,
      "eval_samples_per_second": 1008.212,
      "eval_steps_per_second": 3.982,
      "step": 31977
    },
    {
      "epoch": 627.06,
      "learning_rate": 7.56078866594214e-05,
      "loss": 0.4269,
      "step": 31980
    },
    {
      "epoch": 627.25,
      "learning_rate": 7.556736168280467e-05,
      "loss": 0.4258,
      "step": 31990
    },
    {
      "epoch": 627.45,
      "learning_rate": 7.552683654053099e-05,
      "loss": 0.431,
      "step": 32000
    },
    {
      "epoch": 627.65,
      "learning_rate": 7.548631124443279e-05,
      "loss": 0.4276,
      "step": 32010
    },
    {
      "epoch": 627.84,
      "learning_rate": 7.544578580634253e-05,
      "loss": 0.4325,
      "step": 32020
    },
    {
      "epoch": 628.0,
      "eval_loss": 0.43107348680496216,
      "eval_runtime": 2.2599,
      "eval_samples_per_second": 1008.442,
      "eval_steps_per_second": 3.982,
      "step": 32028
    },
    {
      "epoch": 628.04,
      "learning_rate": 7.54052602380928e-05,
      "loss": 0.4279,
      "step": 32030
    },
    {
      "epoch": 628.24,
      "learning_rate": 7.536473455151605e-05,
      "loss": 0.4284,
      "step": 32040
    },
    {
      "epoch": 628.43,
      "learning_rate": 7.532420875844502e-05,
      "loss": 0.4271,
      "step": 32050
    },
    {
      "epoch": 628.63,
      "learning_rate": 7.528368287071222e-05,
      "loss": 0.4283,
      "step": 32060
    },
    {
      "epoch": 628.82,
      "learning_rate": 7.524315690015034e-05,
      "loss": 0.4287,
      "step": 32070
    },
    {
      "epoch": 629.0,
      "eval_loss": 0.4322940707206726,
      "eval_runtime": 2.2832,
      "eval_samples_per_second": 998.171,
      "eval_steps_per_second": 3.942,
      "step": 32079
    },
    {
      "epoch": 629.02,
      "learning_rate": 7.52026308585921e-05,
      "loss": 0.4283,
      "step": 32080
    },
    {
      "epoch": 629.22,
      "learning_rate": 7.516210475787015e-05,
      "loss": 0.4231,
      "step": 32090
    },
    {
      "epoch": 629.41,
      "learning_rate": 7.512157860981725e-05,
      "loss": 0.4285,
      "step": 32100
    },
    {
      "epoch": 629.61,
      "learning_rate": 7.508105242626608e-05,
      "loss": 0.4219,
      "step": 32110
    },
    {
      "epoch": 629.8,
      "learning_rate": 7.504052621904941e-05,
      "loss": 0.4272,
      "step": 32120
    },
    {
      "epoch": 630.0,
      "learning_rate": 7.5e-05,
      "loss": 0.4267,
      "step": 32130
    },
    {
      "epoch": 630.0,
      "eval_loss": 0.4301910400390625,
      "eval_runtime": 2.3346,
      "eval_samples_per_second": 976.183,
      "eval_steps_per_second": 3.855,
      "step": 32130
    },
    {
      "epoch": 630.2,
      "learning_rate": 7.495947378095059e-05,
      "loss": 0.4302,
      "step": 32140
    },
    {
      "epoch": 630.39,
      "learning_rate": 7.49189475737339e-05,
      "loss": 0.4287,
      "step": 32150
    },
    {
      "epoch": 630.59,
      "learning_rate": 7.487842139018277e-05,
      "loss": 0.4281,
      "step": 32160
    },
    {
      "epoch": 630.78,
      "learning_rate": 7.483789524212983e-05,
      "loss": 0.4288,
      "step": 32170
    },
    {
      "epoch": 630.98,
      "learning_rate": 7.47973691414079e-05,
      "loss": 0.426,
      "step": 32180
    },
    {
      "epoch": 631.0,
      "eval_loss": 0.43417489528656006,
      "eval_runtime": 2.248,
      "eval_samples_per_second": 1013.791,
      "eval_steps_per_second": 4.004,
      "step": 32181
    },
    {
      "epoch": 631.18,
      "learning_rate": 7.475684309984963e-05,
      "loss": 0.428,
      "step": 32190
    },
    {
      "epoch": 631.37,
      "learning_rate": 7.471631712928778e-05,
      "loss": 0.4266,
      "step": 32200
    },
    {
      "epoch": 631.57,
      "learning_rate": 7.467579124155501e-05,
      "loss": 0.4296,
      "step": 32210
    },
    {
      "epoch": 631.76,
      "learning_rate": 7.463526544848393e-05,
      "loss": 0.4288,
      "step": 32220
    },
    {
      "epoch": 631.96,
      "learning_rate": 7.459473976190722e-05,
      "loss": 0.4259,
      "step": 32230
    },
    {
      "epoch": 632.0,
      "eval_loss": 0.4324003756046295,
      "eval_runtime": 2.2505,
      "eval_samples_per_second": 1012.666,
      "eval_steps_per_second": 3.999,
      "step": 32232
    },
    {
      "epoch": 632.16,
      "learning_rate": 7.455421419365746e-05,
      "loss": 0.4285,
      "step": 32240
    },
    {
      "epoch": 632.35,
      "learning_rate": 7.451368875556721e-05,
      "loss": 0.4285,
      "step": 32250
    },
    {
      "epoch": 632.55,
      "learning_rate": 7.4473163459469e-05,
      "loss": 0.4277,
      "step": 32260
    },
    {
      "epoch": 632.75,
      "learning_rate": 7.443263831719533e-05,
      "loss": 0.4292,
      "step": 32270
    },
    {
      "epoch": 632.94,
      "learning_rate": 7.439211334057861e-05,
      "loss": 0.427,
      "step": 32280
    },
    {
      "epoch": 633.0,
      "eval_loss": 0.4315228760242462,
      "eval_runtime": 2.2264,
      "eval_samples_per_second": 1023.622,
      "eval_steps_per_second": 4.042,
      "step": 32283
    },
    {
      "epoch": 633.14,
      "learning_rate": 7.435158854145122e-05,
      "loss": 0.4282,
      "step": 32290
    },
    {
      "epoch": 633.33,
      "learning_rate": 7.431106393164551e-05,
      "loss": 0.4249,
      "step": 32300
    },
    {
      "epoch": 633.53,
      "learning_rate": 7.427053952299378e-05,
      "loss": 0.4264,
      "step": 32310
    },
    {
      "epoch": 633.73,
      "learning_rate": 7.423001532732826e-05,
      "loss": 0.425,
      "step": 32320
    },
    {
      "epoch": 633.92,
      "learning_rate": 7.418949135648106e-05,
      "loss": 0.4268,
      "step": 32330
    },
    {
      "epoch": 634.0,
      "eval_loss": 0.4299897253513336,
      "eval_runtime": 2.1933,
      "eval_samples_per_second": 1039.059,
      "eval_steps_per_second": 4.103,
      "step": 32334
    },
    {
      "epoch": 634.12,
      "learning_rate": 7.414896762228434e-05,
      "loss": 0.4227,
      "step": 32340
    },
    {
      "epoch": 634.31,
      "learning_rate": 7.410844413657008e-05,
      "loss": 0.4277,
      "step": 32350
    },
    {
      "epoch": 634.51,
      "learning_rate": 7.406792091117022e-05,
      "loss": 0.4286,
      "step": 32360
    },
    {
      "epoch": 634.71,
      "learning_rate": 7.402739795791672e-05,
      "loss": 0.4228,
      "step": 32370
    },
    {
      "epoch": 634.9,
      "learning_rate": 7.398687528864128e-05,
      "loss": 0.4251,
      "step": 32380
    },
    {
      "epoch": 635.0,
      "eval_loss": 0.4384912848472595,
      "eval_runtime": 2.2966,
      "eval_samples_per_second": 992.338,
      "eval_steps_per_second": 3.919,
      "step": 32385
    },
    {
      "epoch": 635.1,
      "learning_rate": 7.394635291517568e-05,
      "loss": 0.4337,
      "step": 32390
    },
    {
      "epoch": 635.29,
      "learning_rate": 7.390583084935152e-05,
      "loss": 0.4361,
      "step": 32400
    },
    {
      "epoch": 635.49,
      "learning_rate": 7.386530910300036e-05,
      "loss": 0.4254,
      "step": 32410
    },
    {
      "epoch": 635.69,
      "learning_rate": 7.382478768795366e-05,
      "loss": 0.4283,
      "step": 32420
    },
    {
      "epoch": 635.88,
      "learning_rate": 7.37842666160427e-05,
      "loss": 0.4291,
      "step": 32430
    },
    {
      "epoch": 636.0,
      "eval_loss": 0.43578821420669556,
      "eval_runtime": 2.3566,
      "eval_samples_per_second": 967.062,
      "eval_steps_per_second": 3.819,
      "step": 32436
    },
    {
      "epoch": 636.08,
      "learning_rate": 7.37437458990988e-05,
      "loss": 0.4256,
      "step": 32440
    },
    {
      "epoch": 636.27,
      "learning_rate": 7.370322554895306e-05,
      "loss": 0.4282,
      "step": 32450
    },
    {
      "epoch": 636.47,
      "learning_rate": 7.366270557743655e-05,
      "loss": 0.4266,
      "step": 32460
    },
    {
      "epoch": 636.67,
      "learning_rate": 7.362218599638018e-05,
      "loss": 0.4216,
      "step": 32470
    },
    {
      "epoch": 636.86,
      "learning_rate": 7.35816668176148e-05,
      "loss": 0.4273,
      "step": 32480
    },
    {
      "epoch": 637.0,
      "eval_loss": 0.43420571088790894,
      "eval_runtime": 2.2015,
      "eval_samples_per_second": 1035.206,
      "eval_steps_per_second": 4.088,
      "step": 32487
    },
    {
      "epoch": 637.06,
      "learning_rate": 7.354114805297107e-05,
      "loss": 0.4285,
      "step": 32490
    },
    {
      "epoch": 637.25,
      "learning_rate": 7.350062971427954e-05,
      "loss": 0.4278,
      "step": 32500
    },
    {
      "epoch": 637.45,
      "learning_rate": 7.346011181337071e-05,
      "loss": 0.424,
      "step": 32510
    },
    {
      "epoch": 637.65,
      "learning_rate": 7.341959436207488e-05,
      "loss": 0.4276,
      "step": 32520
    },
    {
      "epoch": 637.84,
      "learning_rate": 7.337907737222228e-05,
      "loss": 0.4238,
      "step": 32530
    },
    {
      "epoch": 638.0,
      "eval_loss": 0.4311440587043762,
      "eval_runtime": 2.2684,
      "eval_samples_per_second": 1004.661,
      "eval_steps_per_second": 3.968,
      "step": 32538
    },
    {
      "epoch": 638.04,
      "learning_rate": 7.333856085564293e-05,
      "loss": 0.4303,
      "step": 32540
    },
    {
      "epoch": 638.24,
      "learning_rate": 7.329804482416673e-05,
      "loss": 0.4302,
      "step": 32550
    },
    {
      "epoch": 638.43,
      "learning_rate": 7.325752928962352e-05,
      "loss": 0.4234,
      "step": 32560
    },
    {
      "epoch": 638.63,
      "learning_rate": 7.321701426384285e-05,
      "loss": 0.4266,
      "step": 32570
    },
    {
      "epoch": 638.82,
      "learning_rate": 7.31764997586543e-05,
      "loss": 0.4262,
      "step": 32580
    },
    {
      "epoch": 639.0,
      "eval_loss": 0.432700514793396,
      "eval_runtime": 2.3427,
      "eval_samples_per_second": 972.821,
      "eval_steps_per_second": 3.842,
      "step": 32589
    },
    {
      "epoch": 639.02,
      "learning_rate": 7.313598578588712e-05,
      "loss": 0.4235,
      "step": 32590
    },
    {
      "epoch": 639.22,
      "learning_rate": 7.309547235737053e-05,
      "loss": 0.4276,
      "step": 32600
    },
    {
      "epoch": 639.41,
      "learning_rate": 7.305495948493354e-05,
      "loss": 0.4363,
      "step": 32610
    },
    {
      "epoch": 639.61,
      "learning_rate": 7.301444718040499e-05,
      "loss": 0.4284,
      "step": 32620
    },
    {
      "epoch": 639.8,
      "learning_rate": 7.29739354556136e-05,
      "loss": 0.4243,
      "step": 32630
    },
    {
      "epoch": 640.0,
      "learning_rate": 7.293342432238786e-05,
      "loss": 0.4251,
      "step": 32640
    },
    {
      "epoch": 640.0,
      "eval_loss": 0.43292704224586487,
      "eval_runtime": 2.3486,
      "eval_samples_per_second": 970.382,
      "eval_steps_per_second": 3.832,
      "step": 32640
    },
    {
      "epoch": 640.2,
      "learning_rate": 7.289291379255611e-05,
      "loss": 0.4293,
      "step": 32650
    },
    {
      "epoch": 640.39,
      "learning_rate": 7.285240387794655e-05,
      "loss": 0.433,
      "step": 32660
    },
    {
      "epoch": 640.59,
      "learning_rate": 7.281189459038718e-05,
      "loss": 0.4284,
      "step": 32670
    },
    {
      "epoch": 640.78,
      "learning_rate": 7.27713859417058e-05,
      "loss": 0.4247,
      "step": 32680
    },
    {
      "epoch": 640.98,
      "learning_rate": 7.273087794373e-05,
      "loss": 0.4276,
      "step": 32690
    },
    {
      "epoch": 641.0,
      "eval_loss": 0.43443429470062256,
      "eval_runtime": 2.2905,
      "eval_samples_per_second": 994.976,
      "eval_steps_per_second": 3.929,
      "step": 32691
    },
    {
      "epoch": 641.18,
      "learning_rate": 7.269037060828723e-05,
      "loss": 0.4231,
      "step": 32700
    },
    {
      "epoch": 641.37,
      "learning_rate": 7.264986394720473e-05,
      "loss": 0.4244,
      "step": 32710
    },
    {
      "epoch": 641.57,
      "learning_rate": 7.260935797230956e-05,
      "loss": 0.4202,
      "step": 32720
    },
    {
      "epoch": 641.76,
      "learning_rate": 7.256885269542851e-05,
      "loss": 0.4239,
      "step": 32730
    },
    {
      "epoch": 641.96,
      "learning_rate": 7.252834812838831e-05,
      "loss": 0.4274,
      "step": 32740
    },
    {
      "epoch": 642.0,
      "eval_loss": 0.43040502071380615,
      "eval_runtime": 2.223,
      "eval_samples_per_second": 1025.208,
      "eval_steps_per_second": 4.049,
      "step": 32742
    },
    {
      "epoch": 642.16,
      "learning_rate": 7.248784428301531e-05,
      "loss": 0.4222,
      "step": 32750
    },
    {
      "epoch": 642.35,
      "learning_rate": 7.244734117113573e-05,
      "loss": 0.4268,
      "step": 32760
    },
    {
      "epoch": 642.55,
      "learning_rate": 7.240683880457563e-05,
      "loss": 0.4229,
      "step": 32770
    },
    {
      "epoch": 642.75,
      "learning_rate": 7.236633719516073e-05,
      "loss": 0.425,
      "step": 32780
    },
    {
      "epoch": 642.94,
      "learning_rate": 7.232583635471668e-05,
      "loss": 0.4269,
      "step": 32790
    },
    {
      "epoch": 643.0,
      "eval_loss": 0.42628300189971924,
      "eval_runtime": 2.2073,
      "eval_samples_per_second": 1032.467,
      "eval_steps_per_second": 4.077,
      "step": 32793
    },
    {
      "epoch": 643.14,
      "learning_rate": 7.228533629506874e-05,
      "loss": 0.4247,
      "step": 32800
    },
    {
      "epoch": 643.33,
      "learning_rate": 7.224483702804207e-05,
      "loss": 0.4222,
      "step": 32810
    },
    {
      "epoch": 643.53,
      "learning_rate": 7.220433856546153e-05,
      "loss": 0.4268,
      "step": 32820
    },
    {
      "epoch": 643.73,
      "learning_rate": 7.216384091915178e-05,
      "loss": 0.4273,
      "step": 32830
    },
    {
      "epoch": 643.92,
      "learning_rate": 7.212334410093727e-05,
      "loss": 0.4217,
      "step": 32840
    },
    {
      "epoch": 644.0,
      "eval_loss": 0.43053871393203735,
      "eval_runtime": 2.4095,
      "eval_samples_per_second": 945.824,
      "eval_steps_per_second": 3.735,
      "step": 32844
    },
    {
      "epoch": 644.12,
      "learning_rate": 7.208284812264208e-05,
      "loss": 0.43,
      "step": 32850
    },
    {
      "epoch": 644.31,
      "learning_rate": 7.20423529960902e-05,
      "loss": 0.424,
      "step": 32860
    },
    {
      "epoch": 644.51,
      "learning_rate": 7.200185873310526e-05,
      "loss": 0.4227,
      "step": 32870
    },
    {
      "epoch": 644.71,
      "learning_rate": 7.196136534551073e-05,
      "loss": 0.4279,
      "step": 32880
    },
    {
      "epoch": 644.9,
      "learning_rate": 7.192087284512977e-05,
      "loss": 0.4204,
      "step": 32890
    },
    {
      "epoch": 645.0,
      "eval_loss": 0.431392639875412,
      "eval_runtime": 2.3078,
      "eval_samples_per_second": 987.517,
      "eval_steps_per_second": 3.9,
      "step": 32895
    },
    {
      "epoch": 645.1,
      "learning_rate": 7.188038124378522e-05,
      "loss": 0.4231,
      "step": 32900
    },
    {
      "epoch": 645.29,
      "learning_rate": 7.18398905532998e-05,
      "loss": 0.4287,
      "step": 32910
    },
    {
      "epoch": 645.49,
      "learning_rate": 7.179940078549585e-05,
      "loss": 0.4257,
      "step": 32920
    },
    {
      "epoch": 645.69,
      "learning_rate": 7.17589119521955e-05,
      "loss": 0.4217,
      "step": 32930
    },
    {
      "epoch": 645.88,
      "learning_rate": 7.171842406522055e-05,
      "loss": 0.4268,
      "step": 32940
    },
    {
      "epoch": 646.0,
      "eval_loss": 0.4283953607082367,
      "eval_runtime": 2.1783,
      "eval_samples_per_second": 1046.25,
      "eval_steps_per_second": 4.132,
      "step": 32946
    },
    {
      "epoch": 646.08,
      "learning_rate": 7.167793713639264e-05,
      "loss": 0.4245,
      "step": 32950
    },
    {
      "epoch": 646.27,
      "learning_rate": 7.163745117753296e-05,
      "loss": 0.4217,
      "step": 32960
    },
    {
      "epoch": 646.47,
      "learning_rate": 7.159696620046254e-05,
      "loss": 0.4245,
      "step": 32970
    },
    {
      "epoch": 646.67,
      "learning_rate": 7.15564822170021e-05,
      "loss": 0.4269,
      "step": 32980
    },
    {
      "epoch": 646.86,
      "learning_rate": 7.151599923897207e-05,
      "loss": 0.4227,
      "step": 32990
    },
    {
      "epoch": 647.0,
      "eval_loss": 0.42809709906578064,
      "eval_runtime": 2.3106,
      "eval_samples_per_second": 986.327,
      "eval_steps_per_second": 3.895,
      "step": 32997
    },
    {
      "epoch": 647.06,
      "learning_rate": 7.147551727819256e-05,
      "loss": 0.4247,
      "step": 33000
    },
    {
      "epoch": 647.25,
      "learning_rate": 7.143503634648338e-05,
      "loss": 0.4278,
      "step": 33010
    },
    {
      "epoch": 647.45,
      "learning_rate": 7.13945564556641e-05,
      "loss": 0.424,
      "step": 33020
    },
    {
      "epoch": 647.65,
      "learning_rate": 7.135407761755393e-05,
      "loss": 0.4287,
      "step": 33030
    },
    {
      "epoch": 647.84,
      "learning_rate": 7.131359984397175e-05,
      "loss": 0.4236,
      "step": 33040
    },
    {
      "epoch": 648.0,
      "eval_loss": 0.4320383071899414,
      "eval_runtime": 2.2798,
      "eval_samples_per_second": 999.632,
      "eval_steps_per_second": 3.948,
      "step": 33048
    },
    {
      "epoch": 648.04,
      "learning_rate": 7.127312314673624e-05,
      "loss": 0.4257,
      "step": 33050
    },
    {
      "epoch": 648.24,
      "learning_rate": 7.123264753766563e-05,
      "loss": 0.4239,
      "step": 33060
    },
    {
      "epoch": 648.43,
      "learning_rate": 7.119217302857792e-05,
      "loss": 0.4216,
      "step": 33070
    },
    {
      "epoch": 648.63,
      "learning_rate": 7.115169963129076e-05,
      "loss": 0.4278,
      "step": 33080
    },
    {
      "epoch": 648.82,
      "learning_rate": 7.11112273576215e-05,
      "loss": 0.4245,
      "step": 33090
    },
    {
      "epoch": 649.0,
      "eval_loss": 0.42947202920913696,
      "eval_runtime": 2.2983,
      "eval_samples_per_second": 991.598,
      "eval_steps_per_second": 3.916,
      "step": 33099
    },
    {
      "epoch": 649.02,
      "learning_rate": 7.107075621938714e-05,
      "loss": 0.4214,
      "step": 33100
    },
    {
      "epoch": 649.22,
      "learning_rate": 7.103028622840429e-05,
      "loss": 0.4207,
      "step": 33110
    },
    {
      "epoch": 649.41,
      "learning_rate": 7.098981739648934e-05,
      "loss": 0.4245,
      "step": 33120
    },
    {
      "epoch": 649.61,
      "learning_rate": 7.094934973545827e-05,
      "loss": 0.4224,
      "step": 33130
    },
    {
      "epoch": 649.8,
      "learning_rate": 7.090888325712676e-05,
      "loss": 0.4268,
      "step": 33140
    },
    {
      "epoch": 650.0,
      "learning_rate": 7.086841797331007e-05,
      "loss": 0.4229,
      "step": 33150
    },
    {
      "epoch": 650.0,
      "eval_loss": 0.42622441053390503,
      "eval_runtime": 2.3563,
      "eval_samples_per_second": 967.185,
      "eval_steps_per_second": 3.82,
      "step": 33150
    },
    {
      "epoch": 650.2,
      "learning_rate": 7.082795389582323e-05,
      "loss": 0.4253,
      "step": 33160
    },
    {
      "epoch": 650.39,
      "learning_rate": 7.078749103648079e-05,
      "loss": 0.4191,
      "step": 33170
    },
    {
      "epoch": 650.59,
      "learning_rate": 7.074702940709699e-05,
      "loss": 0.4206,
      "step": 33180
    },
    {
      "epoch": 650.78,
      "learning_rate": 7.070656901948578e-05,
      "loss": 0.4246,
      "step": 33190
    },
    {
      "epoch": 650.98,
      "learning_rate": 7.066610988546065e-05,
      "loss": 0.423,
      "step": 33200
    },
    {
      "epoch": 651.0,
      "eval_loss": 0.4238925576210022,
      "eval_runtime": 2.2734,
      "eval_samples_per_second": 1002.449,
      "eval_steps_per_second": 3.959,
      "step": 33201
    },
    {
      "epoch": 651.18,
      "learning_rate": 7.06256520168348e-05,
      "loss": 0.4184,
      "step": 33210
    },
    {
      "epoch": 651.37,
      "learning_rate": 7.0585195425421e-05,
      "loss": 0.421,
      "step": 33220
    },
    {
      "epoch": 651.57,
      "learning_rate": 7.054474012303166e-05,
      "loss": 0.4231,
      "step": 33230
    },
    {
      "epoch": 651.76,
      "learning_rate": 7.050428612147885e-05,
      "loss": 0.4226,
      "step": 33240
    },
    {
      "epoch": 651.96,
      "learning_rate": 7.046383343257421e-05,
      "loss": 0.4209,
      "step": 33250
    },
    {
      "epoch": 652.0,
      "eval_loss": 0.42940622568130493,
      "eval_runtime": 2.2106,
      "eval_samples_per_second": 1030.937,
      "eval_steps_per_second": 4.071,
      "step": 33252
    },
    {
      "epoch": 652.16,
      "learning_rate": 7.042338206812907e-05,
      "loss": 0.4214,
      "step": 33260
    },
    {
      "epoch": 652.35,
      "learning_rate": 7.038293203995428e-05,
      "loss": 0.4221,
      "step": 33270
    },
    {
      "epoch": 652.55,
      "learning_rate": 7.034248335986037e-05,
      "loss": 0.4252,
      "step": 33280
    },
    {
      "epoch": 652.75,
      "learning_rate": 7.030203603965747e-05,
      "loss": 0.4217,
      "step": 33290
    },
    {
      "epoch": 652.94,
      "learning_rate": 7.026159009115522e-05,
      "loss": 0.4209,
      "step": 33300
    },
    {
      "epoch": 653.0,
      "eval_loss": 0.43150344491004944,
      "eval_runtime": 2.3003,
      "eval_samples_per_second": 990.759,
      "eval_steps_per_second": 3.913,
      "step": 33303
    },
    {
      "epoch": 653.14,
      "learning_rate": 7.022114552616304e-05,
      "loss": 0.4225,
      "step": 33310
    },
    {
      "epoch": 653.33,
      "learning_rate": 7.018070235648975e-05,
      "loss": 0.421,
      "step": 33320
    },
    {
      "epoch": 653.53,
      "learning_rate": 7.01402605939439e-05,
      "loss": 0.4221,
      "step": 33330
    },
    {
      "epoch": 653.73,
      "learning_rate": 7.009982025033356e-05,
      "loss": 0.4231,
      "step": 33340
    },
    {
      "epoch": 653.92,
      "learning_rate": 7.005938133746645e-05,
      "loss": 0.425,
      "step": 33350
    },
    {
      "epoch": 654.0,
      "eval_loss": 0.42987799644470215,
      "eval_runtime": 2.1499,
      "eval_samples_per_second": 1060.042,
      "eval_steps_per_second": 4.186,
      "step": 33354
    },
    {
      "epoch": 654.12,
      "learning_rate": 7.001894386714981e-05,
      "loss": 0.4214,
      "step": 33360
    },
    {
      "epoch": 654.31,
      "learning_rate": 6.997850785119044e-05,
      "loss": 0.4247,
      "step": 33370
    },
    {
      "epoch": 654.51,
      "learning_rate": 6.993807330139481e-05,
      "loss": 0.4203,
      "step": 33380
    },
    {
      "epoch": 654.71,
      "learning_rate": 6.989764022956885e-05,
      "loss": 0.4245,
      "step": 33390
    },
    {
      "epoch": 654.9,
      "learning_rate": 6.985720864751819e-05,
      "loss": 0.418,
      "step": 33400
    },
    {
      "epoch": 655.0,
      "eval_loss": 0.42820972204208374,
      "eval_runtime": 2.2377,
      "eval_samples_per_second": 1018.475,
      "eval_steps_per_second": 4.022,
      "step": 33405
    },
    {
      "epoch": 655.1,
      "learning_rate": 6.981677856704788e-05,
      "loss": 0.4256,
      "step": 33410
    },
    {
      "epoch": 655.29,
      "learning_rate": 6.977634999996266e-05,
      "loss": 0.4199,
      "step": 33420
    },
    {
      "epoch": 655.49,
      "learning_rate": 6.973592295806673e-05,
      "loss": 0.4251,
      "step": 33430
    },
    {
      "epoch": 655.69,
      "learning_rate": 6.96954974531639e-05,
      "loss": 0.4221,
      "step": 33440
    },
    {
      "epoch": 655.88,
      "learning_rate": 6.96550734970575e-05,
      "loss": 0.423,
      "step": 33450
    },
    {
      "epoch": 656.0,
      "eval_loss": 0.4263513386249542,
      "eval_runtime": 2.317,
      "eval_samples_per_second": 983.589,
      "eval_steps_per_second": 3.884,
      "step": 33456
    },
    {
      "epoch": 656.08,
      "learning_rate": 6.961465110155042e-05,
      "loss": 0.4227,
      "step": 33460
    },
    {
      "epoch": 656.27,
      "learning_rate": 6.957423027844515e-05,
      "loss": 0.425,
      "step": 33470
    },
    {
      "epoch": 656.47,
      "learning_rate": 6.95338110395436e-05,
      "loss": 0.419,
      "step": 33480
    },
    {
      "epoch": 656.67,
      "learning_rate": 6.949339339664735e-05,
      "loss": 0.4221,
      "step": 33490
    },
    {
      "epoch": 656.86,
      "learning_rate": 6.945297736155742e-05,
      "loss": 0.4267,
      "step": 33500
    },
    {
      "epoch": 657.0,
      "eval_loss": 0.42961037158966064,
      "eval_runtime": 2.3194,
      "eval_samples_per_second": 982.598,
      "eval_steps_per_second": 3.88,
      "step": 33507
    },
    {
      "epoch": 657.06,
      "learning_rate": 6.941256294607435e-05,
      "loss": 0.4198,
      "step": 33510
    },
    {
      "epoch": 657.25,
      "learning_rate": 6.937215016199833e-05,
      "loss": 0.4256,
      "step": 33520
    },
    {
      "epoch": 657.45,
      "learning_rate": 6.933173902112892e-05,
      "loss": 0.4255,
      "step": 33530
    },
    {
      "epoch": 657.65,
      "learning_rate": 6.929132953526531e-05,
      "loss": 0.424,
      "step": 33540
    },
    {
      "epoch": 657.84,
      "learning_rate": 6.925092171620616e-05,
      "loss": 0.4226,
      "step": 33550
    },
    {
      "epoch": 658.0,
      "eval_loss": 0.4268750548362732,
      "eval_runtime": 2.2466,
      "eval_samples_per_second": 1014.438,
      "eval_steps_per_second": 4.006,
      "step": 33558
    },
    {
      "epoch": 658.04,
      "learning_rate": 6.921051557574965e-05,
      "loss": 0.4151,
      "step": 33560
    },
    {
      "epoch": 658.24,
      "learning_rate": 6.91701111256935e-05,
      "loss": 0.4231,
      "step": 33570
    },
    {
      "epoch": 658.43,
      "learning_rate": 6.912970837783485e-05,
      "loss": 0.4223,
      "step": 33580
    },
    {
      "epoch": 658.63,
      "learning_rate": 6.908930734397044e-05,
      "loss": 0.4202,
      "step": 33590
    },
    {
      "epoch": 658.82,
      "learning_rate": 6.904890803589645e-05,
      "loss": 0.4213,
      "step": 33600
    },
    {
      "epoch": 659.0,
      "eval_loss": 0.42958545684814453,
      "eval_runtime": 2.3495,
      "eval_samples_per_second": 969.976,
      "eval_steps_per_second": 3.831,
      "step": 33609
    },
    {
      "epoch": 659.02,
      "learning_rate": 6.900851046540862e-05,
      "loss": 0.4146,
      "step": 33610
    },
    {
      "epoch": 659.22,
      "learning_rate": 6.896811464430209e-05,
      "loss": 0.4223,
      "step": 33620
    },
    {
      "epoch": 659.41,
      "learning_rate": 6.892772058437158e-05,
      "loss": 0.4202,
      "step": 33630
    },
    {
      "epoch": 659.61,
      "learning_rate": 6.888732829741124e-05,
      "loss": 0.4214,
      "step": 33640
    },
    {
      "epoch": 659.8,
      "learning_rate": 6.884693779521468e-05,
      "loss": 0.4244,
      "step": 33650
    },
    {
      "epoch": 660.0,
      "learning_rate": 6.880654908957507e-05,
      "loss": 0.4192,
      "step": 33660
    },
    {
      "epoch": 660.0,
      "eval_loss": 0.4259309470653534,
      "eval_runtime": 2.3163,
      "eval_samples_per_second": 983.884,
      "eval_steps_per_second": 3.885,
      "step": 33660
    },
    {
      "epoch": 660.2,
      "learning_rate": 6.876616219228499e-05,
      "loss": 0.4216,
      "step": 33670
    },
    {
      "epoch": 660.39,
      "learning_rate": 6.872577711513655e-05,
      "loss": 0.4201,
      "step": 33680
    },
    {
      "epoch": 660.59,
      "learning_rate": 6.868539386992124e-05,
      "loss": 0.4154,
      "step": 33690
    },
    {
      "epoch": 660.78,
      "learning_rate": 6.86450124684301e-05,
      "loss": 0.4229,
      "step": 33700
    },
    {
      "epoch": 660.98,
      "learning_rate": 6.860463292245359e-05,
      "loss": 0.4234,
      "step": 33710
    },
    {
      "epoch": 661.0,
      "eval_loss": 0.42434313893318176,
      "eval_runtime": 2.3499,
      "eval_samples_per_second": 969.824,
      "eval_steps_per_second": 3.83,
      "step": 33711
    },
    {
      "epoch": 661.18,
      "learning_rate": 6.856425524378163e-05,
      "loss": 0.4272,
      "step": 33720
    },
    {
      "epoch": 661.37,
      "learning_rate": 6.852387944420363e-05,
      "loss": 0.4188,
      "step": 33730
    },
    {
      "epoch": 661.57,
      "learning_rate": 6.848350553550837e-05,
      "loss": 0.4209,
      "step": 33740
    },
    {
      "epoch": 661.76,
      "learning_rate": 6.844313352948416e-05,
      "loss": 0.4176,
      "step": 33750
    },
    {
      "epoch": 661.96,
      "learning_rate": 6.840276343791873e-05,
      "loss": 0.4205,
      "step": 33760
    },
    {
      "epoch": 662.0,
      "eval_loss": 0.42560145258903503,
      "eval_runtime": 2.2243,
      "eval_samples_per_second": 1024.574,
      "eval_steps_per_second": 4.046,
      "step": 33762
    },
    {
      "epoch": 662.16,
      "learning_rate": 6.836239527259926e-05,
      "loss": 0.4257,
      "step": 33770
    },
    {
      "epoch": 662.35,
      "learning_rate": 6.832202904531235e-05,
      "loss": 0.4229,
      "step": 33780
    },
    {
      "epoch": 662.55,
      "learning_rate": 6.8281664767844e-05,
      "loss": 0.4202,
      "step": 33790
    },
    {
      "epoch": 662.75,
      "learning_rate": 6.824130245197971e-05,
      "loss": 0.4254,
      "step": 33800
    },
    {
      "epoch": 662.94,
      "learning_rate": 6.820094210950436e-05,
      "loss": 0.4185,
      "step": 33810
    },
    {
      "epoch": 663.0,
      "eval_loss": 0.4250730872154236,
      "eval_runtime": 2.2197,
      "eval_samples_per_second": 1026.736,
      "eval_steps_per_second": 4.055,
      "step": 33813
    },
    {
      "epoch": 663.14,
      "learning_rate": 6.81605837522023e-05,
      "loss": 0.424,
      "step": 33820
    },
    {
      "epoch": 663.33,
      "learning_rate": 6.812022739185722e-05,
      "loss": 0.4151,
      "step": 33830
    },
    {
      "epoch": 663.53,
      "learning_rate": 6.807987304025235e-05,
      "loss": 0.4183,
      "step": 33840
    },
    {
      "epoch": 663.73,
      "learning_rate": 6.80395207091702e-05,
      "loss": 0.4142,
      "step": 33850
    },
    {
      "epoch": 663.92,
      "learning_rate": 6.799917041039276e-05,
      "loss": 0.4212,
      "step": 33860
    },
    {
      "epoch": 664.0,
      "eval_loss": 0.42312219738960266,
      "eval_runtime": 2.2415,
      "eval_samples_per_second": 1016.727,
      "eval_steps_per_second": 4.015,
      "step": 33864
    },
    {
      "epoch": 664.12,
      "learning_rate": 6.795882215570143e-05,
      "loss": 0.4202,
      "step": 33870
    },
    {
      "epoch": 664.31,
      "learning_rate": 6.7918475956877e-05,
      "loss": 0.4145,
      "step": 33880
    },
    {
      "epoch": 664.51,
      "learning_rate": 6.787813182569968e-05,
      "loss": 0.4202,
      "step": 33890
    },
    {
      "epoch": 664.71,
      "learning_rate": 6.783778977394899e-05,
      "loss": 0.4203,
      "step": 33900
    },
    {
      "epoch": 664.9,
      "learning_rate": 6.779744981340399e-05,
      "loss": 0.4228,
      "step": 33910
    },
    {
      "epoch": 665.0,
      "eval_loss": 0.42498070001602173,
      "eval_runtime": 2.2609,
      "eval_samples_per_second": 1008.014,
      "eval_steps_per_second": 3.981,
      "step": 33915
    },
    {
      "epoch": 665.1,
      "learning_rate": 6.775711195584299e-05,
      "loss": 0.421,
      "step": 33920
    },
    {
      "epoch": 665.29,
      "learning_rate": 6.771677621304376e-05,
      "loss": 0.4228,
      "step": 33930
    },
    {
      "epoch": 665.49,
      "learning_rate": 6.767644259678348e-05,
      "loss": 0.4227,
      "step": 33940
    },
    {
      "epoch": 665.69,
      "learning_rate": 6.76361111188386e-05,
      "loss": 0.4181,
      "step": 33950
    },
    {
      "epoch": 665.88,
      "learning_rate": 6.759578179098505e-05,
      "loss": 0.421,
      "step": 33960
    },
    {
      "epoch": 666.0,
      "eval_loss": 0.42840486764907837,
      "eval_runtime": 2.2641,
      "eval_samples_per_second": 1006.588,
      "eval_steps_per_second": 3.975,
      "step": 33966
    },
    {
      "epoch": 666.08,
      "learning_rate": 6.755545462499812e-05,
      "loss": 0.4178,
      "step": 33970
    },
    {
      "epoch": 666.27,
      "learning_rate": 6.751512963265234e-05,
      "loss": 0.419,
      "step": 33980
    },
    {
      "epoch": 666.47,
      "learning_rate": 6.747480682572185e-05,
      "loss": 0.4198,
      "step": 33990
    },
    {
      "epoch": 666.67,
      "learning_rate": 6.743448621597988e-05,
      "loss": 0.4206,
      "step": 34000
    },
    {
      "epoch": 666.86,
      "learning_rate": 6.739416781519924e-05,
      "loss": 0.4226,
      "step": 34010
    },
    {
      "epoch": 667.0,
      "eval_loss": 0.4243127107620239,
      "eval_runtime": 2.2983,
      "eval_samples_per_second": 991.589,
      "eval_steps_per_second": 3.916,
      "step": 34017
    },
    {
      "epoch": 667.06,
      "learning_rate": 6.735385163515194e-05,
      "loss": 0.4209,
      "step": 34020
    },
    {
      "epoch": 667.25,
      "learning_rate": 6.731353768760947e-05,
      "loss": 0.4203,
      "step": 34030
    },
    {
      "epoch": 667.45,
      "learning_rate": 6.727322598434259e-05,
      "loss": 0.4172,
      "step": 34040
    },
    {
      "epoch": 667.65,
      "learning_rate": 6.723291653712135e-05,
      "loss": 0.4184,
      "step": 34050
    },
    {
      "epoch": 667.84,
      "learning_rate": 6.719260935771529e-05,
      "loss": 0.4201,
      "step": 34060
    },
    {
      "epoch": 668.0,
      "eval_loss": 0.4278631806373596,
      "eval_runtime": 2.1713,
      "eval_samples_per_second": 1049.583,
      "eval_steps_per_second": 4.145,
      "step": 34068
    },
    {
      "epoch": 668.04,
      "learning_rate": 6.715230445789315e-05,
      "loss": 0.424,
      "step": 34070
    },
    {
      "epoch": 668.24,
      "learning_rate": 6.711200184942311e-05,
      "loss": 0.4177,
      "step": 34080
    },
    {
      "epoch": 668.43,
      "learning_rate": 6.70717015440726e-05,
      "loss": 0.4189,
      "step": 34090
    },
    {
      "epoch": 668.63,
      "learning_rate": 6.703140355360843e-05,
      "loss": 0.4213,
      "step": 34100
    },
    {
      "epoch": 668.82,
      "learning_rate": 6.69911078897967e-05,
      "loss": 0.4213,
      "step": 34110
    },
    {
      "epoch": 669.0,
      "eval_loss": 0.4210264980792999,
      "eval_runtime": 2.3532,
      "eval_samples_per_second": 968.452,
      "eval_steps_per_second": 3.825,
      "step": 34119
    },
    {
      "epoch": 669.02,
      "learning_rate": 6.695081456440284e-05,
      "loss": 0.4204,
      "step": 34120
    },
    {
      "epoch": 669.22,
      "learning_rate": 6.691052358919162e-05,
      "loss": 0.4156,
      "step": 34130
    },
    {
      "epoch": 669.41,
      "learning_rate": 6.687023497592709e-05,
      "loss": 0.4221,
      "step": 34140
    },
    {
      "epoch": 669.61,
      "learning_rate": 6.682994873637267e-05,
      "loss": 0.42,
      "step": 34150
    },
    {
      "epoch": 669.8,
      "learning_rate": 6.678966488229099e-05,
      "loss": 0.4154,
      "step": 34160
    },
    {
      "epoch": 670.0,
      "learning_rate": 6.674938342544404e-05,
      "loss": 0.4237,
      "step": 34170
    },
    {
      "epoch": 670.0,
      "eval_loss": 0.4264044165611267,
      "eval_runtime": 2.2635,
      "eval_samples_per_second": 1006.853,
      "eval_steps_per_second": 3.976,
      "step": 34170
    },
    {
      "epoch": 670.2,
      "learning_rate": 6.670910437759317e-05,
      "loss": 0.4231,
      "step": 34180
    },
    {
      "epoch": 670.39,
      "learning_rate": 6.666882775049885e-05,
      "loss": 0.4167,
      "step": 34190
    },
    {
      "epoch": 670.59,
      "learning_rate": 6.662855355592109e-05,
      "loss": 0.4183,
      "step": 34200
    },
    {
      "epoch": 670.78,
      "learning_rate": 6.658828180561893e-05,
      "loss": 0.4166,
      "step": 34210
    },
    {
      "epoch": 670.98,
      "learning_rate": 6.654801251135092e-05,
      "loss": 0.4228,
      "step": 34220
    },
    {
      "epoch": 671.0,
      "eval_loss": 0.4236544668674469,
      "eval_runtime": 2.3232,
      "eval_samples_per_second": 980.983,
      "eval_steps_per_second": 3.874,
      "step": 34221
    },
    {
      "epoch": 671.18,
      "learning_rate": 6.650774568487473e-05,
      "loss": 0.4168,
      "step": 34230
    },
    {
      "epoch": 671.37,
      "learning_rate": 6.646748133794743e-05,
      "loss": 0.4202,
      "step": 34240
    },
    {
      "epoch": 671.57,
      "learning_rate": 6.64272194823253e-05,
      "loss": 0.4232,
      "step": 34250
    },
    {
      "epoch": 671.76,
      "learning_rate": 6.638696012976386e-05,
      "loss": 0.4189,
      "step": 34260
    },
    {
      "epoch": 671.96,
      "learning_rate": 6.634670329201798e-05,
      "loss": 0.4181,
      "step": 34270
    },
    {
      "epoch": 672.0,
      "eval_loss": 0.4245344400405884,
      "eval_runtime": 2.3276,
      "eval_samples_per_second": 979.099,
      "eval_steps_per_second": 3.867,
      "step": 34272
    },
    {
      "epoch": 672.16,
      "learning_rate": 6.630644898084175e-05,
      "loss": 0.4182,
      "step": 34280
    },
    {
      "epoch": 672.35,
      "learning_rate": 6.626619720798854e-05,
      "loss": 0.4228,
      "step": 34290
    },
    {
      "epoch": 672.55,
      "learning_rate": 6.622594798521094e-05,
      "loss": 0.4226,
      "step": 34300
    },
    {
      "epoch": 672.75,
      "learning_rate": 6.618570132426088e-05,
      "loss": 0.4187,
      "step": 34310
    },
    {
      "epoch": 672.94,
      "learning_rate": 6.614545723688945e-05,
      "loss": 0.4242,
      "step": 34320
    },
    {
      "epoch": 673.0,
      "eval_loss": 0.42444732785224915,
      "eval_runtime": 2.1962,
      "eval_samples_per_second": 1037.713,
      "eval_steps_per_second": 4.098,
      "step": 34323
    },
    {
      "epoch": 673.14,
      "learning_rate": 6.610521573484701e-05,
      "loss": 0.4215,
      "step": 34330
    },
    {
      "epoch": 673.33,
      "learning_rate": 6.606497682988323e-05,
      "loss": 0.4206,
      "step": 34340
    },
    {
      "epoch": 673.53,
      "learning_rate": 6.60247405337469e-05,
      "loss": 0.4224,
      "step": 34350
    },
    {
      "epoch": 673.73,
      "learning_rate": 6.598450685818622e-05,
      "loss": 0.4226,
      "step": 34360
    },
    {
      "epoch": 673.92,
      "learning_rate": 6.594427581494844e-05,
      "loss": 0.4178,
      "step": 34370
    },
    {
      "epoch": 674.0,
      "eval_loss": 0.424979567527771,
      "eval_runtime": 2.2868,
      "eval_samples_per_second": 996.581,
      "eval_steps_per_second": 3.936,
      "step": 34374
    },
    {
      "epoch": 674.12,
      "learning_rate": 6.590404741578018e-05,
      "loss": 0.4136,
      "step": 34380
    },
    {
      "epoch": 674.31,
      "learning_rate": 6.586382167242722e-05,
      "loss": 0.414,
      "step": 34390
    },
    {
      "epoch": 674.51,
      "learning_rate": 6.582359859663454e-05,
      "loss": 0.4187,
      "step": 34400
    },
    {
      "epoch": 674.71,
      "learning_rate": 6.578337820014644e-05,
      "loss": 0.4224,
      "step": 34410
    },
    {
      "epoch": 674.9,
      "learning_rate": 6.574316049470635e-05,
      "loss": 0.4184,
      "step": 34420
    },
    {
      "epoch": 675.0,
      "eval_loss": 0.427442342042923,
      "eval_runtime": 2.3158,
      "eval_samples_per_second": 984.096,
      "eval_steps_per_second": 3.886,
      "step": 34425
    },
    {
      "epoch": 675.1,
      "learning_rate": 6.570294549205695e-05,
      "loss": 0.4225,
      "step": 34430
    },
    {
      "epoch": 675.29,
      "learning_rate": 6.56627332039401e-05,
      "loss": 0.4172,
      "step": 34440
    },
    {
      "epoch": 675.49,
      "learning_rate": 6.562252364209694e-05,
      "loss": 0.4148,
      "step": 34450
    },
    {
      "epoch": 675.69,
      "learning_rate": 6.558231681826776e-05,
      "loss": 0.418,
      "step": 34460
    },
    {
      "epoch": 675.88,
      "learning_rate": 6.5542112744192e-05,
      "loss": 0.4163,
      "step": 34470
    },
    {
      "epoch": 676.0,
      "eval_loss": 0.4221233129501343,
      "eval_runtime": 2.3487,
      "eval_samples_per_second": 970.314,
      "eval_steps_per_second": 3.832,
      "step": 34476
    },
    {
      "epoch": 676.08,
      "learning_rate": 6.550191143160839e-05,
      "loss": 0.4191,
      "step": 34480
    },
    {
      "epoch": 676.27,
      "learning_rate": 6.54617128922548e-05,
      "loss": 0.4216,
      "step": 34490
    },
    {
      "epoch": 676.47,
      "learning_rate": 6.542151713786834e-05,
      "loss": 0.4202,
      "step": 34500
    },
    {
      "epoch": 676.67,
      "learning_rate": 6.538132418018525e-05,
      "loss": 0.4188,
      "step": 34510
    },
    {
      "epoch": 676.86,
      "learning_rate": 6.5341134030941e-05,
      "loss": 0.4288,
      "step": 34520
    },
    {
      "epoch": 677.0,
      "eval_loss": 0.42452743649482727,
      "eval_runtime": 2.2039,
      "eval_samples_per_second": 1034.062,
      "eval_steps_per_second": 4.084,
      "step": 34527
    },
    {
      "epoch": 677.06,
      "learning_rate": 6.530094670187019e-05,
      "loss": 0.4153,
      "step": 34530
    },
    {
      "epoch": 677.25,
      "learning_rate": 6.526076220470661e-05,
      "loss": 0.423,
      "step": 34540
    },
    {
      "epoch": 677.45,
      "learning_rate": 6.52205805511833e-05,
      "loss": 0.4241,
      "step": 34550
    },
    {
      "epoch": 677.65,
      "learning_rate": 6.518040175303233e-05,
      "loss": 0.4211,
      "step": 34560
    },
    {
      "epoch": 677.84,
      "learning_rate": 6.514022582198508e-05,
      "loss": 0.4205,
      "step": 34570
    },
    {
      "epoch": 678.0,
      "eval_loss": 0.42583590745925903,
      "eval_runtime": 2.3161,
      "eval_samples_per_second": 983.968,
      "eval_steps_per_second": 3.886,
      "step": 34578
    },
    {
      "epoch": 678.04,
      "learning_rate": 6.510005276977197e-05,
      "loss": 0.425,
      "step": 34580
    },
    {
      "epoch": 678.24,
      "learning_rate": 6.505988260812268e-05,
      "loss": 0.4236,
      "step": 34590
    },
    {
      "epoch": 678.43,
      "learning_rate": 6.501971534876599e-05,
      "loss": 0.4227,
      "step": 34600
    },
    {
      "epoch": 678.63,
      "learning_rate": 6.497955100342979e-05,
      "loss": 0.4136,
      "step": 34610
    },
    {
      "epoch": 678.82,
      "learning_rate": 6.493938958384127e-05,
      "loss": 0.4167,
      "step": 34620
    },
    {
      "epoch": 679.0,
      "eval_loss": 0.4242996275424957,
      "eval_runtime": 2.1858,
      "eval_samples_per_second": 1042.625,
      "eval_steps_per_second": 4.117,
      "step": 34629
    },
    {
      "epoch": 679.02,
      "learning_rate": 6.489923110172659e-05,
      "loss": 0.4198,
      "step": 34630
    },
    {
      "epoch": 679.22,
      "learning_rate": 6.485907556881117e-05,
      "loss": 0.4204,
      "step": 34640
    },
    {
      "epoch": 679.41,
      "learning_rate": 6.481892299681953e-05,
      "loss": 0.4209,
      "step": 34650
    },
    {
      "epoch": 679.61,
      "learning_rate": 6.477877339747528e-05,
      "loss": 0.4188,
      "step": 34660
    },
    {
      "epoch": 679.8,
      "learning_rate": 6.473862678250128e-05,
      "loss": 0.4228,
      "step": 34670
    },
    {
      "epoch": 680.0,
      "learning_rate": 6.469848316361938e-05,
      "loss": 0.4172,
      "step": 34680
    },
    {
      "epoch": 680.0,
      "eval_loss": 0.4240746796131134,
      "eval_runtime": 2.2674,
      "eval_samples_per_second": 1005.137,
      "eval_steps_per_second": 3.969,
      "step": 34680
    },
    {
      "epoch": 680.2,
      "learning_rate": 6.465834255255067e-05,
      "loss": 0.4173,
      "step": 34690
    },
    {
      "epoch": 680.39,
      "learning_rate": 6.461820496101528e-05,
      "loss": 0.4136,
      "step": 34700
    },
    {
      "epoch": 680.59,
      "learning_rate": 6.45780704007325e-05,
      "loss": 0.4175,
      "step": 34710
    },
    {
      "epoch": 680.78,
      "learning_rate": 6.453793888342077e-05,
      "loss": 0.4162,
      "step": 34720
    },
    {
      "epoch": 680.98,
      "learning_rate": 6.449781042079752e-05,
      "loss": 0.4212,
      "step": 34730
    },
    {
      "epoch": 681.0,
      "eval_loss": 0.4216473698616028,
      "eval_runtime": 2.2937,
      "eval_samples_per_second": 993.581,
      "eval_steps_per_second": 3.924,
      "step": 34731
    },
    {
      "epoch": 681.18,
      "learning_rate": 6.445768502457942e-05,
      "loss": 0.4212,
      "step": 34740
    },
    {
      "epoch": 681.37,
      "learning_rate": 6.441756270648216e-05,
      "loss": 0.4171,
      "step": 34750
    },
    {
      "epoch": 681.57,
      "learning_rate": 6.43774434782206e-05,
      "loss": 0.4208,
      "step": 34760
    },
    {
      "epoch": 681.76,
      "learning_rate": 6.433732735150862e-05,
      "loss": 0.4218,
      "step": 34770
    },
    {
      "epoch": 681.96,
      "learning_rate": 6.429721433805928e-05,
      "loss": 0.4164,
      "step": 34780
    },
    {
      "epoch": 682.0,
      "eval_loss": 0.42144080996513367,
      "eval_runtime": 2.2344,
      "eval_samples_per_second": 1019.974,
      "eval_steps_per_second": 4.028,
      "step": 34782
    },
    {
      "epoch": 682.16,
      "learning_rate": 6.425710444958465e-05,
      "loss": 0.4188,
      "step": 34790
    },
    {
      "epoch": 682.35,
      "learning_rate": 6.42169976977959e-05,
      "loss": 0.4141,
      "step": 34800
    },
    {
      "epoch": 682.55,
      "learning_rate": 6.417689409440339e-05,
      "loss": 0.4203,
      "step": 34810
    },
    {
      "epoch": 682.75,
      "learning_rate": 6.413679365111635e-05,
      "loss": 0.4194,
      "step": 34820
    },
    {
      "epoch": 682.94,
      "learning_rate": 6.409669637964337e-05,
      "loss": 0.4171,
      "step": 34830
    },
    {
      "epoch": 683.0,
      "eval_loss": 0.42304977774620056,
      "eval_runtime": 2.2703,
      "eval_samples_per_second": 1003.818,
      "eval_steps_per_second": 3.964,
      "step": 34833
    },
    {
      "epoch": 683.14,
      "learning_rate": 6.405660229169183e-05,
      "loss": 0.4168,
      "step": 34840
    },
    {
      "epoch": 683.33,
      "learning_rate": 6.401651139896838e-05,
      "loss": 0.4201,
      "step": 34850
    },
    {
      "epoch": 683.53,
      "learning_rate": 6.397642371317866e-05,
      "loss": 0.4153,
      "step": 34860
    },
    {
      "epoch": 683.73,
      "learning_rate": 6.393633924602733e-05,
      "loss": 0.4181,
      "step": 34870
    },
    {
      "epoch": 683.92,
      "learning_rate": 6.389625800921824e-05,
      "loss": 0.4166,
      "step": 34880
    },
    {
      "epoch": 684.0,
      "eval_loss": 0.42609888315200806,
      "eval_runtime": 2.3337,
      "eval_samples_per_second": 976.565,
      "eval_steps_per_second": 3.857,
      "step": 34884
    },
    {
      "epoch": 684.12,
      "learning_rate": 6.385618001445413e-05,
      "loss": 0.4207,
      "step": 34890
    },
    {
      "epoch": 684.31,
      "learning_rate": 6.381610527343694e-05,
      "loss": 0.4198,
      "step": 34900
    },
    {
      "epoch": 684.51,
      "learning_rate": 6.377603379786757e-05,
      "loss": 0.415,
      "step": 34910
    },
    {
      "epoch": 684.71,
      "learning_rate": 6.373596559944604e-05,
      "loss": 0.4151,
      "step": 34920
    },
    {
      "epoch": 684.9,
      "learning_rate": 6.369590068987135e-05,
      "loss": 0.4172,
      "step": 34930
    },
    {
      "epoch": 685.0,
      "eval_loss": 0.4224391579627991,
      "eval_runtime": 2.3437,
      "eval_samples_per_second": 972.39,
      "eval_steps_per_second": 3.84,
      "step": 34935
    },
    {
      "epoch": 685.1,
      "learning_rate": 6.365583908084152e-05,
      "loss": 0.4098,
      "step": 34940
    },
    {
      "epoch": 685.29,
      "learning_rate": 6.361578078405371e-05,
      "loss": 0.4191,
      "step": 34950
    },
    {
      "epoch": 685.49,
      "learning_rate": 6.357572581120399e-05,
      "loss": 0.4186,
      "step": 34960
    },
    {
      "epoch": 685.69,
      "learning_rate": 6.353567417398756e-05,
      "loss": 0.4173,
      "step": 34970
    },
    {
      "epoch": 685.88,
      "learning_rate": 6.349562588409858e-05,
      "loss": 0.4188,
      "step": 34980
    },
    {
      "epoch": 686.0,
      "eval_loss": 0.42092400789260864,
      "eval_runtime": 2.2152,
      "eval_samples_per_second": 1028.793,
      "eval_steps_per_second": 4.063,
      "step": 34986
    },
    {
      "epoch": 686.08,
      "learning_rate": 6.34555809532303e-05,
      "loss": 0.422,
      "step": 34990
    },
    {
      "epoch": 686.27,
      "learning_rate": 6.34155393930749e-05,
      "loss": 0.416,
      "step": 35000
    },
    {
      "epoch": 686.47,
      "learning_rate": 6.337550121532362e-05,
      "loss": 0.4176,
      "step": 35010
    },
    {
      "epoch": 686.67,
      "learning_rate": 6.333546643166678e-05,
      "loss": 0.4183,
      "step": 35020
    },
    {
      "epoch": 686.86,
      "learning_rate": 6.329543505379354e-05,
      "loss": 0.4187,
      "step": 35030
    },
    {
      "epoch": 687.0,
      "eval_loss": 0.41680261492729187,
      "eval_runtime": 2.3457,
      "eval_samples_per_second": 971.556,
      "eval_steps_per_second": 3.837,
      "step": 35037
    },
    {
      "epoch": 687.06,
      "learning_rate": 6.325540709339227e-05,
      "loss": 0.4162,
      "step": 35040
    },
    {
      "epoch": 687.25,
      "learning_rate": 6.321538256215017e-05,
      "loss": 0.4152,
      "step": 35050
    },
    {
      "epoch": 687.45,
      "learning_rate": 6.317536147175356e-05,
      "loss": 0.4199,
      "step": 35060
    },
    {
      "epoch": 687.65,
      "learning_rate": 6.31353438338877e-05,
      "loss": 0.4167,
      "step": 35070
    },
    {
      "epoch": 687.84,
      "learning_rate": 6.309532966023678e-05,
      "loss": 0.4174,
      "step": 35080
    },
    {
      "epoch": 688.0,
      "eval_loss": 0.4200821816921234,
      "eval_runtime": 2.3042,
      "eval_samples_per_second": 989.077,
      "eval_steps_per_second": 3.906,
      "step": 35088
    },
    {
      "epoch": 688.04,
      "learning_rate": 6.305531896248415e-05,
      "loss": 0.4156,
      "step": 35090
    },
    {
      "epoch": 688.24,
      "learning_rate": 6.301531175231196e-05,
      "loss": 0.4127,
      "step": 35100
    },
    {
      "epoch": 688.43,
      "learning_rate": 6.297530804140147e-05,
      "loss": 0.4149,
      "step": 35110
    },
    {
      "epoch": 688.63,
      "learning_rate": 6.293530784143284e-05,
      "loss": 0.4141,
      "step": 35120
    },
    {
      "epoch": 688.82,
      "learning_rate": 6.289531116408526e-05,
      "loss": 0.4184,
      "step": 35130
    },
    {
      "epoch": 689.0,
      "eval_loss": 0.41768765449523926,
      "eval_runtime": 2.2735,
      "eval_samples_per_second": 1002.432,
      "eval_steps_per_second": 3.959,
      "step": 35139
    },
    {
      "epoch": 689.02,
      "learning_rate": 6.285531802103688e-05,
      "loss": 0.4164,
      "step": 35140
    },
    {
      "epoch": 689.22,
      "learning_rate": 6.281532842396476e-05,
      "loss": 0.4215,
      "step": 35150
    },
    {
      "epoch": 689.41,
      "learning_rate": 6.2775342384545e-05,
      "loss": 0.4152,
      "step": 35160
    },
    {
      "epoch": 689.61,
      "learning_rate": 6.273535991445261e-05,
      "loss": 0.4231,
      "step": 35170
    },
    {
      "epoch": 689.8,
      "learning_rate": 6.269538102536163e-05,
      "loss": 0.4135,
      "step": 35180
    },
    {
      "epoch": 690.0,
      "learning_rate": 6.265540572894494e-05,
      "loss": 0.4126,
      "step": 35190
    },
    {
      "epoch": 690.0,
      "eval_loss": 0.41916319727897644,
      "eval_runtime": 2.3438,
      "eval_samples_per_second": 972.34,
      "eval_steps_per_second": 3.84,
      "step": 35190
    },
    {
      "epoch": 690.2,
      "learning_rate": 6.26154340368745e-05,
      "loss": 0.4184,
      "step": 35200
    },
    {
      "epoch": 690.39,
      "learning_rate": 6.25754659608211e-05,
      "loss": 0.416,
      "step": 35210
    },
    {
      "epoch": 690.59,
      "learning_rate": 6.253550151245454e-05,
      "loss": 0.4136,
      "step": 35220
    },
    {
      "epoch": 690.78,
      "learning_rate": 6.249554070344358e-05,
      "loss": 0.4141,
      "step": 35230
    },
    {
      "epoch": 690.98,
      "learning_rate": 6.245558354545582e-05,
      "loss": 0.4168,
      "step": 35240
    },
    {
      "epoch": 691.0,
      "eval_loss": 0.4171481728553772,
      "eval_runtime": 2.3458,
      "eval_samples_per_second": 971.51,
      "eval_steps_per_second": 3.837,
      "step": 35241
    },
    {
      "epoch": 691.18,
      "learning_rate": 6.241563005015792e-05,
      "loss": 0.4149,
      "step": 35250
    },
    {
      "epoch": 691.37,
      "learning_rate": 6.237568022921537e-05,
      "loss": 0.4149,
      "step": 35260
    },
    {
      "epoch": 691.57,
      "learning_rate": 6.233573409429267e-05,
      "loss": 0.4113,
      "step": 35270
    },
    {
      "epoch": 691.76,
      "learning_rate": 6.229579165705317e-05,
      "loss": 0.4205,
      "step": 35280
    },
    {
      "epoch": 691.96,
      "learning_rate": 6.225585292915914e-05,
      "loss": 0.4152,
      "step": 35290
    },
    {
      "epoch": 692.0,
      "eval_loss": 0.4202278256416321,
      "eval_runtime": 2.3116,
      "eval_samples_per_second": 985.918,
      "eval_steps_per_second": 3.893,
      "step": 35292
    },
    {
      "epoch": 692.16,
      "learning_rate": 6.221591792227188e-05,
      "loss": 0.4188,
      "step": 35300
    },
    {
      "epoch": 692.35,
      "learning_rate": 6.217598664805143e-05,
      "loss": 0.4182,
      "step": 35310
    },
    {
      "epoch": 692.55,
      "learning_rate": 6.21360591181569e-05,
      "loss": 0.4183,
      "step": 35320
    },
    {
      "epoch": 692.75,
      "learning_rate": 6.209613534424624e-05,
      "loss": 0.413,
      "step": 35330
    },
    {
      "epoch": 692.94,
      "learning_rate": 6.205621533797621e-05,
      "loss": 0.4137,
      "step": 35340
    },
    {
      "epoch": 693.0,
      "eval_loss": 0.42095068097114563,
      "eval_runtime": 2.1897,
      "eval_samples_per_second": 1040.785,
      "eval_steps_per_second": 4.11,
      "step": 35343
    },
    {
      "epoch": 693.14,
      "learning_rate": 6.201629911100269e-05,
      "loss": 0.4146,
      "step": 35350
    },
    {
      "epoch": 693.33,
      "learning_rate": 6.197638667498022e-05,
      "loss": 0.4122,
      "step": 35360
    },
    {
      "epoch": 693.53,
      "learning_rate": 6.193647804156241e-05,
      "loss": 0.4166,
      "step": 35370
    },
    {
      "epoch": 693.73,
      "learning_rate": 6.189657322240165e-05,
      "loss": 0.4164,
      "step": 35380
    },
    {
      "epoch": 693.92,
      "learning_rate": 6.185667222914928e-05,
      "loss": 0.4139,
      "step": 35390
    },
    {
      "epoch": 694.0,
      "eval_loss": 0.4143226146697998,
      "eval_runtime": 2.205,
      "eval_samples_per_second": 1033.539,
      "eval_steps_per_second": 4.082,
      "step": 35394
    },
    {
      "epoch": 694.12,
      "learning_rate": 6.181677507345552e-05,
      "loss": 0.4172,
      "step": 35400
    },
    {
      "epoch": 694.31,
      "learning_rate": 6.17768817669694e-05,
      "loss": 0.4172,
      "step": 35410
    },
    {
      "epoch": 694.51,
      "learning_rate": 6.17369923213389e-05,
      "loss": 0.4159,
      "step": 35420
    },
    {
      "epoch": 694.71,
      "learning_rate": 6.169710674821085e-05,
      "loss": 0.4136,
      "step": 35430
    },
    {
      "epoch": 694.9,
      "learning_rate": 6.165722505923096e-05,
      "loss": 0.418,
      "step": 35440
    },
    {
      "epoch": 695.0,
      "eval_loss": 0.4250470697879791,
      "eval_runtime": 2.1916,
      "eval_samples_per_second": 1039.863,
      "eval_steps_per_second": 4.107,
      "step": 35445
    },
    {
      "epoch": 695.1,
      "learning_rate": 6.161734726604374e-05,
      "loss": 0.4154,
      "step": 35450
    },
    {
      "epoch": 695.29,
      "learning_rate": 6.15774733802927e-05,
      "loss": 0.4189,
      "step": 35460
    },
    {
      "epoch": 695.49,
      "learning_rate": 6.153760341362007e-05,
      "loss": 0.412,
      "step": 35470
    },
    {
      "epoch": 695.69,
      "learning_rate": 6.1497737377667e-05,
      "loss": 0.4208,
      "step": 35480
    },
    {
      "epoch": 695.88,
      "learning_rate": 6.145787528407348e-05,
      "loss": 0.4116,
      "step": 35490
    },
    {
      "epoch": 696.0,
      "eval_loss": 0.4236893951892853,
      "eval_runtime": 2.2843,
      "eval_samples_per_second": 997.695,
      "eval_steps_per_second": 3.94,
      "step": 35496
    },
    {
      "epoch": 696.08,
      "learning_rate": 6.141801714447834e-05,
      "loss": 0.4162,
      "step": 35500
    },
    {
      "epoch": 696.27,
      "learning_rate": 6.137816297051934e-05,
      "loss": 0.4133,
      "step": 35510
    },
    {
      "epoch": 696.47,
      "learning_rate": 6.13383127738329e-05,
      "loss": 0.4182,
      "step": 35520
    },
    {
      "epoch": 696.67,
      "learning_rate": 6.129846656605448e-05,
      "loss": 0.4202,
      "step": 35530
    },
    {
      "epoch": 696.86,
      "learning_rate": 6.125862435881826e-05,
      "loss": 0.4113,
      "step": 35540
    },
    {
      "epoch": 697.0,
      "eval_loss": 0.41717728972435,
      "eval_runtime": 2.2931,
      "eval_samples_per_second": 993.869,
      "eval_steps_per_second": 3.925,
      "step": 35547
    },
    {
      "epoch": 697.06,
      "learning_rate": 6.12187861637572e-05,
      "loss": 0.4114,
      "step": 35550
    },
    {
      "epoch": 697.25,
      "learning_rate": 6.11789519925033e-05,
      "loss": 0.4151,
      "step": 35560
    },
    {
      "epoch": 697.45,
      "learning_rate": 6.113912185668715e-05,
      "loss": 0.4122,
      "step": 35570
    },
    {
      "epoch": 697.65,
      "learning_rate": 6.109929576793829e-05,
      "loss": 0.4172,
      "step": 35580
    },
    {
      "epoch": 697.84,
      "learning_rate": 6.105947373788505e-05,
      "loss": 0.4131,
      "step": 35590
    },
    {
      "epoch": 698.0,
      "eval_loss": 0.4218674898147583,
      "eval_runtime": 2.2896,
      "eval_samples_per_second": 995.388,
      "eval_steps_per_second": 3.931,
      "step": 35598
    },
    {
      "epoch": 698.04,
      "learning_rate": 6.101965577815458e-05,
      "loss": 0.4105,
      "step": 35600
    },
    {
      "epoch": 698.24,
      "learning_rate": 6.097984190037284e-05,
      "loss": 0.4159,
      "step": 35610
    },
    {
      "epoch": 698.43,
      "learning_rate": 6.0940032116164555e-05,
      "loss": 0.4124,
      "step": 35620
    },
    {
      "epoch": 698.63,
      "learning_rate": 6.090022643715335e-05,
      "loss": 0.4153,
      "step": 35630
    },
    {
      "epoch": 698.82,
      "learning_rate": 6.086042487496155e-05,
      "loss": 0.4148,
      "step": 35640
    },
    {
      "epoch": 699.0,
      "eval_loss": 0.4179209768772125,
      "eval_runtime": 2.2257,
      "eval_samples_per_second": 1023.944,
      "eval_steps_per_second": 4.044,
      "step": 35649
    },
    {
      "epoch": 699.02,
      "learning_rate": 6.082062744121038e-05,
      "loss": 0.4175,
      "step": 35650
    },
    {
      "epoch": 699.22,
      "learning_rate": 6.0780834147519704e-05,
      "loss": 0.4176,
      "step": 35660
    },
    {
      "epoch": 699.41,
      "learning_rate": 6.07410450055084e-05,
      "loss": 0.4121,
      "step": 35670
    },
    {
      "epoch": 699.61,
      "learning_rate": 6.070126002679393e-05,
      "loss": 0.4108,
      "step": 35680
    },
    {
      "epoch": 699.8,
      "learning_rate": 6.066147922299262e-05,
      "loss": 0.4144,
      "step": 35690
    },
    {
      "epoch": 700.0,
      "learning_rate": 6.062170260571963e-05,
      "loss": 0.4117,
      "step": 35700
    },
    {
      "epoch": 700.0,
      "eval_loss": 0.4264349341392517,
      "eval_runtime": 2.3638,
      "eval_samples_per_second": 964.145,
      "eval_steps_per_second": 3.808,
      "step": 35700
    },
    {
      "epoch": 700.2,
      "learning_rate": 6.058193018658876e-05,
      "loss": 0.4168,
      "step": 35710
    },
    {
      "epoch": 700.39,
      "learning_rate": 6.0542161977212775e-05,
      "loss": 0.4138,
      "step": 35720
    },
    {
      "epoch": 700.59,
      "learning_rate": 6.050239798920303e-05,
      "loss": 0.4155,
      "step": 35730
    },
    {
      "epoch": 700.78,
      "learning_rate": 6.046263823416974e-05,
      "loss": 0.4106,
      "step": 35740
    },
    {
      "epoch": 700.98,
      "learning_rate": 6.04228827237219e-05,
      "loss": 0.4115,
      "step": 35750
    },
    {
      "epoch": 701.0,
      "eval_loss": 0.4244195818901062,
      "eval_runtime": 2.2262,
      "eval_samples_per_second": 1023.724,
      "eval_steps_per_second": 4.043,
      "step": 35751
    },
    {
      "epoch": 701.18,
      "learning_rate": 6.0383131469467157e-05,
      "loss": 0.4141,
      "step": 35760
    },
    {
      "epoch": 701.37,
      "learning_rate": 6.034338448301207e-05,
      "loss": 0.4116,
      "step": 35770
    },
    {
      "epoch": 701.57,
      "learning_rate": 6.030364177596182e-05,
      "loss": 0.4154,
      "step": 35780
    },
    {
      "epoch": 701.76,
      "learning_rate": 6.0263903359920426e-05,
      "loss": 0.4175,
      "step": 35790
    },
    {
      "epoch": 701.96,
      "learning_rate": 6.0224169246490586e-05,
      "loss": 0.4149,
      "step": 35800
    },
    {
      "epoch": 702.0,
      "eval_loss": 0.42228615283966064,
      "eval_runtime": 2.217,
      "eval_samples_per_second": 1027.969,
      "eval_steps_per_second": 4.06,
      "step": 35802
    },
    {
      "epoch": 702.16,
      "learning_rate": 6.018443944727381e-05,
      "loss": 0.416,
      "step": 35810
    },
    {
      "epoch": 702.35,
      "learning_rate": 6.014471397387032e-05,
      "loss": 0.4147,
      "step": 35820
    },
    {
      "epoch": 702.55,
      "learning_rate": 6.0104992837879e-05,
      "loss": 0.4142,
      "step": 35830
    },
    {
      "epoch": 702.75,
      "learning_rate": 6.0065276050897597e-05,
      "loss": 0.4148,
      "step": 35840
    },
    {
      "epoch": 702.94,
      "learning_rate": 6.00255636245225e-05,
      "loss": 0.4129,
      "step": 35850
    },
    {
      "epoch": 703.0,
      "eval_loss": 0.4189659357070923,
      "eval_runtime": 2.3057,
      "eval_samples_per_second": 988.411,
      "eval_steps_per_second": 3.903,
      "step": 35853
    },
    {
      "epoch": 703.14,
      "learning_rate": 5.998585557034889e-05,
      "loss": 0.4139,
      "step": 35860
    },
    {
      "epoch": 703.33,
      "learning_rate": 5.994615189997056e-05,
      "loss": 0.4141,
      "step": 35870
    },
    {
      "epoch": 703.53,
      "learning_rate": 5.990645262498019e-05,
      "loss": 0.41,
      "step": 35880
    },
    {
      "epoch": 703.73,
      "learning_rate": 5.986675775696903e-05,
      "loss": 0.4108,
      "step": 35890
    },
    {
      "epoch": 703.92,
      "learning_rate": 5.9827067307527067e-05,
      "loss": 0.4134,
      "step": 35900
    },
    {
      "epoch": 704.0,
      "eval_loss": 0.41974902153015137,
      "eval_runtime": 2.3539,
      "eval_samples_per_second": 968.194,
      "eval_steps_per_second": 3.823,
      "step": 35904
    },
    {
      "epoch": 704.12,
      "learning_rate": 5.9787381288243094e-05,
      "loss": 0.4149,
      "step": 35910
    },
    {
      "epoch": 704.31,
      "learning_rate": 5.9747699710704466e-05,
      "loss": 0.4169,
      "step": 35920
    },
    {
      "epoch": 704.51,
      "learning_rate": 5.970802258649742e-05,
      "loss": 0.4134,
      "step": 35930
    },
    {
      "epoch": 704.71,
      "learning_rate": 5.9668349927206696e-05,
      "loss": 0.4128,
      "step": 35940
    },
    {
      "epoch": 704.9,
      "learning_rate": 5.9628681744415877e-05,
      "loss": 0.4155,
      "step": 35950
    },
    {
      "epoch": 705.0,
      "eval_loss": 0.4202663004398346,
      "eval_runtime": 2.2216,
      "eval_samples_per_second": 1025.818,
      "eval_steps_per_second": 4.051,
      "step": 35955
    },
    {
      "epoch": 705.1,
      "learning_rate": 5.95890180497072e-05,
      "loss": 0.4137,
      "step": 35960
    },
    {
      "epoch": 705.29,
      "learning_rate": 5.95493588546615e-05,
      "loss": 0.4165,
      "step": 35970
    },
    {
      "epoch": 705.49,
      "learning_rate": 5.950970417085848e-05,
      "loss": 0.4115,
      "step": 35980
    },
    {
      "epoch": 705.69,
      "learning_rate": 5.9470054009876336e-05,
      "loss": 0.4094,
      "step": 35990
    },
    {
      "epoch": 705.88,
      "learning_rate": 5.943040838329209e-05,
      "loss": 0.4112,
      "step": 36000
    },
    {
      "epoch": 706.0,
      "eval_loss": 0.42057114839553833,
      "eval_runtime": 2.2541,
      "eval_samples_per_second": 1011.051,
      "eval_steps_per_second": 3.993,
      "step": 36006
    },
    {
      "epoch": 706.08,
      "learning_rate": 5.939076730268135e-05,
      "loss": 0.4104,
      "step": 36010
    },
    {
      "epoch": 706.27,
      "learning_rate": 5.935113077961845e-05,
      "loss": 0.4129,
      "step": 36020
    },
    {
      "epoch": 706.47,
      "learning_rate": 5.931149882567638e-05,
      "loss": 0.4138,
      "step": 36030
    },
    {
      "epoch": 706.67,
      "learning_rate": 5.927187145242672e-05,
      "loss": 0.4106,
      "step": 36040
    },
    {
      "epoch": 706.86,
      "learning_rate": 5.923224867143985e-05,
      "loss": 0.4113,
      "step": 36050
    },
    {
      "epoch": 707.0,
      "eval_loss": 0.41755741834640503,
      "eval_runtime": 2.2519,
      "eval_samples_per_second": 1012.054,
      "eval_steps_per_second": 3.997,
      "step": 36057
    },
    {
      "epoch": 707.06,
      "learning_rate": 5.9192630494284696e-05,
      "loss": 0.4082,
      "step": 36060
    },
    {
      "epoch": 707.25,
      "learning_rate": 5.915301693252894e-05,
      "loss": 0.4138,
      "step": 36070
    },
    {
      "epoch": 707.45,
      "learning_rate": 5.911340799773879e-05,
      "loss": 0.4161,
      "step": 36080
    },
    {
      "epoch": 707.65,
      "learning_rate": 5.907380370147919e-05,
      "loss": 0.412,
      "step": 36090
    },
    {
      "epoch": 707.84,
      "learning_rate": 5.9034204055313734e-05,
      "loss": 0.4117,
      "step": 36100
    },
    {
      "epoch": 708.0,
      "eval_loss": 0.42017531394958496,
      "eval_runtime": 2.2028,
      "eval_samples_per_second": 1034.59,
      "eval_steps_per_second": 4.086,
      "step": 36108
    },
    {
      "epoch": 708.04,
      "learning_rate": 5.89946090708046e-05,
      "loss": 0.4043,
      "step": 36110
    },
    {
      "epoch": 708.24,
      "learning_rate": 5.895501875951271e-05,
      "loss": 0.4111,
      "step": 36120
    },
    {
      "epoch": 708.43,
      "learning_rate": 5.891543313299744e-05,
      "loss": 0.4106,
      "step": 36130
    },
    {
      "epoch": 708.63,
      "learning_rate": 5.887585220281703e-05,
      "loss": 0.4154,
      "step": 36140
    },
    {
      "epoch": 708.82,
      "learning_rate": 5.8836275980528155e-05,
      "loss": 0.4128,
      "step": 36150
    },
    {
      "epoch": 709.0,
      "eval_loss": 0.4185832738876343,
      "eval_runtime": 2.1993,
      "eval_samples_per_second": 1036.236,
      "eval_steps_per_second": 4.092,
      "step": 36159
    },
    {
      "epoch": 709.02,
      "learning_rate": 5.879670447768619e-05,
      "loss": 0.4109,
      "step": 36160
    },
    {
      "epoch": 709.22,
      "learning_rate": 5.875713770584518e-05,
      "loss": 0.4148,
      "step": 36170
    },
    {
      "epoch": 709.41,
      "learning_rate": 5.8717575676557666e-05,
      "loss": 0.4093,
      "step": 36180
    },
    {
      "epoch": 709.61,
      "learning_rate": 5.867801840137497e-05,
      "loss": 0.4075,
      "step": 36190
    },
    {
      "epoch": 709.8,
      "learning_rate": 5.8638465891846854e-05,
      "loss": 0.4155,
      "step": 36200
    },
    {
      "epoch": 710.0,
      "learning_rate": 5.859891815952181e-05,
      "loss": 0.4111,
      "step": 36210
    },
    {
      "epoch": 710.0,
      "eval_loss": 0.41964903473854065,
      "eval_runtime": 2.3088,
      "eval_samples_per_second": 987.106,
      "eval_steps_per_second": 3.898,
      "step": 36210
    },
    {
      "epoch": 710.2,
      "learning_rate": 5.85593752159469e-05,
      "loss": 0.4116,
      "step": 36220
    },
    {
      "epoch": 710.39,
      "learning_rate": 5.8519837072667725e-05,
      "loss": 0.4109,
      "step": 36230
    },
    {
      "epoch": 710.59,
      "learning_rate": 5.848030374122862e-05,
      "loss": 0.4143,
      "step": 36240
    },
    {
      "epoch": 710.78,
      "learning_rate": 5.844077523317238e-05,
      "loss": 0.4121,
      "step": 36250
    },
    {
      "epoch": 710.98,
      "learning_rate": 5.8401251560040463e-05,
      "loss": 0.4168,
      "step": 36260
    },
    {
      "epoch": 711.0,
      "eval_loss": 0.42247816920280457,
      "eval_runtime": 2.3042,
      "eval_samples_per_second": 989.074,
      "eval_steps_per_second": 3.906,
      "step": 36261
    },
    {
      "epoch": 711.18,
      "learning_rate": 5.83617327333729e-05,
      "loss": 0.4147,
      "step": 36270
    },
    {
      "epoch": 711.37,
      "learning_rate": 5.8322218764708336e-05,
      "loss": 0.41,
      "step": 36280
    },
    {
      "epoch": 711.57,
      "learning_rate": 5.828270966558392e-05,
      "loss": 0.4146,
      "step": 36290
    },
    {
      "epoch": 711.76,
      "learning_rate": 5.824320544753545e-05,
      "loss": 0.4069,
      "step": 36300
    },
    {
      "epoch": 711.96,
      "learning_rate": 5.8203706122097275e-05,
      "loss": 0.408,
      "step": 36310
    },
    {
      "epoch": 712.0,
      "eval_loss": 0.41460511088371277,
      "eval_runtime": 2.3599,
      "eval_samples_per_second": 965.725,
      "eval_steps_per_second": 3.814,
      "step": 36312
    },
    {
      "epoch": 712.16,
      "learning_rate": 5.8164211700802316e-05,
      "loss": 0.409,
      "step": 36320
    },
    {
      "epoch": 712.35,
      "learning_rate": 5.812472219518209e-05,
      "loss": 0.4118,
      "step": 36330
    },
    {
      "epoch": 712.55,
      "learning_rate": 5.808523761676658e-05,
      "loss": 0.4099,
      "step": 36340
    },
    {
      "epoch": 712.75,
      "learning_rate": 5.8045757977084504e-05,
      "loss": 0.4136,
      "step": 36350
    },
    {
      "epoch": 712.94,
      "learning_rate": 5.800628328766296e-05,
      "loss": 0.4117,
      "step": 36360
    },
    {
      "epoch": 713.0,
      "eval_loss": 0.4185248911380768,
      "eval_runtime": 2.2916,
      "eval_samples_per_second": 994.5,
      "eval_steps_per_second": 3.927,
      "step": 36363
    },
    {
      "epoch": 713.14,
      "learning_rate": 5.796681356002769e-05,
      "loss": 0.4059,
      "step": 36370
    },
    {
      "epoch": 713.33,
      "learning_rate": 5.792734880570301e-05,
      "loss": 0.408,
      "step": 36380
    },
    {
      "epoch": 713.53,
      "learning_rate": 5.788788903621168e-05,
      "loss": 0.4113,
      "step": 36390
    },
    {
      "epoch": 713.73,
      "learning_rate": 5.784843426307516e-05,
      "loss": 0.4136,
      "step": 36400
    },
    {
      "epoch": 713.92,
      "learning_rate": 5.780898449781328e-05,
      "loss": 0.4089,
      "step": 36410
    },
    {
      "epoch": 714.0,
      "eval_loss": 0.4214355945587158,
      "eval_runtime": 2.3419,
      "eval_samples_per_second": 973.124,
      "eval_steps_per_second": 3.843,
      "step": 36414
    },
    {
      "epoch": 714.12,
      "learning_rate": 5.7769539751944544e-05,
      "loss": 0.4134,
      "step": 36420
    },
    {
      "epoch": 714.31,
      "learning_rate": 5.773010003698595e-05,
      "loss": 0.4166,
      "step": 36430
    },
    {
      "epoch": 714.51,
      "learning_rate": 5.769066536445294e-05,
      "loss": 0.4101,
      "step": 36440
    },
    {
      "epoch": 714.71,
      "learning_rate": 5.765123574585965e-05,
      "loss": 0.4171,
      "step": 36450
    },
    {
      "epoch": 714.9,
      "learning_rate": 5.7611811192718576e-05,
      "loss": 0.408,
      "step": 36460
    },
    {
      "epoch": 715.0,
      "eval_loss": 0.4195824861526489,
      "eval_runtime": 2.2721,
      "eval_samples_per_second": 1003.05,
      "eval_steps_per_second": 3.961,
      "step": 36465
    },
    {
      "epoch": 715.1,
      "learning_rate": 5.757239171654086e-05,
      "loss": 0.4114,
      "step": 36470
    },
    {
      "epoch": 715.29,
      "learning_rate": 5.753297732883607e-05,
      "loss": 0.4121,
      "step": 36480
    },
    {
      "epoch": 715.49,
      "learning_rate": 5.749356804111238e-05,
      "loss": 0.411,
      "step": 36490
    },
    {
      "epoch": 715.69,
      "learning_rate": 5.7454163864876376e-05,
      "loss": 0.4138,
      "step": 36500
    },
    {
      "epoch": 715.88,
      "learning_rate": 5.741476481163319e-05,
      "loss": 0.4126,
      "step": 36510
    },
    {
      "epoch": 716.0,
      "eval_loss": 0.41745418310165405,
      "eval_runtime": 2.1957,
      "eval_samples_per_second": 1037.945,
      "eval_steps_per_second": 4.099,
      "step": 36516
    },
    {
      "epoch": 716.08,
      "learning_rate": 5.737537089288652e-05,
      "loss": 0.4114,
      "step": 36520
    },
    {
      "epoch": 716.27,
      "learning_rate": 5.7335982120138456e-05,
      "loss": 0.4128,
      "step": 36530
    },
    {
      "epoch": 716.47,
      "learning_rate": 5.72965985048897e-05,
      "loss": 0.4117,
      "step": 36540
    },
    {
      "epoch": 716.67,
      "learning_rate": 5.725722005863931e-05,
      "loss": 0.4086,
      "step": 36550
    },
    {
      "epoch": 716.86,
      "learning_rate": 5.7217846792885e-05,
      "loss": 0.4106,
      "step": 36560
    },
    {
      "epoch": 717.0,
      "eval_loss": 0.4145427942276001,
      "eval_runtime": 2.3265,
      "eval_samples_per_second": 979.583,
      "eval_steps_per_second": 3.868,
      "step": 36567
    },
    {
      "epoch": 717.06,
      "learning_rate": 5.717847871912284e-05,
      "loss": 0.4051,
      "step": 36570
    },
    {
      "epoch": 717.25,
      "learning_rate": 5.7139115848847425e-05,
      "loss": 0.409,
      "step": 36580
    },
    {
      "epoch": 717.45,
      "learning_rate": 5.709975819355187e-05,
      "loss": 0.4174,
      "step": 36590
    },
    {
      "epoch": 717.65,
      "learning_rate": 5.706040576472766e-05,
      "loss": 0.4098,
      "step": 36600
    },
    {
      "epoch": 717.84,
      "learning_rate": 5.7021058573864924e-05,
      "loss": 0.4112,
      "step": 36610
    },
    {
      "epoch": 718.0,
      "eval_loss": 0.41604405641555786,
      "eval_runtime": 2.2861,
      "eval_samples_per_second": 996.902,
      "eval_steps_per_second": 3.937,
      "step": 36618
    },
    {
      "epoch": 718.04,
      "learning_rate": 5.6981716632452086e-05,
      "loss": 0.4096,
      "step": 36620
    },
    {
      "epoch": 718.24,
      "learning_rate": 5.694237995197615e-05,
      "loss": 0.4088,
      "step": 36630
    },
    {
      "epoch": 718.43,
      "learning_rate": 5.690304854392257e-05,
      "loss": 0.41,
      "step": 36640
    },
    {
      "epoch": 718.63,
      "learning_rate": 5.6863722419775166e-05,
      "loss": 0.4145,
      "step": 36650
    },
    {
      "epoch": 718.82,
      "learning_rate": 5.6824401591016385e-05,
      "loss": 0.4064,
      "step": 36660
    },
    {
      "epoch": 719.0,
      "eval_loss": 0.41746461391448975,
      "eval_runtime": 2.2192,
      "eval_samples_per_second": 1026.951,
      "eval_steps_per_second": 4.056,
      "step": 36669
    },
    {
      "epoch": 719.02,
      "learning_rate": 5.678508606912694e-05,
      "loss": 0.409,
      "step": 36670
    },
    {
      "epoch": 719.22,
      "learning_rate": 5.674577586558616e-05,
      "loss": 0.4115,
      "step": 36680
    },
    {
      "epoch": 719.41,
      "learning_rate": 5.6706470991871706e-05,
      "loss": 0.4076,
      "step": 36690
    },
    {
      "epoch": 719.61,
      "learning_rate": 5.666717145945976e-05,
      "loss": 0.4139,
      "step": 36700
    },
    {
      "epoch": 719.8,
      "learning_rate": 5.662787727982487e-05,
      "loss": 0.4089,
      "step": 36710
    },
    {
      "epoch": 720.0,
      "learning_rate": 5.658858846444006e-05,
      "loss": 0.41,
      "step": 36720
    },
    {
      "epoch": 720.0,
      "eval_loss": 0.4181264638900757,
      "eval_runtime": 2.2542,
      "eval_samples_per_second": 1011.006,
      "eval_steps_per_second": 3.993,
      "step": 36720
    },
    {
      "epoch": 720.2,
      "learning_rate": 5.654930502477682e-05,
      "loss": 0.4102,
      "step": 36730
    },
    {
      "epoch": 720.39,
      "learning_rate": 5.651002697230501e-05,
      "loss": 0.4134,
      "step": 36740
    },
    {
      "epoch": 720.59,
      "learning_rate": 5.647075431849299e-05,
      "loss": 0.4091,
      "step": 36750
    },
    {
      "epoch": 720.78,
      "learning_rate": 5.643148707480745e-05,
      "loss": 0.4132,
      "step": 36760
    },
    {
      "epoch": 720.98,
      "learning_rate": 5.639222525271355e-05,
      "loss": 0.4046,
      "step": 36770
    },
    {
      "epoch": 721.0,
      "eval_loss": 0.4158802032470703,
      "eval_runtime": 2.327,
      "eval_samples_per_second": 979.383,
      "eval_steps_per_second": 3.868,
      "step": 36771
    },
    {
      "epoch": 721.18,
      "learning_rate": 5.63529688636749e-05,
      "loss": 0.4074,
      "step": 36780
    },
    {
      "epoch": 721.37,
      "learning_rate": 5.631371791915345e-05,
      "loss": 0.4129,
      "step": 36790
    },
    {
      "epoch": 721.57,
      "learning_rate": 5.627447243060967e-05,
      "loss": 0.4086,
      "step": 36800
    },
    {
      "epoch": 721.76,
      "learning_rate": 5.623523240950225e-05,
      "loss": 0.4106,
      "step": 36810
    },
    {
      "epoch": 721.96,
      "learning_rate": 5.6195997867288534e-05,
      "loss": 0.4141,
      "step": 36820
    },
    {
      "epoch": 722.0,
      "eval_loss": 0.41193127632141113,
      "eval_runtime": 2.2521,
      "eval_samples_per_second": 1011.933,
      "eval_steps_per_second": 3.996,
      "step": 36822
    },
    {
      "epoch": 722.16,
      "learning_rate": 5.615676881542405e-05,
      "loss": 0.4093,
      "step": 36830
    },
    {
      "epoch": 722.35,
      "learning_rate": 5.611754526536282e-05,
      "loss": 0.4119,
      "step": 36840
    },
    {
      "epoch": 722.55,
      "learning_rate": 5.6078327228557274e-05,
      "loss": 0.4092,
      "step": 36850
    },
    {
      "epoch": 722.75,
      "learning_rate": 5.6039114716458145e-05,
      "loss": 0.4097,
      "step": 36860
    },
    {
      "epoch": 722.94,
      "learning_rate": 5.599990774051469e-05,
      "loss": 0.414,
      "step": 36870
    },
    {
      "epoch": 723.0,
      "eval_loss": 0.4167172610759735,
      "eval_runtime": 2.2632,
      "eval_samples_per_second": 1006.978,
      "eval_steps_per_second": 3.977,
      "step": 36873
    },
    {
      "epoch": 723.14,
      "learning_rate": 5.596070631217441e-05,
      "loss": 0.409,
      "step": 36880
    },
    {
      "epoch": 723.33,
      "learning_rate": 5.592151044288327e-05,
      "loss": 0.4143,
      "step": 36890
    },
    {
      "epoch": 723.53,
      "learning_rate": 5.588232014408561e-05,
      "loss": 0.4101,
      "step": 36900
    },
    {
      "epoch": 723.73,
      "learning_rate": 5.5843135427224076e-05,
      "loss": 0.4125,
      "step": 36910
    },
    {
      "epoch": 723.92,
      "learning_rate": 5.580395630373977e-05,
      "loss": 0.4118,
      "step": 36920
    },
    {
      "epoch": 724.0,
      "eval_loss": 0.4165693521499634,
      "eval_runtime": 2.1966,
      "eval_samples_per_second": 1037.5,
      "eval_steps_per_second": 4.097,
      "step": 36924
    },
    {
      "epoch": 724.12,
      "learning_rate": 5.57647827850721e-05,
      "loss": 0.4082,
      "step": 36930
    },
    {
      "epoch": 724.31,
      "learning_rate": 5.5725614882658874e-05,
      "loss": 0.4093,
      "step": 36940
    },
    {
      "epoch": 724.51,
      "learning_rate": 5.5686452607936226e-05,
      "loss": 0.4138,
      "step": 36950
    },
    {
      "epoch": 724.71,
      "learning_rate": 5.564729597233873e-05,
      "loss": 0.4079,
      "step": 36960
    },
    {
      "epoch": 724.9,
      "learning_rate": 5.560814498729918e-05,
      "loss": 0.4106,
      "step": 36970
    },
    {
      "epoch": 725.0,
      "eval_loss": 0.41572317481040955,
      "eval_runtime": 2.3431,
      "eval_samples_per_second": 972.633,
      "eval_steps_per_second": 3.841,
      "step": 36975
    },
    {
      "epoch": 725.1,
      "learning_rate": 5.556899966424879e-05,
      "loss": 0.4097,
      "step": 36980
    },
    {
      "epoch": 725.29,
      "learning_rate": 5.552986001461716e-05,
      "loss": 0.4088,
      "step": 36990
    },
    {
      "epoch": 725.49,
      "learning_rate": 5.549072604983218e-05,
      "loss": 0.4092,
      "step": 37000
    },
    {
      "epoch": 725.69,
      "learning_rate": 5.545159778132011e-05,
      "loss": 0.4109,
      "step": 37010
    },
    {
      "epoch": 725.88,
      "learning_rate": 5.5412475220505475e-05,
      "loss": 0.4079,
      "step": 37020
    },
    {
      "epoch": 726.0,
      "eval_loss": 0.4175969958305359,
      "eval_runtime": 2.3512,
      "eval_samples_per_second": 969.275,
      "eval_steps_per_second": 3.828,
      "step": 37026
    },
    {
      "epoch": 726.08,
      "learning_rate": 5.537335837881127e-05,
      "loss": 0.4021,
      "step": 37030
    },
    {
      "epoch": 726.27,
      "learning_rate": 5.53342472676587e-05,
      "loss": 0.4103,
      "step": 37040
    },
    {
      "epoch": 726.47,
      "learning_rate": 5.529514189846732e-05,
      "loss": 0.4125,
      "step": 37050
    },
    {
      "epoch": 726.67,
      "learning_rate": 5.525604228265507e-05,
      "loss": 0.4095,
      "step": 37060
    },
    {
      "epoch": 726.86,
      "learning_rate": 5.521694843163809e-05,
      "loss": 0.4114,
      "step": 37070
    },
    {
      "epoch": 727.0,
      "eval_loss": 0.4107976257801056,
      "eval_runtime": 2.2678,
      "eval_samples_per_second": 1004.941,
      "eval_steps_per_second": 3.969,
      "step": 37077
    },
    {
      "epoch": 727.06,
      "learning_rate": 5.517786035683102e-05,
      "loss": 0.4111,
      "step": 37080
    },
    {
      "epoch": 727.25,
      "learning_rate": 5.5138778069646614e-05,
      "loss": 0.4112,
      "step": 37090
    },
    {
      "epoch": 727.45,
      "learning_rate": 5.509970158149608e-05,
      "loss": 0.4078,
      "step": 37100
    },
    {
      "epoch": 727.65,
      "learning_rate": 5.5060630903788886e-05,
      "loss": 0.4088,
      "step": 37110
    },
    {
      "epoch": 727.84,
      "learning_rate": 5.5021566047932736e-05,
      "loss": 0.4117,
      "step": 37120
    },
    {
      "epoch": 728.0,
      "eval_loss": 0.41353392601013184,
      "eval_runtime": 2.2102,
      "eval_samples_per_second": 1031.137,
      "eval_steps_per_second": 4.072,
      "step": 37128
    },
    {
      "epoch": 728.04,
      "learning_rate": 5.4982507025333756e-05,
      "loss": 0.4077,
      "step": 37130
    },
    {
      "epoch": 728.24,
      "learning_rate": 5.4943453847396275e-05,
      "loss": 0.4131,
      "step": 37140
    },
    {
      "epoch": 728.43,
      "learning_rate": 5.490440652552298e-05,
      "loss": 0.4127,
      "step": 37150
    },
    {
      "epoch": 728.63,
      "learning_rate": 5.48653650711148e-05,
      "loss": 0.4126,
      "step": 37160
    },
    {
      "epoch": 728.82,
      "learning_rate": 5.4826329495571e-05,
      "loss": 0.4155,
      "step": 37170
    },
    {
      "epoch": 729.0,
      "eval_loss": 0.4170650243759155,
      "eval_runtime": 2.2637,
      "eval_samples_per_second": 1006.775,
      "eval_steps_per_second": 3.976,
      "step": 37179
    },
    {
      "epoch": 729.02,
      "learning_rate": 5.478729981028905e-05,
      "loss": 0.4111,
      "step": 37180
    },
    {
      "epoch": 729.22,
      "learning_rate": 5.474827602666475e-05,
      "loss": 0.4102,
      "step": 37190
    },
    {
      "epoch": 729.41,
      "learning_rate": 5.4709258156092214e-05,
      "loss": 0.4115,
      "step": 37200
    },
    {
      "epoch": 729.61,
      "learning_rate": 5.467024620996375e-05,
      "loss": 0.4083,
      "step": 37210
    },
    {
      "epoch": 729.8,
      "learning_rate": 5.4631240199670036e-05,
      "loss": 0.4099,
      "step": 37220
    },
    {
      "epoch": 730.0,
      "learning_rate": 5.4592240136599856e-05,
      "loss": 0.4117,
      "step": 37230
    },
    {
      "epoch": 730.0,
      "eval_loss": 0.4147026836872101,
      "eval_runtime": 2.228,
      "eval_samples_per_second": 1022.869,
      "eval_steps_per_second": 4.039,
      "step": 37230
    },
    {
      "epoch": 730.2,
      "learning_rate": 5.455324603214047e-05,
      "loss": 0.4102,
      "step": 37240
    },
    {
      "epoch": 730.39,
      "learning_rate": 5.4514257897677227e-05,
      "loss": 0.4123,
      "step": 37250
    },
    {
      "epoch": 730.59,
      "learning_rate": 5.447527574459378e-05,
      "loss": 0.4088,
      "step": 37260
    },
    {
      "epoch": 730.78,
      "learning_rate": 5.44362995842721e-05,
      "loss": 0.4096,
      "step": 37270
    },
    {
      "epoch": 730.98,
      "learning_rate": 5.439732942809228e-05,
      "loss": 0.4092,
      "step": 37280
    },
    {
      "epoch": 731.0,
      "eval_loss": 0.4093756079673767,
      "eval_runtime": 2.3646,
      "eval_samples_per_second": 963.815,
      "eval_steps_per_second": 3.806,
      "step": 37281
    },
    {
      "epoch": 731.18,
      "learning_rate": 5.435836528743283e-05,
      "loss": 0.4079,
      "step": 37290
    },
    {
      "epoch": 731.37,
      "learning_rate": 5.431940717367033e-05,
      "loss": 0.4105,
      "step": 37300
    },
    {
      "epoch": 731.57,
      "learning_rate": 5.428045509817974e-05,
      "loss": 0.4073,
      "step": 37310
    },
    {
      "epoch": 731.76,
      "learning_rate": 5.424150907233418e-05,
      "loss": 0.403,
      "step": 37320
    },
    {
      "epoch": 731.96,
      "learning_rate": 5.420256910750497e-05,
      "loss": 0.4091,
      "step": 37330
    },
    {
      "epoch": 732.0,
      "eval_loss": 0.41333431005477905,
      "eval_runtime": 2.2202,
      "eval_samples_per_second": 1026.491,
      "eval_steps_per_second": 4.054,
      "step": 37332
    },
    {
      "epoch": 732.16,
      "learning_rate": 5.416363521506178e-05,
      "loss": 0.4111,
      "step": 37340
    },
    {
      "epoch": 732.35,
      "learning_rate": 5.4124707406372384e-05,
      "loss": 0.4095,
      "step": 37350
    },
    {
      "epoch": 732.55,
      "learning_rate": 5.408578569280289e-05,
      "loss": 0.4087,
      "step": 37360
    },
    {
      "epoch": 732.75,
      "learning_rate": 5.404687008571752e-05,
      "loss": 0.4072,
      "step": 37370
    },
    {
      "epoch": 732.94,
      "learning_rate": 5.400796059647882e-05,
      "loss": 0.4081,
      "step": 37380
    },
    {
      "epoch": 733.0,
      "eval_loss": 0.4142116606235504,
      "eval_runtime": 2.3382,
      "eval_samples_per_second": 974.674,
      "eval_steps_per_second": 3.849,
      "step": 37383
    },
    {
      "epoch": 733.14,
      "learning_rate": 5.396905723644744e-05,
      "loss": 0.4078,
      "step": 37390
    },
    {
      "epoch": 733.33,
      "learning_rate": 5.39301600169823e-05,
      "loss": 0.4053,
      "step": 37400
    },
    {
      "epoch": 733.53,
      "learning_rate": 5.389126894944054e-05,
      "loss": 0.4094,
      "step": 37410
    },
    {
      "epoch": 733.73,
      "learning_rate": 5.385238404517747e-05,
      "loss": 0.4079,
      "step": 37420
    },
    {
      "epoch": 733.92,
      "learning_rate": 5.381350531554664e-05,
      "loss": 0.4084,
      "step": 37430
    },
    {
      "epoch": 734.0,
      "eval_loss": 0.4169609546661377,
      "eval_runtime": 2.3612,
      "eval_samples_per_second": 965.176,
      "eval_steps_per_second": 3.812,
      "step": 37434
    },
    {
      "epoch": 734.12,
      "learning_rate": 5.377463277189971e-05,
      "loss": 0.4031,
      "step": 37440
    },
    {
      "epoch": 734.31,
      "learning_rate": 5.3735766425586685e-05,
      "loss": 0.4042,
      "step": 37450
    },
    {
      "epoch": 734.51,
      "learning_rate": 5.3696906287955614e-05,
      "loss": 0.408,
      "step": 37460
    },
    {
      "epoch": 734.71,
      "learning_rate": 5.365805237035279e-05,
      "loss": 0.4106,
      "step": 37470
    },
    {
      "epoch": 734.9,
      "learning_rate": 5.361920468412273e-05,
      "loss": 0.4082,
      "step": 37480
    },
    {
      "epoch": 735.0,
      "eval_loss": 0.41578948497772217,
      "eval_runtime": 2.3433,
      "eval_samples_per_second": 972.578,
      "eval_steps_per_second": 3.841,
      "step": 37485
    },
    {
      "epoch": 735.1,
      "learning_rate": 5.3580363240608015e-05,
      "loss": 0.4131,
      "step": 37490
    },
    {
      "epoch": 735.29,
      "learning_rate": 5.3541528051149574e-05,
      "loss": 0.4123,
      "step": 37500
    },
    {
      "epoch": 735.49,
      "learning_rate": 5.350269912708636e-05,
      "loss": 0.4099,
      "step": 37510
    },
    {
      "epoch": 735.69,
      "learning_rate": 5.346387647975555e-05,
      "loss": 0.4101,
      "step": 37520
    },
    {
      "epoch": 735.88,
      "learning_rate": 5.342506012049253e-05,
      "loss": 0.4097,
      "step": 37530
    },
    {
      "epoch": 736.0,
      "eval_loss": 0.41176244616508484,
      "eval_runtime": 2.2484,
      "eval_samples_per_second": 1013.627,
      "eval_steps_per_second": 4.003,
      "step": 37536
    },
    {
      "epoch": 736.08,
      "learning_rate": 5.3386250060630765e-05,
      "loss": 0.4079,
      "step": 37540
    },
    {
      "epoch": 736.27,
      "learning_rate": 5.334744631150196e-05,
      "loss": 0.4045,
      "step": 37550
    },
    {
      "epoch": 736.47,
      "learning_rate": 5.3308648884435914e-05,
      "loss": 0.4082,
      "step": 37560
    },
    {
      "epoch": 736.67,
      "learning_rate": 5.326985779076066e-05,
      "loss": 0.4075,
      "step": 37570
    },
    {
      "epoch": 736.86,
      "learning_rate": 5.32310730418023e-05,
      "loss": 0.4082,
      "step": 37580
    },
    {
      "epoch": 737.0,
      "eval_loss": 0.4105346202850342,
      "eval_runtime": 2.3444,
      "eval_samples_per_second": 972.103,
      "eval_steps_per_second": 3.839,
      "step": 37587
    },
    {
      "epoch": 737.06,
      "learning_rate": 5.3192294648885086e-05,
      "loss": 0.4049,
      "step": 37590
    },
    {
      "epoch": 737.25,
      "learning_rate": 5.3153522623331504e-05,
      "loss": 0.4119,
      "step": 37600
    },
    {
      "epoch": 737.45,
      "learning_rate": 5.311475697646207e-05,
      "loss": 0.4071,
      "step": 37610
    },
    {
      "epoch": 737.65,
      "learning_rate": 5.307599771959553e-05,
      "loss": 0.404,
      "step": 37620
    },
    {
      "epoch": 737.84,
      "learning_rate": 5.303724486404868e-05,
      "loss": 0.4043,
      "step": 37630
    },
    {
      "epoch": 738.0,
      "eval_loss": 0.4161665141582489,
      "eval_runtime": 2.3799,
      "eval_samples_per_second": 957.598,
      "eval_steps_per_second": 3.782,
      "step": 37638
    },
    {
      "epoch": 738.04,
      "learning_rate": 5.2998498421136554e-05,
      "loss": 0.4074,
      "step": 37640
    },
    {
      "epoch": 738.24,
      "learning_rate": 5.2959758402172184e-05,
      "loss": 0.4047,
      "step": 37650
    },
    {
      "epoch": 738.43,
      "learning_rate": 5.29210248184668e-05,
      "loss": 0.4049,
      "step": 37660
    },
    {
      "epoch": 738.63,
      "learning_rate": 5.288229768132978e-05,
      "loss": 0.4089,
      "step": 37670
    },
    {
      "epoch": 738.82,
      "learning_rate": 5.284357700206855e-05,
      "loss": 0.4011,
      "step": 37680
    },
    {
      "epoch": 739.0,
      "eval_loss": 0.4121991693973541,
      "eval_runtime": 2.3743,
      "eval_samples_per_second": 959.861,
      "eval_steps_per_second": 3.791,
      "step": 37689
    },
    {
      "epoch": 739.02,
      "learning_rate": 5.2804862791988724e-05,
      "loss": 0.4083,
      "step": 37690
    },
    {
      "epoch": 739.22,
      "learning_rate": 5.276615506239393e-05,
      "loss": 0.4038,
      "step": 37700
    },
    {
      "epoch": 739.41,
      "learning_rate": 5.272745382458602e-05,
      "loss": 0.4015,
      "step": 37710
    },
    {
      "epoch": 739.61,
      "learning_rate": 5.2688759089864874e-05,
      "loss": 0.4029,
      "step": 37720
    },
    {
      "epoch": 739.8,
      "learning_rate": 5.265007086952845e-05,
      "loss": 0.4126,
      "step": 37730
    },
    {
      "epoch": 740.0,
      "learning_rate": 5.2611389174872926e-05,
      "loss": 0.4082,
      "step": 37740
    },
    {
      "epoch": 740.0,
      "eval_loss": 0.4157661199569702,
      "eval_runtime": 2.2442,
      "eval_samples_per_second": 1015.507,
      "eval_steps_per_second": 4.01,
      "step": 37740
    },
    {
      "epoch": 740.2,
      "learning_rate": 5.25727140171924e-05,
      "loss": 0.4108,
      "step": 37750
    },
    {
      "epoch": 740.39,
      "learning_rate": 5.253404540777924e-05,
      "loss": 0.4039,
      "step": 37760
    },
    {
      "epoch": 740.59,
      "learning_rate": 5.249538335792376e-05,
      "loss": 0.4067,
      "step": 37770
    },
    {
      "epoch": 740.78,
      "learning_rate": 5.245672787891444e-05,
      "loss": 0.4043,
      "step": 37780
    },
    {
      "epoch": 740.98,
      "learning_rate": 5.241807898203785e-05,
      "loss": 0.4098,
      "step": 37790
    },
    {
      "epoch": 741.0,
      "eval_loss": 0.41529256105422974,
      "eval_runtime": 2.2331,
      "eval_samples_per_second": 1020.576,
      "eval_steps_per_second": 4.03,
      "step": 37791
    },
    {
      "epoch": 741.18,
      "learning_rate": 5.237943667857853e-05,
      "loss": 0.4056,
      "step": 37800
    },
    {
      "epoch": 741.37,
      "learning_rate": 5.234080097981923e-05,
      "loss": 0.407,
      "step": 37810
    },
    {
      "epoch": 741.57,
      "learning_rate": 5.230217189704068e-05,
      "loss": 0.4052,
      "step": 37820
    },
    {
      "epoch": 741.76,
      "learning_rate": 5.226354944152174e-05,
      "loss": 0.4068,
      "step": 37830
    },
    {
      "epoch": 741.96,
      "learning_rate": 5.222493362453928e-05,
      "loss": 0.4082,
      "step": 37840
    },
    {
      "epoch": 742.0,
      "eval_loss": 0.4107462167739868,
      "eval_runtime": 2.3772,
      "eval_samples_per_second": 958.707,
      "eval_steps_per_second": 3.786,
      "step": 37842
    },
    {
      "epoch": 742.16,
      "learning_rate": 5.218632445736829e-05,
      "loss": 0.4024,
      "step": 37850
    },
    {
      "epoch": 742.35,
      "learning_rate": 5.214772195128175e-05,
      "loss": 0.4072,
      "step": 37860
    },
    {
      "epoch": 742.55,
      "learning_rate": 5.2109126117550734e-05,
      "loss": 0.4071,
      "step": 37870
    },
    {
      "epoch": 742.75,
      "learning_rate": 5.207053696744439e-05,
      "loss": 0.4052,
      "step": 37880
    },
    {
      "epoch": 742.94,
      "learning_rate": 5.203195451222986e-05,
      "loss": 0.4073,
      "step": 37890
    },
    {
      "epoch": 743.0,
      "eval_loss": 0.4117482900619507,
      "eval_runtime": 2.3515,
      "eval_samples_per_second": 969.164,
      "eval_steps_per_second": 3.827,
      "step": 37893
    },
    {
      "epoch": 743.14,
      "learning_rate": 5.1993378763172405e-05,
      "loss": 0.4065,
      "step": 37900
    },
    {
      "epoch": 743.33,
      "learning_rate": 5.1954809731535205e-05,
      "loss": 0.4052,
      "step": 37910
    },
    {
      "epoch": 743.53,
      "learning_rate": 5.1916247428579655e-05,
      "loss": 0.4077,
      "step": 37920
    },
    {
      "epoch": 743.73,
      "learning_rate": 5.187769186556503e-05,
      "loss": 0.4065,
      "step": 37930
    },
    {
      "epoch": 743.92,
      "learning_rate": 5.183914305374867e-05,
      "loss": 0.403,
      "step": 37940
    },
    {
      "epoch": 744.0,
      "eval_loss": 0.4163016974925995,
      "eval_runtime": 2.3484,
      "eval_samples_per_second": 970.467,
      "eval_steps_per_second": 3.832,
      "step": 37944
    },
    {
      "epoch": 744.12,
      "learning_rate": 5.180060100438604e-05,
      "loss": 0.4029,
      "step": 37950
    },
    {
      "epoch": 744.31,
      "learning_rate": 5.176206572873049e-05,
      "loss": 0.4093,
      "step": 37960
    },
    {
      "epoch": 744.51,
      "learning_rate": 5.172353723803352e-05,
      "loss": 0.4116,
      "step": 37970
    },
    {
      "epoch": 744.71,
      "learning_rate": 5.1685015543544524e-05,
      "loss": 0.4061,
      "step": 37980
    },
    {
      "epoch": 744.9,
      "learning_rate": 5.164650065651104e-05,
      "loss": 0.4024,
      "step": 37990
    },
    {
      "epoch": 745.0,
      "eval_loss": 0.4079929292201996,
      "eval_runtime": 2.2235,
      "eval_samples_per_second": 1024.945,
      "eval_steps_per_second": 4.048,
      "step": 37995
    },
    {
      "epoch": 745.1,
      "learning_rate": 5.160799258817854e-05,
      "loss": 0.4086,
      "step": 38000
    },
    {
      "epoch": 745.29,
      "learning_rate": 5.156949134979049e-05,
      "loss": 0.4048,
      "step": 38010
    },
    {
      "epoch": 745.49,
      "learning_rate": 5.153099695258843e-05,
      "loss": 0.4021,
      "step": 38020
    },
    {
      "epoch": 745.69,
      "learning_rate": 5.149250940781183e-05,
      "loss": 0.4061,
      "step": 38030
    },
    {
      "epoch": 745.88,
      "learning_rate": 5.145402872669824e-05,
      "loss": 0.4098,
      "step": 38040
    },
    {
      "epoch": 746.0,
      "eval_loss": 0.4082351624965668,
      "eval_runtime": 2.2082,
      "eval_samples_per_second": 1032.048,
      "eval_steps_per_second": 4.076,
      "step": 38046
    },
    {
      "epoch": 746.08,
      "learning_rate": 5.141555492048311e-05,
      "loss": 0.4062,
      "step": 38050
    },
    {
      "epoch": 746.27,
      "learning_rate": 5.137708800039999e-05,
      "loss": 0.4041,
      "step": 38060
    },
    {
      "epoch": 746.47,
      "learning_rate": 5.1338627977680316e-05,
      "loss": 0.408,
      "step": 38070
    },
    {
      "epoch": 746.67,
      "learning_rate": 5.130017486355356e-05,
      "loss": 0.4061,
      "step": 38080
    },
    {
      "epoch": 746.86,
      "learning_rate": 5.1261728669247204e-05,
      "loss": 0.4072,
      "step": 38090
    },
    {
      "epoch": 747.0,
      "eval_loss": 0.4111115038394928,
      "eval_runtime": 2.3737,
      "eval_samples_per_second": 960.092,
      "eval_steps_per_second": 3.792,
      "step": 38097
    },
    {
      "epoch": 747.06,
      "learning_rate": 5.1223289405986644e-05,
      "loss": 0.4063,
      "step": 38100
    },
    {
      "epoch": 747.25,
      "learning_rate": 5.118485708499533e-05,
      "loss": 0.4049,
      "step": 38110
    },
    {
      "epoch": 747.45,
      "learning_rate": 5.114643171749458e-05,
      "loss": 0.4083,
      "step": 38120
    },
    {
      "epoch": 747.65,
      "learning_rate": 5.1108013314703824e-05,
      "loss": 0.4074,
      "step": 38130
    },
    {
      "epoch": 747.84,
      "learning_rate": 5.106960188784033e-05,
      "loss": 0.4065,
      "step": 38140
    },
    {
      "epoch": 748.0,
      "eval_loss": 0.4118553102016449,
      "eval_runtime": 2.1762,
      "eval_samples_per_second": 1047.261,
      "eval_steps_per_second": 4.136,
      "step": 38148
    },
    {
      "epoch": 748.04,
      "learning_rate": 5.103119744811936e-05,
      "loss": 0.4044,
      "step": 38150
    },
    {
      "epoch": 748.24,
      "learning_rate": 5.099280000675421e-05,
      "loss": 0.4071,
      "step": 38160
    },
    {
      "epoch": 748.43,
      "learning_rate": 5.095440957495602e-05,
      "loss": 0.4055,
      "step": 38170
    },
    {
      "epoch": 748.63,
      "learning_rate": 5.0916026163933973e-05,
      "loss": 0.4047,
      "step": 38180
    },
    {
      "epoch": 748.82,
      "learning_rate": 5.0877649784895176e-05,
      "loss": 0.404,
      "step": 38190
    },
    {
      "epoch": 749.0,
      "eval_loss": 0.40867891907691956,
      "eval_runtime": 2.2236,
      "eval_samples_per_second": 1024.932,
      "eval_steps_per_second": 4.048,
      "step": 38199
    },
    {
      "epoch": 749.02,
      "learning_rate": 5.083928044904464e-05,
      "loss": 0.4102,
      "step": 38200
    },
    {
      "epoch": 749.22,
      "learning_rate": 5.08009181675854e-05,
      "loss": 0.4052,
      "step": 38210
    },
    {
      "epoch": 749.41,
      "learning_rate": 5.0762562951718336e-05,
      "loss": 0.4052,
      "step": 38220
    },
    {
      "epoch": 749.61,
      "learning_rate": 5.0724214812642355e-05,
      "loss": 0.4073,
      "step": 38230
    },
    {
      "epoch": 749.8,
      "learning_rate": 5.068587376155423e-05,
      "loss": 0.4002,
      "step": 38240
    },
    {
      "epoch": 750.0,
      "learning_rate": 5.064753980964874e-05,
      "loss": 0.4024,
      "step": 38250
    },
    {
      "epoch": 750.0,
      "eval_loss": 0.40933549404144287,
      "eval_runtime": 2.3322,
      "eval_samples_per_second": 977.173,
      "eval_steps_per_second": 3.859,
      "step": 38250
    },
    {
      "epoch": 750.2,
      "learning_rate": 5.060921296811852e-05,
      "loss": 0.4045,
      "step": 38260
    },
    {
      "epoch": 750.39,
      "learning_rate": 5.0570893248154106e-05,
      "loss": 0.4013,
      "step": 38270
    },
    {
      "epoch": 750.59,
      "learning_rate": 5.053258066094407e-05,
      "loss": 0.4054,
      "step": 38280
    },
    {
      "epoch": 750.78,
      "learning_rate": 5.0494275217674776e-05,
      "loss": 0.4054,
      "step": 38290
    },
    {
      "epoch": 750.98,
      "learning_rate": 5.045597692953061e-05,
      "loss": 0.4054,
      "step": 38300
    },
    {
      "epoch": 751.0,
      "eval_loss": 0.41108617186546326,
      "eval_runtime": 2.3915,
      "eval_samples_per_second": 952.947,
      "eval_steps_per_second": 3.763,
      "step": 38301
    },
    {
      "epoch": 751.18,
      "learning_rate": 5.0417685807693785e-05,
      "loss": 0.4077,
      "step": 38310
    },
    {
      "epoch": 751.37,
      "learning_rate": 5.037940186334449e-05,
      "loss": 0.4014,
      "step": 38320
    },
    {
      "epoch": 751.57,
      "learning_rate": 5.034112510766074e-05,
      "loss": 0.4087,
      "step": 38330
    },
    {
      "epoch": 751.76,
      "learning_rate": 5.0302855551818505e-05,
      "loss": 0.4092,
      "step": 38340
    },
    {
      "epoch": 751.96,
      "learning_rate": 5.026459320699166e-05,
      "loss": 0.403,
      "step": 38350
    },
    {
      "epoch": 752.0,
      "eval_loss": 0.40934062004089355,
      "eval_runtime": 2.194,
      "eval_samples_per_second": 1038.731,
      "eval_steps_per_second": 4.102,
      "step": 38352
    },
    {
      "epoch": 752.16,
      "learning_rate": 5.022633808435193e-05,
      "loss": 0.403,
      "step": 38360
    },
    {
      "epoch": 752.35,
      "learning_rate": 5.0188090195069e-05,
      "loss": 0.4061,
      "step": 38370
    },
    {
      "epoch": 752.55,
      "learning_rate": 5.0149849550310346e-05,
      "loss": 0.4043,
      "step": 38380
    },
    {
      "epoch": 752.75,
      "learning_rate": 5.0111616161241436e-05,
      "loss": 0.4077,
      "step": 38390
    },
    {
      "epoch": 752.94,
      "learning_rate": 5.007339003902553e-05,
      "loss": 0.4042,
      "step": 38400
    },
    {
      "epoch": 753.0,
      "eval_loss": 0.4117041826248169,
      "eval_runtime": 2.3245,
      "eval_samples_per_second": 980.409,
      "eval_steps_per_second": 3.872,
      "step": 38403
    },
    {
      "epoch": 753.14,
      "learning_rate": 5.0035171194823804e-05,
      "loss": 0.4031,
      "step": 38410
    },
    {
      "epoch": 753.33,
      "learning_rate": 4.9996959639795356e-05,
      "loss": 0.4069,
      "step": 38420
    },
    {
      "epoch": 753.53,
      "learning_rate": 4.9958755385097035e-05,
      "loss": 0.4078,
      "step": 38430
    },
    {
      "epoch": 753.73,
      "learning_rate": 4.992055844188368e-05,
      "loss": 0.4035,
      "step": 38440
    },
    {
      "epoch": 753.92,
      "learning_rate": 4.988236882130792e-05,
      "loss": 0.4025,
      "step": 38450
    },
    {
      "epoch": 754.0,
      "eval_loss": 0.40878942608833313,
      "eval_runtime": 2.2485,
      "eval_samples_per_second": 1013.564,
      "eval_steps_per_second": 4.003,
      "step": 38454
    },
    {
      "epoch": 754.12,
      "learning_rate": 4.9844186534520305e-05,
      "loss": 0.4056,
      "step": 38460
    },
    {
      "epoch": 754.31,
      "learning_rate": 4.9806011592669205e-05,
      "loss": 0.4034,
      "step": 38470
    },
    {
      "epoch": 754.51,
      "learning_rate": 4.9767844006900806e-05,
      "loss": 0.4106,
      "step": 38480
    },
    {
      "epoch": 754.71,
      "learning_rate": 4.9729683788359245e-05,
      "loss": 0.4055,
      "step": 38490
    },
    {
      "epoch": 754.9,
      "learning_rate": 4.969153094818643e-05,
      "loss": 0.4025,
      "step": 38500
    },
    {
      "epoch": 755.0,
      "eval_loss": 0.41021928191185,
      "eval_runtime": 2.3051,
      "eval_samples_per_second": 988.664,
      "eval_steps_per_second": 3.904,
      "step": 38505
    },
    {
      "epoch": 755.1,
      "learning_rate": 4.965338549752215e-05,
      "loss": 0.4049,
      "step": 38510
    },
    {
      "epoch": 755.29,
      "learning_rate": 4.9615247447504e-05,
      "loss": 0.4027,
      "step": 38520
    },
    {
      "epoch": 755.49,
      "learning_rate": 4.9577116809267496e-05,
      "loss": 0.4066,
      "step": 38530
    },
    {
      "epoch": 755.69,
      "learning_rate": 4.9538993593945874e-05,
      "loss": 0.4049,
      "step": 38540
    },
    {
      "epoch": 755.88,
      "learning_rate": 4.9500877812670294e-05,
      "loss": 0.4056,
      "step": 38550
    },
    {
      "epoch": 756.0,
      "eval_loss": 0.41347235441207886,
      "eval_runtime": 2.3625,
      "eval_samples_per_second": 964.654,
      "eval_steps_per_second": 3.81,
      "step": 38556
    },
    {
      "epoch": 756.08,
      "learning_rate": 4.94627694765697e-05,
      "loss": 0.4062,
      "step": 38560
    },
    {
      "epoch": 756.27,
      "learning_rate": 4.942466859677087e-05,
      "loss": 0.4062,
      "step": 38570
    },
    {
      "epoch": 756.47,
      "learning_rate": 4.938657518439847e-05,
      "loss": 0.4028,
      "step": 38580
    },
    {
      "epoch": 756.67,
      "learning_rate": 4.934848925057484e-05,
      "loss": 0.4066,
      "step": 38590
    },
    {
      "epoch": 756.86,
      "learning_rate": 4.931041080642028e-05,
      "loss": 0.4025,
      "step": 38600
    },
    {
      "epoch": 757.0,
      "eval_loss": 0.4124828279018402,
      "eval_runtime": 2.3537,
      "eval_samples_per_second": 968.283,
      "eval_steps_per_second": 3.824,
      "step": 38607
    },
    {
      "epoch": 757.06,
      "learning_rate": 4.927233986305284e-05,
      "loss": 0.4103,
      "step": 38610
    },
    {
      "epoch": 757.25,
      "learning_rate": 4.923427643158835e-05,
      "loss": 0.4059,
      "step": 38620
    },
    {
      "epoch": 757.45,
      "learning_rate": 4.9196220523140555e-05,
      "loss": 0.4034,
      "step": 38630
    },
    {
      "epoch": 757.65,
      "learning_rate": 4.9158172148820846e-05,
      "loss": 0.4035,
      "step": 38640
    },
    {
      "epoch": 757.84,
      "learning_rate": 4.9120131319738555e-05,
      "loss": 0.4035,
      "step": 38650
    },
    {
      "epoch": 758.0,
      "eval_loss": 0.410969078540802,
      "eval_runtime": 2.213,
      "eval_samples_per_second": 1029.805,
      "eval_steps_per_second": 4.067,
      "step": 38658
    },
    {
      "epoch": 758.04,
      "learning_rate": 4.908209804700074e-05,
      "loss": 0.4063,
      "step": 38660
    },
    {
      "epoch": 758.24,
      "learning_rate": 4.904407234171227e-05,
      "loss": 0.4016,
      "step": 38670
    },
    {
      "epoch": 758.43,
      "learning_rate": 4.900605421497583e-05,
      "loss": 0.4021,
      "step": 38680
    },
    {
      "epoch": 758.63,
      "learning_rate": 4.896804367789179e-05,
      "loss": 0.3997,
      "step": 38690
    },
    {
      "epoch": 758.82,
      "learning_rate": 4.893004074155846e-05,
      "loss": 0.4026,
      "step": 38700
    },
    {
      "epoch": 759.0,
      "eval_loss": 0.41265445947647095,
      "eval_runtime": 2.3125,
      "eval_samples_per_second": 985.522,
      "eval_steps_per_second": 3.892,
      "step": 38709
    },
    {
      "epoch": 759.02,
      "learning_rate": 4.889204541707179e-05,
      "loss": 0.4016,
      "step": 38710
    },
    {
      "epoch": 759.22,
      "learning_rate": 4.885405771552561e-05,
      "loss": 0.3999,
      "step": 38720
    },
    {
      "epoch": 759.41,
      "learning_rate": 4.881607764801146e-05,
      "loss": 0.4046,
      "step": 38730
    },
    {
      "epoch": 759.61,
      "learning_rate": 4.8778105225618705e-05,
      "loss": 0.4063,
      "step": 38740
    },
    {
      "epoch": 759.8,
      "learning_rate": 4.8740140459434405e-05,
      "loss": 0.4072,
      "step": 38750
    },
    {
      "epoch": 760.0,
      "learning_rate": 4.8702183360543426e-05,
      "loss": 0.4028,
      "step": 38760
    },
    {
      "epoch": 760.0,
      "eval_loss": 0.4106810688972473,
      "eval_runtime": 2.3297,
      "eval_samples_per_second": 978.218,
      "eval_steps_per_second": 3.863,
      "step": 38760
    },
    {
      "epoch": 760.2,
      "learning_rate": 4.866423394002841e-05,
      "loss": 0.402,
      "step": 38770
    },
    {
      "epoch": 760.39,
      "learning_rate": 4.8626292208969734e-05,
      "loss": 0.4087,
      "step": 38780
    },
    {
      "epoch": 760.59,
      "learning_rate": 4.858835817844557e-05,
      "loss": 0.4029,
      "step": 38790
    },
    {
      "epoch": 760.78,
      "learning_rate": 4.855043185953175e-05,
      "loss": 0.4045,
      "step": 38800
    },
    {
      "epoch": 760.98,
      "learning_rate": 4.851251326330196e-05,
      "loss": 0.4007,
      "step": 38810
    },
    {
      "epoch": 761.0,
      "eval_loss": 0.4079250693321228,
      "eval_runtime": 2.2583,
      "eval_samples_per_second": 1009.151,
      "eval_steps_per_second": 3.985,
      "step": 38811
    },
    {
      "epoch": 761.18,
      "learning_rate": 4.8474602400827575e-05,
      "loss": 0.4066,
      "step": 38820
    },
    {
      "epoch": 761.37,
      "learning_rate": 4.843669928317769e-05,
      "loss": 0.4041,
      "step": 38830
    },
    {
      "epoch": 761.57,
      "learning_rate": 4.8398803921419235e-05,
      "loss": 0.4006,
      "step": 38840
    },
    {
      "epoch": 761.76,
      "learning_rate": 4.8360916326616735e-05,
      "loss": 0.4042,
      "step": 38850
    },
    {
      "epoch": 761.96,
      "learning_rate": 4.832303650983258e-05,
      "loss": 0.4043,
      "step": 38860
    },
    {
      "epoch": 762.0,
      "eval_loss": 0.4105600118637085,
      "eval_runtime": 2.2483,
      "eval_samples_per_second": 1013.643,
      "eval_steps_per_second": 4.003,
      "step": 38862
    },
    {
      "epoch": 762.16,
      "learning_rate": 4.82851644821268e-05,
      "loss": 0.407,
      "step": 38870
    },
    {
      "epoch": 762.35,
      "learning_rate": 4.824730025455719e-05,
      "loss": 0.4043,
      "step": 38880
    },
    {
      "epoch": 762.55,
      "learning_rate": 4.820944383817928e-05,
      "loss": 0.3991,
      "step": 38890
    },
    {
      "epoch": 762.75,
      "learning_rate": 4.8171595244046256e-05,
      "loss": 0.4011,
      "step": 38900
    },
    {
      "epoch": 762.94,
      "learning_rate": 4.8133754483209105e-05,
      "loss": 0.3979,
      "step": 38910
    },
    {
      "epoch": 763.0,
      "eval_loss": 0.40839433670043945,
      "eval_runtime": 2.2395,
      "eval_samples_per_second": 1017.652,
      "eval_steps_per_second": 4.019,
      "step": 38913
    },
    {
      "epoch": 763.14,
      "learning_rate": 4.809592156671645e-05,
      "loss": 0.4054,
      "step": 38920
    },
    {
      "epoch": 763.33,
      "learning_rate": 4.8058096505614704e-05,
      "loss": 0.4027,
      "step": 38930
    },
    {
      "epoch": 763.53,
      "learning_rate": 4.8020279310947924e-05,
      "loss": 0.401,
      "step": 38940
    },
    {
      "epoch": 763.73,
      "learning_rate": 4.798246999375785e-05,
      "loss": 0.4027,
      "step": 38950
    },
    {
      "epoch": 763.92,
      "learning_rate": 4.7944668565084e-05,
      "loss": 0.4071,
      "step": 38960
    },
    {
      "epoch": 764.0,
      "eval_loss": 0.4093049466609955,
      "eval_runtime": 2.2294,
      "eval_samples_per_second": 1022.268,
      "eval_steps_per_second": 4.037,
      "step": 38964
    },
    {
      "epoch": 764.12,
      "learning_rate": 4.790687503596353e-05,
      "loss": 0.4103,
      "step": 38970
    },
    {
      "epoch": 764.31,
      "learning_rate": 4.786908941743132e-05,
      "loss": 0.4023,
      "step": 38980
    },
    {
      "epoch": 764.51,
      "learning_rate": 4.783131172051991e-05,
      "loss": 0.4053,
      "step": 38990
    },
    {
      "epoch": 764.71,
      "learning_rate": 4.779354195625958e-05,
      "loss": 0.403,
      "step": 39000
    },
    {
      "epoch": 764.9,
      "learning_rate": 4.775578013567824e-05,
      "loss": 0.4097,
      "step": 39010
    },
    {
      "epoch": 765.0,
      "eval_loss": 0.41303664445877075,
      "eval_runtime": 2.3567,
      "eval_samples_per_second": 967.04,
      "eval_steps_per_second": 3.819,
      "step": 39015
    },
    {
      "epoch": 765.1,
      "learning_rate": 4.7718026269801465e-05,
      "loss": 0.4063,
      "step": 39020
    },
    {
      "epoch": 765.29,
      "learning_rate": 4.7680280369652595e-05,
      "loss": 0.4052,
      "step": 39030
    },
    {
      "epoch": 765.49,
      "learning_rate": 4.7642542446252544e-05,
      "loss": 0.4057,
      "step": 39040
    },
    {
      "epoch": 765.69,
      "learning_rate": 4.760481251062001e-05,
      "loss": 0.4035,
      "step": 39050
    },
    {
      "epoch": 765.88,
      "learning_rate": 4.756709057377121e-05,
      "loss": 0.4052,
      "step": 39060
    },
    {
      "epoch": 766.0,
      "eval_loss": 0.4117512106895447,
      "eval_runtime": 2.2303,
      "eval_samples_per_second": 1021.815,
      "eval_steps_per_second": 4.035,
      "step": 39066
    },
    {
      "epoch": 766.08,
      "learning_rate": 4.7529376646720166e-05,
      "loss": 0.4075,
      "step": 39070
    },
    {
      "epoch": 766.27,
      "learning_rate": 4.7491670740478496e-05,
      "loss": 0.4024,
      "step": 39080
    },
    {
      "epoch": 766.47,
      "learning_rate": 4.745397286605545e-05,
      "loss": 0.4008,
      "step": 39090
    },
    {
      "epoch": 766.67,
      "learning_rate": 4.741628303445802e-05,
      "loss": 0.3995,
      "step": 39100
    },
    {
      "epoch": 766.86,
      "learning_rate": 4.737860125669074e-05,
      "loss": 0.4063,
      "step": 39110
    },
    {
      "epoch": 767.0,
      "eval_loss": 0.4054567217826843,
      "eval_runtime": 2.1606,
      "eval_samples_per_second": 1054.78,
      "eval_steps_per_second": 4.165,
      "step": 39117
    },
    {
      "epoch": 767.06,
      "learning_rate": 4.73409275437559e-05,
      "loss": 0.4031,
      "step": 39120
    },
    {
      "epoch": 767.25,
      "learning_rate": 4.730326190665333e-05,
      "loss": 0.4016,
      "step": 39130
    },
    {
      "epoch": 767.45,
      "learning_rate": 4.726560435638061e-05,
      "loss": 0.4006,
      "step": 39140
    },
    {
      "epoch": 767.65,
      "learning_rate": 4.72279549039329e-05,
      "loss": 0.4071,
      "step": 39150
    },
    {
      "epoch": 767.84,
      "learning_rate": 4.719031356030294e-05,
      "loss": 0.4051,
      "step": 39160
    },
    {
      "epoch": 768.0,
      "eval_loss": 0.4055671691894531,
      "eval_runtime": 2.2198,
      "eval_samples_per_second": 1026.654,
      "eval_steps_per_second": 4.054,
      "step": 39168
    },
    {
      "epoch": 768.04,
      "learning_rate": 4.715268033648123e-05,
      "loss": 0.4019,
      "step": 39170
    },
    {
      "epoch": 768.24,
      "learning_rate": 4.711505524345578e-05,
      "loss": 0.4041,
      "step": 39180
    },
    {
      "epoch": 768.43,
      "learning_rate": 4.707743829221233e-05,
      "loss": 0.4001,
      "step": 39190
    },
    {
      "epoch": 768.63,
      "learning_rate": 4.703982949373414e-05,
      "loss": 0.4049,
      "step": 39200
    },
    {
      "epoch": 768.82,
      "learning_rate": 4.700222885900221e-05,
      "loss": 0.403,
      "step": 39210
    },
    {
      "epoch": 769.0,
      "eval_loss": 0.4054199457168579,
      "eval_runtime": 2.2681,
      "eval_samples_per_second": 1004.796,
      "eval_steps_per_second": 3.968,
      "step": 39219
    },
    {
      "epoch": 769.02,
      "learning_rate": 4.696463639899501e-05,
      "loss": 0.3987,
      "step": 39220
    },
    {
      "epoch": 769.22,
      "learning_rate": 4.692705212468873e-05,
      "loss": 0.3996,
      "step": 39230
    },
    {
      "epoch": 769.41,
      "learning_rate": 4.688947604705715e-05,
      "loss": 0.4056,
      "step": 39240
    },
    {
      "epoch": 769.61,
      "learning_rate": 4.685190817707163e-05,
      "loss": 0.4049,
      "step": 39250
    },
    {
      "epoch": 769.8,
      "learning_rate": 4.681434852570118e-05,
      "loss": 0.402,
      "step": 39260
    },
    {
      "epoch": 770.0,
      "learning_rate": 4.6776797103912336e-05,
      "loss": 0.4061,
      "step": 39270
    },
    {
      "epoch": 770.0,
      "eval_loss": 0.41016271710395813,
      "eval_runtime": 2.241,
      "eval_samples_per_second": 1016.966,
      "eval_steps_per_second": 4.016,
      "step": 39270
    },
    {
      "epoch": 770.2,
      "learning_rate": 4.673925392266931e-05,
      "loss": 0.403,
      "step": 39280
    },
    {
      "epoch": 770.39,
      "learning_rate": 4.670171899293387e-05,
      "loss": 0.4001,
      "step": 39290
    },
    {
      "epoch": 770.59,
      "learning_rate": 4.6664192325665355e-05,
      "loss": 0.3978,
      "step": 39300
    },
    {
      "epoch": 770.78,
      "learning_rate": 4.6626673931820754e-05,
      "loss": 0.4044,
      "step": 39310
    },
    {
      "epoch": 770.98,
      "learning_rate": 4.658916382235455e-05,
      "loss": 0.3989,
      "step": 39320
    },
    {
      "epoch": 771.0,
      "eval_loss": 0.4141434133052826,
      "eval_runtime": 2.3668,
      "eval_samples_per_second": 962.921,
      "eval_steps_per_second": 3.803,
      "step": 39321
    },
    {
      "epoch": 771.18,
      "learning_rate": 4.655166200821891e-05,
      "loss": 0.4017,
      "step": 39330
    },
    {
      "epoch": 771.37,
      "learning_rate": 4.651416850036347e-05,
      "loss": 0.4017,
      "step": 39340
    },
    {
      "epoch": 771.57,
      "learning_rate": 4.6476683309735577e-05,
      "loss": 0.4026,
      "step": 39350
    },
    {
      "epoch": 771.76,
      "learning_rate": 4.6439206447280014e-05,
      "loss": 0.3998,
      "step": 39360
    },
    {
      "epoch": 771.96,
      "learning_rate": 4.640173792393918e-05,
      "loss": 0.4022,
      "step": 39370
    },
    {
      "epoch": 772.0,
      "eval_loss": 0.4049689769744873,
      "eval_runtime": 2.3487,
      "eval_samples_per_second": 970.308,
      "eval_steps_per_second": 3.832,
      "step": 39372
    },
    {
      "epoch": 772.16,
      "learning_rate": 4.636427775065309e-05,
      "loss": 0.4021,
      "step": 39380
    },
    {
      "epoch": 772.35,
      "learning_rate": 4.632682593835923e-05,
      "loss": 0.3976,
      "step": 39390
    },
    {
      "epoch": 772.55,
      "learning_rate": 4.628938249799275e-05,
      "loss": 0.4025,
      "step": 39400
    },
    {
      "epoch": 772.75,
      "learning_rate": 4.6251947440486256e-05,
      "loss": 0.4031,
      "step": 39410
    },
    {
      "epoch": 772.94,
      "learning_rate": 4.621452077676999e-05,
      "loss": 0.4018,
      "step": 39420
    },
    {
      "epoch": 773.0,
      "eval_loss": 0.4097810685634613,
      "eval_runtime": 2.2555,
      "eval_samples_per_second": 1010.415,
      "eval_steps_per_second": 3.99,
      "step": 39423
    },
    {
      "epoch": 773.14,
      "learning_rate": 4.6177102517771665e-05,
      "loss": 0.4007,
      "step": 39430
    },
    {
      "epoch": 773.33,
      "learning_rate": 4.613969267441658e-05,
      "loss": 0.4034,
      "step": 39440
    },
    {
      "epoch": 773.53,
      "learning_rate": 4.6102291257627594e-05,
      "loss": 0.4008,
      "step": 39450
    },
    {
      "epoch": 773.73,
      "learning_rate": 4.606489827832507e-05,
      "loss": 0.3996,
      "step": 39460
    },
    {
      "epoch": 773.92,
      "learning_rate": 4.602751374742697e-05,
      "loss": 0.3993,
      "step": 39470
    },
    {
      "epoch": 774.0,
      "eval_loss": 0.40897953510284424,
      "eval_runtime": 2.2539,
      "eval_samples_per_second": 1011.143,
      "eval_steps_per_second": 3.993,
      "step": 39474
    },
    {
      "epoch": 774.12,
      "learning_rate": 4.5990137675848666e-05,
      "loss": 0.3995,
      "step": 39480
    },
    {
      "epoch": 774.31,
      "learning_rate": 4.595277007450319e-05,
      "loss": 0.4037,
      "step": 39490
    },
    {
      "epoch": 774.51,
      "learning_rate": 4.591541095430105e-05,
      "loss": 0.4052,
      "step": 39500
    },
    {
      "epoch": 774.71,
      "learning_rate": 4.5878060326150234e-05,
      "loss": 0.3992,
      "step": 39510
    },
    {
      "epoch": 774.9,
      "learning_rate": 4.584071820095636e-05,
      "loss": 0.3984,
      "step": 39520
    },
    {
      "epoch": 775.0,
      "eval_loss": 0.40743353962898254,
      "eval_runtime": 2.3001,
      "eval_samples_per_second": 990.816,
      "eval_steps_per_second": 3.913,
      "step": 39525
    },
    {
      "epoch": 775.1,
      "learning_rate": 4.580338458962242e-05,
      "loss": 0.4075,
      "step": 39530
    },
    {
      "epoch": 775.29,
      "learning_rate": 4.576605950304905e-05,
      "loss": 0.401,
      "step": 39540
    },
    {
      "epoch": 775.49,
      "learning_rate": 4.572874295213431e-05,
      "loss": 0.4026,
      "step": 39550
    },
    {
      "epoch": 775.69,
      "learning_rate": 4.569143494777383e-05,
      "loss": 0.4046,
      "step": 39560
    },
    {
      "epoch": 775.88,
      "learning_rate": 4.5654135500860715e-05,
      "loss": 0.4034,
      "step": 39570
    },
    {
      "epoch": 776.0,
      "eval_loss": 0.40677332878112793,
      "eval_runtime": 2.3793,
      "eval_samples_per_second": 957.851,
      "eval_steps_per_second": 3.783,
      "step": 39576
    },
    {
      "epoch": 776.08,
      "learning_rate": 4.561684462228553e-05,
      "loss": 0.4034,
      "step": 39580
    },
    {
      "epoch": 776.27,
      "learning_rate": 4.5579562322936416e-05,
      "loss": 0.3984,
      "step": 39590
    },
    {
      "epoch": 776.47,
      "learning_rate": 4.554228861369895e-05,
      "loss": 0.3992,
      "step": 39600
    },
    {
      "epoch": 776.67,
      "learning_rate": 4.550502350545626e-05,
      "loss": 0.4,
      "step": 39610
    },
    {
      "epoch": 776.86,
      "learning_rate": 4.546776700908892e-05,
      "loss": 0.4036,
      "step": 39620
    },
    {
      "epoch": 777.0,
      "eval_loss": 0.4042729437351227,
      "eval_runtime": 2.3533,
      "eval_samples_per_second": 968.434,
      "eval_steps_per_second": 3.824,
      "step": 39627
    },
    {
      "epoch": 777.06,
      "learning_rate": 4.543051913547495e-05,
      "loss": 0.4006,
      "step": 39630
    },
    {
      "epoch": 777.25,
      "learning_rate": 4.5393279895489934e-05,
      "loss": 0.403,
      "step": 39640
    },
    {
      "epoch": 777.45,
      "learning_rate": 4.535604930000689e-05,
      "loss": 0.4016,
      "step": 39650
    },
    {
      "epoch": 777.65,
      "learning_rate": 4.531882735989633e-05,
      "loss": 0.398,
      "step": 39660
    },
    {
      "epoch": 777.84,
      "learning_rate": 4.5281614086026227e-05,
      "loss": 0.4027,
      "step": 39670
    },
    {
      "epoch": 778.0,
      "eval_loss": 0.40563011169433594,
      "eval_runtime": 2.2438,
      "eval_samples_per_second": 1015.69,
      "eval_steps_per_second": 4.011,
      "step": 39678
    },
    {
      "epoch": 778.04,
      "learning_rate": 4.5244409489262054e-05,
      "loss": 0.3998,
      "step": 39680
    },
    {
      "epoch": 778.24,
      "learning_rate": 4.520721358046667e-05,
      "loss": 0.3989,
      "step": 39690
    },
    {
      "epoch": 778.43,
      "learning_rate": 4.5170026370500465e-05,
      "loss": 0.3968,
      "step": 39700
    },
    {
      "epoch": 778.63,
      "learning_rate": 4.51328478702213e-05,
      "loss": 0.4031,
      "step": 39710
    },
    {
      "epoch": 778.82,
      "learning_rate": 4.509567809048445e-05,
      "loss": 0.3999,
      "step": 39720
    },
    {
      "epoch": 779.0,
      "eval_loss": 0.410388708114624,
      "eval_runtime": 2.3154,
      "eval_samples_per_second": 984.289,
      "eval_steps_per_second": 3.887,
      "step": 39729
    },
    {
      "epoch": 779.02,
      "learning_rate": 4.505851704214269e-05,
      "loss": 0.4029,
      "step": 39730
    },
    {
      "epoch": 779.22,
      "learning_rate": 4.502136473604616e-05,
      "loss": 0.3985,
      "step": 39740
    },
    {
      "epoch": 779.41,
      "learning_rate": 4.4984221183042566e-05,
      "loss": 0.3996,
      "step": 39750
    },
    {
      "epoch": 779.61,
      "learning_rate": 4.494708639397696e-05,
      "loss": 0.4005,
      "step": 39760
    },
    {
      "epoch": 779.8,
      "learning_rate": 4.490996037969187e-05,
      "loss": 0.4032,
      "step": 39770
    },
    {
      "epoch": 780.0,
      "learning_rate": 4.48728431510273e-05,
      "loss": 0.401,
      "step": 39780
    },
    {
      "epoch": 780.0,
      "eval_loss": 0.4033023416996002,
      "eval_runtime": 2.1991,
      "eval_samples_per_second": 1036.345,
      "eval_steps_per_second": 4.093,
      "step": 39780
    },
    {
      "epoch": 780.2,
      "learning_rate": 4.483573471882061e-05,
      "loss": 0.3999,
      "step": 39790
    },
    {
      "epoch": 780.39,
      "learning_rate": 4.479863509390666e-05,
      "loss": 0.3978,
      "step": 39800
    },
    {
      "epoch": 780.59,
      "learning_rate": 4.4761544287117696e-05,
      "loss": 0.3999,
      "step": 39810
    },
    {
      "epoch": 780.78,
      "learning_rate": 4.472446230928343e-05,
      "loss": 0.4011,
      "step": 39820
    },
    {
      "epoch": 780.98,
      "learning_rate": 4.4687389171230975e-05,
      "loss": 0.4058,
      "step": 39830
    },
    {
      "epoch": 781.0,
      "eval_loss": 0.40577030181884766,
      "eval_runtime": 2.3092,
      "eval_samples_per_second": 986.928,
      "eval_steps_per_second": 3.897,
      "step": 39831
    },
    {
      "epoch": 781.18,
      "learning_rate": 4.465032488378481e-05,
      "loss": 0.3979,
      "step": 39840
    },
    {
      "epoch": 781.37,
      "learning_rate": 4.461326945776694e-05,
      "loss": 0.4013,
      "step": 39850
    },
    {
      "epoch": 781.57,
      "learning_rate": 4.457622290399668e-05,
      "loss": 0.4018,
      "step": 39860
    },
    {
      "epoch": 781.76,
      "learning_rate": 4.453918523329084e-05,
      "loss": 0.4026,
      "step": 39870
    },
    {
      "epoch": 781.96,
      "learning_rate": 4.4502156456463536e-05,
      "loss": 0.3977,
      "step": 39880
    },
    {
      "epoch": 782.0,
      "eval_loss": 0.40937620401382446,
      "eval_runtime": 2.3002,
      "eval_samples_per_second": 990.777,
      "eval_steps_per_second": 3.913,
      "step": 39882
    },
    {
      "epoch": 782.16,
      "learning_rate": 4.446513658432642e-05,
      "loss": 0.4016,
      "step": 39890
    },
    {
      "epoch": 782.35,
      "learning_rate": 4.44281256276884e-05,
      "loss": 0.3995,
      "step": 39900
    },
    {
      "epoch": 782.55,
      "learning_rate": 4.439112359735588e-05,
      "loss": 0.4021,
      "step": 39910
    },
    {
      "epoch": 782.75,
      "learning_rate": 4.4354130504132636e-05,
      "loss": 0.399,
      "step": 39920
    },
    {
      "epoch": 782.94,
      "learning_rate": 4.4317146358819794e-05,
      "loss": 0.402,
      "step": 39930
    },
    {
      "epoch": 783.0,
      "eval_loss": 0.4056869447231293,
      "eval_runtime": 2.1949,
      "eval_samples_per_second": 1038.316,
      "eval_steps_per_second": 4.1,
      "step": 39933
    },
    {
      "epoch": 783.14,
      "learning_rate": 4.428017117221596e-05,
      "loss": 0.3983,
      "step": 39940
    },
    {
      "epoch": 783.33,
      "learning_rate": 4.4243204955116995e-05,
      "loss": 0.3968,
      "step": 39950
    },
    {
      "epoch": 783.53,
      "learning_rate": 4.420624771831625e-05,
      "loss": 0.3991,
      "step": 39960
    },
    {
      "epoch": 783.73,
      "learning_rate": 4.41692994726044e-05,
      "loss": 0.3984,
      "step": 39970
    },
    {
      "epoch": 783.92,
      "learning_rate": 4.4132360228769506e-05,
      "loss": 0.3972,
      "step": 39980
    },
    {
      "epoch": 784.0,
      "eval_loss": 0.4044448733329773,
      "eval_runtime": 2.3046,
      "eval_samples_per_second": 988.877,
      "eval_steps_per_second": 3.905,
      "step": 39984
    },
    {
      "epoch": 784.12,
      "learning_rate": 4.409542999759703e-05,
      "loss": 0.404,
      "step": 39990
    },
    {
      "epoch": 784.31,
      "learning_rate": 4.4058508789869736e-05,
      "loss": 0.4004,
      "step": 40000
    },
    {
      "epoch": 784.51,
      "learning_rate": 4.4021596616367825e-05,
      "loss": 0.3969,
      "step": 40010
    },
    {
      "epoch": 784.71,
      "learning_rate": 4.3984693487868806e-05,
      "loss": 0.4001,
      "step": 40020
    },
    {
      "epoch": 784.9,
      "learning_rate": 4.394779941514759e-05,
      "loss": 0.3997,
      "step": 40030
    },
    {
      "epoch": 785.0,
      "eval_loss": 0.40749338269233704,
      "eval_runtime": 2.2723,
      "eval_samples_per_second": 1002.965,
      "eval_steps_per_second": 3.961,
      "step": 40035
    },
    {
      "epoch": 785.1,
      "learning_rate": 4.3910914408976426e-05,
      "loss": 0.3994,
      "step": 40040
    },
    {
      "epoch": 785.29,
      "learning_rate": 4.3874038480124876e-05,
      "loss": 0.4003,
      "step": 40050
    },
    {
      "epoch": 785.49,
      "learning_rate": 4.383717163935992e-05,
      "loss": 0.3993,
      "step": 40060
    },
    {
      "epoch": 785.69,
      "learning_rate": 4.380031389744584e-05,
      "loss": 0.4,
      "step": 40070
    },
    {
      "epoch": 785.88,
      "learning_rate": 4.376346526514429e-05,
      "loss": 0.4003,
      "step": 40080
    },
    {
      "epoch": 786.0,
      "eval_loss": 0.4073701798915863,
      "eval_runtime": 2.1998,
      "eval_samples_per_second": 1036.005,
      "eval_steps_per_second": 4.091,
      "step": 40086
    },
    {
      "epoch": 786.08,
      "learning_rate": 4.372662575321423e-05,
      "loss": 0.3957,
      "step": 40090
    },
    {
      "epoch": 786.27,
      "learning_rate": 4.368979537241202e-05,
      "loss": 0.3999,
      "step": 40100
    },
    {
      "epoch": 786.47,
      "learning_rate": 4.365297413349127e-05,
      "loss": 0.3975,
      "step": 40110
    },
    {
      "epoch": 786.67,
      "learning_rate": 4.3616162047202904e-05,
      "loss": 0.3998,
      "step": 40120
    },
    {
      "epoch": 786.86,
      "learning_rate": 4.3579359124295356e-05,
      "loss": 0.3973,
      "step": 40130
    },
    {
      "epoch": 787.0,
      "eval_loss": 0.4044763445854187,
      "eval_runtime": 2.3538,
      "eval_samples_per_second": 968.204,
      "eval_steps_per_second": 3.824,
      "step": 40137
    },
    {
      "epoch": 787.06,
      "learning_rate": 4.3542565375514164e-05,
      "loss": 0.3938,
      "step": 40140
    },
    {
      "epoch": 787.25,
      "learning_rate": 4.350578081160235e-05,
      "loss": 0.3976,
      "step": 40150
    },
    {
      "epoch": 787.45,
      "learning_rate": 4.346900544330011e-05,
      "loss": 0.3953,
      "step": 40160
    },
    {
      "epoch": 787.65,
      "learning_rate": 4.343223928134511e-05,
      "loss": 0.4008,
      "step": 40170
    },
    {
      "epoch": 787.84,
      "learning_rate": 4.3395482336472175e-05,
      "loss": 0.3989,
      "step": 40180
    },
    {
      "epoch": 788.0,
      "eval_loss": 0.4078381061553955,
      "eval_runtime": 2.2214,
      "eval_samples_per_second": 1025.951,
      "eval_steps_per_second": 4.052,
      "step": 40188
    },
    {
      "epoch": 788.04,
      "learning_rate": 4.335873461941355e-05,
      "loss": 0.3958,
      "step": 40190
    },
    {
      "epoch": 788.24,
      "learning_rate": 4.332199614089878e-05,
      "loss": 0.4011,
      "step": 40200
    },
    {
      "epoch": 788.43,
      "learning_rate": 4.328526691165462e-05,
      "loss": 0.398,
      "step": 40210
    },
    {
      "epoch": 788.63,
      "learning_rate": 4.3248546942405235e-05,
      "loss": 0.3984,
      "step": 40220
    },
    {
      "epoch": 788.82,
      "learning_rate": 4.321183624387196e-05,
      "loss": 0.4029,
      "step": 40230
    },
    {
      "epoch": 789.0,
      "eval_loss": 0.40923169255256653,
      "eval_runtime": 2.2528,
      "eval_samples_per_second": 1011.619,
      "eval_steps_per_second": 3.995,
      "step": 40239
    },
    {
      "epoch": 789.02,
      "learning_rate": 4.3175134826773626e-05,
      "loss": 0.3972,
      "step": 40240
    },
    {
      "epoch": 789.22,
      "learning_rate": 4.313844270182615e-05,
      "loss": 0.3998,
      "step": 40250
    },
    {
      "epoch": 789.41,
      "learning_rate": 4.31017598797428e-05,
      "loss": 0.4007,
      "step": 40260
    },
    {
      "epoch": 789.61,
      "learning_rate": 4.306508637123419e-05,
      "loss": 0.3986,
      "step": 40270
    },
    {
      "epoch": 789.8,
      "learning_rate": 4.302842218700808e-05,
      "loss": 0.396,
      "step": 40280
    },
    {
      "epoch": 790.0,
      "learning_rate": 4.299176733776972e-05,
      "loss": 0.4011,
      "step": 40290
    },
    {
      "epoch": 790.0,
      "eval_loss": 0.4051341116428375,
      "eval_runtime": 2.1983,
      "eval_samples_per_second": 1036.73,
      "eval_steps_per_second": 4.094,
      "step": 40290
    },
    {
      "epoch": 790.2,
      "learning_rate": 4.295512183422145e-05,
      "loss": 0.3981,
      "step": 40300
    },
    {
      "epoch": 790.39,
      "learning_rate": 4.291848568706289e-05,
      "loss": 0.401,
      "step": 40310
    },
    {
      "epoch": 790.59,
      "learning_rate": 4.288185890699107e-05,
      "loss": 0.4029,
      "step": 40320
    },
    {
      "epoch": 790.78,
      "learning_rate": 4.284524150470007e-05,
      "loss": 0.3987,
      "step": 40330
    },
    {
      "epoch": 790.98,
      "learning_rate": 4.28086334908815e-05,
      "loss": 0.3975,
      "step": 40340
    },
    {
      "epoch": 791.0,
      "eval_loss": 0.4008138179779053,
      "eval_runtime": 2.3676,
      "eval_samples_per_second": 962.596,
      "eval_steps_per_second": 3.801,
      "step": 40341
    },
    {
      "epoch": 791.18,
      "learning_rate": 4.277203487622397e-05,
      "loss": 0.4027,
      "step": 40350
    },
    {
      "epoch": 791.37,
      "learning_rate": 4.273544567141354e-05,
      "loss": 0.3978,
      "step": 40360
    },
    {
      "epoch": 791.57,
      "learning_rate": 4.2698865887133414e-05,
      "loss": 0.3928,
      "step": 40370
    },
    {
      "epoch": 791.76,
      "learning_rate": 4.266229553406403e-05,
      "loss": 0.3963,
      "step": 40380
    },
    {
      "epoch": 791.96,
      "learning_rate": 4.262573462288314e-05,
      "loss": 0.3952,
      "step": 40390
    },
    {
      "epoch": 792.0,
      "eval_loss": 0.4049001634120941,
      "eval_runtime": 2.1953,
      "eval_samples_per_second": 1038.115,
      "eval_steps_per_second": 4.1,
      "step": 40392
    },
    {
      "epoch": 792.16,
      "learning_rate": 4.258918316426573e-05,
      "loss": 0.3965,
      "step": 40400
    },
    {
      "epoch": 792.35,
      "learning_rate": 4.255264116888404e-05,
      "loss": 0.3969,
      "step": 40410
    },
    {
      "epoch": 792.55,
      "learning_rate": 4.251610864740744e-05,
      "loss": 0.3987,
      "step": 40420
    },
    {
      "epoch": 792.75,
      "learning_rate": 4.247958561050269e-05,
      "loss": 0.3956,
      "step": 40430
    },
    {
      "epoch": 792.94,
      "learning_rate": 4.244307206883364e-05,
      "loss": 0.4032,
      "step": 40440
    },
    {
      "epoch": 793.0,
      "eval_loss": 0.4053691029548645,
      "eval_runtime": 2.2536,
      "eval_samples_per_second": 1011.28,
      "eval_steps_per_second": 3.994,
      "step": 40443
    },
    {
      "epoch": 793.14,
      "learning_rate": 4.240656803306145e-05,
      "loss": 0.3987,
      "step": 40450
    },
    {
      "epoch": 793.33,
      "learning_rate": 4.2370073513844523e-05,
      "loss": 0.3955,
      "step": 40460
    },
    {
      "epoch": 793.53,
      "learning_rate": 4.233358852183838e-05,
      "loss": 0.3925,
      "step": 40470
    },
    {
      "epoch": 793.73,
      "learning_rate": 4.2297113067695884e-05,
      "loss": 0.3954,
      "step": 40480
    },
    {
      "epoch": 793.92,
      "learning_rate": 4.2260647162066976e-05,
      "loss": 0.4027,
      "step": 40490
    },
    {
      "epoch": 794.0,
      "eval_loss": 0.40342316031455994,
      "eval_runtime": 2.3542,
      "eval_samples_per_second": 968.056,
      "eval_steps_per_second": 3.823,
      "step": 40494
    },
    {
      "epoch": 794.12,
      "learning_rate": 4.222419081559899e-05,
      "loss": 0.4001,
      "step": 40500
    },
    {
      "epoch": 794.31,
      "learning_rate": 4.218774403893632e-05,
      "loss": 0.3975,
      "step": 40510
    },
    {
      "epoch": 794.51,
      "learning_rate": 4.2151306842720574e-05,
      "loss": 0.3954,
      "step": 40520
    },
    {
      "epoch": 794.71,
      "learning_rate": 4.211487923759066e-05,
      "loss": 0.3969,
      "step": 40530
    },
    {
      "epoch": 794.9,
      "learning_rate": 4.207846123418254e-05,
      "loss": 0.397,
      "step": 40540
    },
    {
      "epoch": 795.0,
      "eval_loss": 0.40420642495155334,
      "eval_runtime": 2.219,
      "eval_samples_per_second": 1027.021,
      "eval_steps_per_second": 4.056,
      "step": 40545
    },
    {
      "epoch": 795.1,
      "learning_rate": 4.2042052843129586e-05,
      "loss": 0.3991,
      "step": 40550
    },
    {
      "epoch": 795.29,
      "learning_rate": 4.200565407506214e-05,
      "loss": 0.3996,
      "step": 40560
    },
    {
      "epoch": 795.49,
      "learning_rate": 4.196926494060788e-05,
      "loss": 0.3975,
      "step": 40570
    },
    {
      "epoch": 795.69,
      "learning_rate": 4.1932885450391594e-05,
      "loss": 0.3958,
      "step": 40580
    },
    {
      "epoch": 795.88,
      "learning_rate": 4.189651561503527e-05,
      "loss": 0.3941,
      "step": 40590
    },
    {
      "epoch": 796.0,
      "eval_loss": 0.40304508805274963,
      "eval_runtime": 2.3229,
      "eval_samples_per_second": 981.082,
      "eval_steps_per_second": 3.874,
      "step": 40596
    },
    {
      "epoch": 796.08,
      "learning_rate": 4.1860155445158104e-05,
      "loss": 0.3953,
      "step": 40600
    },
    {
      "epoch": 796.27,
      "learning_rate": 4.182380495137646e-05,
      "loss": 0.3923,
      "step": 40610
    },
    {
      "epoch": 796.47,
      "learning_rate": 4.1787464144303895e-05,
      "loss": 0.4072,
      "step": 40620
    },
    {
      "epoch": 796.67,
      "learning_rate": 4.175113303455106e-05,
      "loss": 0.3953,
      "step": 40630
    },
    {
      "epoch": 796.86,
      "learning_rate": 4.1714811632725886e-05,
      "loss": 0.3929,
      "step": 40640
    },
    {
      "epoch": 797.0,
      "eval_loss": 0.4031014144420624,
      "eval_runtime": 2.2705,
      "eval_samples_per_second": 1003.756,
      "eval_steps_per_second": 3.964,
      "step": 40647
    },
    {
      "epoch": 797.06,
      "learning_rate": 4.167849994943336e-05,
      "loss": 0.4023,
      "step": 40650
    },
    {
      "epoch": 797.25,
      "learning_rate": 4.16421979952757e-05,
      "loss": 0.4006,
      "step": 40660
    },
    {
      "epoch": 797.45,
      "learning_rate": 4.16059057808523e-05,
      "loss": 0.399,
      "step": 40670
    },
    {
      "epoch": 797.65,
      "learning_rate": 4.156962331675963e-05,
      "loss": 0.3976,
      "step": 40680
    },
    {
      "epoch": 797.84,
      "learning_rate": 4.153335061359141e-05,
      "loss": 0.4016,
      "step": 40690
    },
    {
      "epoch": 798.0,
      "eval_loss": 0.4003075361251831,
      "eval_runtime": 2.2633,
      "eval_samples_per_second": 1006.944,
      "eval_steps_per_second": 3.977,
      "step": 40698
    },
    {
      "epoch": 798.04,
      "learning_rate": 4.149708768193837e-05,
      "loss": 0.4008,
      "step": 40700
    },
    {
      "epoch": 798.24,
      "learning_rate": 4.14608345323886e-05,
      "loss": 0.3992,
      "step": 40710
    },
    {
      "epoch": 798.43,
      "learning_rate": 4.142459117552715e-05,
      "loss": 0.4014,
      "step": 40720
    },
    {
      "epoch": 798.63,
      "learning_rate": 4.1388357621936246e-05,
      "loss": 0.3954,
      "step": 40730
    },
    {
      "epoch": 798.82,
      "learning_rate": 4.1352133882195335e-05,
      "loss": 0.3926,
      "step": 40740
    },
    {
      "epoch": 799.0,
      "eval_loss": 0.4025706648826599,
      "eval_runtime": 2.2185,
      "eval_samples_per_second": 1027.263,
      "eval_steps_per_second": 4.057,
      "step": 40749
    },
    {
      "epoch": 799.02,
      "learning_rate": 4.131591996688084e-05,
      "loss": 0.395,
      "step": 40750
    },
    {
      "epoch": 799.22,
      "learning_rate": 4.127971588656656e-05,
      "loss": 0.3989,
      "step": 40760
    },
    {
      "epoch": 799.41,
      "learning_rate": 4.124352165182317e-05,
      "loss": 0.3976,
      "step": 40770
    },
    {
      "epoch": 799.61,
      "learning_rate": 4.120733727321864e-05,
      "loss": 0.3955,
      "step": 40780
    },
    {
      "epoch": 799.8,
      "learning_rate": 4.117116276131798e-05,
      "loss": 0.3981,
      "step": 40790
    },
    {
      "epoch": 800.0,
      "learning_rate": 4.113499812668331e-05,
      "loss": 0.3985,
      "step": 40800
    },
    {
      "epoch": 800.0,
      "eval_loss": 0.4045719802379608,
      "eval_runtime": 2.3024,
      "eval_samples_per_second": 989.823,
      "eval_steps_per_second": 3.909,
      "step": 40800
    },
    {
      "epoch": 800.2,
      "learning_rate": 4.1098843379873926e-05,
      "loss": 0.3982,
      "step": 40810
    },
    {
      "epoch": 800.39,
      "learning_rate": 4.10626985314462e-05,
      "loss": 0.3994,
      "step": 40820
    },
    {
      "epoch": 800.59,
      "learning_rate": 4.102656359195366e-05,
      "loss": 0.3951,
      "step": 40830
    },
    {
      "epoch": 800.78,
      "learning_rate": 4.099043857194684e-05,
      "loss": 0.3987,
      "step": 40840
    },
    {
      "epoch": 800.98,
      "learning_rate": 4.09543234819735e-05,
      "loss": 0.3978,
      "step": 40850
    },
    {
      "epoch": 801.0,
      "eval_loss": 0.4002394676208496,
      "eval_runtime": 2.2534,
      "eval_samples_per_second": 1011.373,
      "eval_steps_per_second": 3.994,
      "step": 40851
    },
    {
      "epoch": 801.18,
      "learning_rate": 4.091821833257838e-05,
      "loss": 0.4006,
      "step": 40860
    },
    {
      "epoch": 801.37,
      "learning_rate": 4.088212313430342e-05,
      "loss": 0.3967,
      "step": 40870
    },
    {
      "epoch": 801.57,
      "learning_rate": 4.084603789768762e-05,
      "loss": 0.4034,
      "step": 40880
    },
    {
      "epoch": 801.76,
      "learning_rate": 4.080996263326702e-05,
      "loss": 0.3974,
      "step": 40890
    },
    {
      "epoch": 801.96,
      "learning_rate": 4.0773897351574846e-05,
      "loss": 0.3972,
      "step": 40900
    },
    {
      "epoch": 802.0,
      "eval_loss": 0.4057813584804535,
      "eval_runtime": 2.287,
      "eval_samples_per_second": 996.519,
      "eval_steps_per_second": 3.935,
      "step": 40902
    },
    {
      "epoch": 802.16,
      "learning_rate": 4.073784206314127e-05,
      "loss": 0.3923,
      "step": 40910
    },
    {
      "epoch": 802.35,
      "learning_rate": 4.070179677849375e-05,
      "loss": 0.3933,
      "step": 40920
    },
    {
      "epoch": 802.55,
      "learning_rate": 4.0665761508156654e-05,
      "loss": 0.3955,
      "step": 40930
    },
    {
      "epoch": 802.75,
      "learning_rate": 4.062973626265144e-05,
      "loss": 0.3995,
      "step": 40940
    },
    {
      "epoch": 802.94,
      "learning_rate": 4.0593721052496725e-05,
      "loss": 0.3993,
      "step": 40950
    },
    {
      "epoch": 803.0,
      "eval_loss": 0.4025868773460388,
      "eval_runtime": 2.3877,
      "eval_samples_per_second": 954.49,
      "eval_steps_per_second": 3.769,
      "step": 40953
    },
    {
      "epoch": 803.14,
      "learning_rate": 4.055771588820808e-05,
      "loss": 0.3984,
      "step": 40960
    },
    {
      "epoch": 803.33,
      "learning_rate": 4.0521720780298315e-05,
      "loss": 0.3989,
      "step": 40970
    },
    {
      "epoch": 803.53,
      "learning_rate": 4.04857357392771e-05,
      "loss": 0.3969,
      "step": 40980
    },
    {
      "epoch": 803.73,
      "learning_rate": 4.044976077565136e-05,
      "loss": 0.3943,
      "step": 40990
    },
    {
      "epoch": 803.92,
      "learning_rate": 4.041379589992491e-05,
      "loss": 0.3935,
      "step": 41000
    },
    {
      "epoch": 804.0,
      "eval_loss": 0.4048832058906555,
      "eval_runtime": 2.3357,
      "eval_samples_per_second": 975.736,
      "eval_steps_per_second": 3.853,
      "step": 41004
    },
    {
      "epoch": 804.12,
      "learning_rate": 4.037784112259868e-05,
      "loss": 0.3994,
      "step": 41010
    },
    {
      "epoch": 804.31,
      "learning_rate": 4.03418964541707e-05,
      "loss": 0.3917,
      "step": 41020
    },
    {
      "epoch": 804.51,
      "learning_rate": 4.0305961905135996e-05,
      "loss": 0.3989,
      "step": 41030
    },
    {
      "epoch": 804.71,
      "learning_rate": 4.0270037485986705e-05,
      "loss": 0.3977,
      "step": 41040
    },
    {
      "epoch": 804.9,
      "learning_rate": 4.023412320721191e-05,
      "loss": 0.3973,
      "step": 41050
    },
    {
      "epoch": 805.0,
      "eval_loss": 0.39889949560165405,
      "eval_runtime": 2.2245,
      "eval_samples_per_second": 1024.521,
      "eval_steps_per_second": 4.046,
      "step": 41055
    },
    {
      "epoch": 805.1,
      "learning_rate": 4.019821907929776e-05,
      "loss": 0.3906,
      "step": 41060
    },
    {
      "epoch": 805.29,
      "learning_rate": 4.016232511272747e-05,
      "loss": 0.3924,
      "step": 41070
    },
    {
      "epoch": 805.49,
      "learning_rate": 4.0126441317981306e-05,
      "loss": 0.3991,
      "step": 41080
    },
    {
      "epoch": 805.69,
      "learning_rate": 4.009056770553654e-05,
      "loss": 0.3966,
      "step": 41090
    },
    {
      "epoch": 805.88,
      "learning_rate": 4.0054704285867425e-05,
      "loss": 0.4002,
      "step": 41100
    },
    {
      "epoch": 806.0,
      "eval_loss": 0.40028414130210876,
      "eval_runtime": 2.2018,
      "eval_samples_per_second": 1035.077,
      "eval_steps_per_second": 4.088,
      "step": 41106
    },
    {
      "epoch": 806.08,
      "learning_rate": 4.0018851069445334e-05,
      "loss": 0.3994,
      "step": 41110
    },
    {
      "epoch": 806.27,
      "learning_rate": 3.9983008066738534e-05,
      "loss": 0.3967,
      "step": 41120
    },
    {
      "epoch": 806.47,
      "learning_rate": 3.9947175288212434e-05,
      "loss": 0.3946,
      "step": 41130
    },
    {
      "epoch": 806.67,
      "learning_rate": 3.9911352744329424e-05,
      "loss": 0.3947,
      "step": 41140
    },
    {
      "epoch": 806.86,
      "learning_rate": 3.9875540445548835e-05,
      "loss": 0.3918,
      "step": 41150
    },
    {
      "epoch": 807.0,
      "eval_loss": 0.4006493389606476,
      "eval_runtime": 2.2025,
      "eval_samples_per_second": 1034.733,
      "eval_steps_per_second": 4.086,
      "step": 41157
    },
    {
      "epoch": 807.06,
      "learning_rate": 3.9839738402327106e-05,
      "loss": 0.3991,
      "step": 41160
    },
    {
      "epoch": 807.25,
      "learning_rate": 3.980394662511756e-05,
      "loss": 0.3929,
      "step": 41170
    },
    {
      "epoch": 807.45,
      "learning_rate": 3.976816512437071e-05,
      "loss": 0.3981,
      "step": 41180
    },
    {
      "epoch": 807.65,
      "learning_rate": 3.973239391053389e-05,
      "loss": 0.3941,
      "step": 41190
    },
    {
      "epoch": 807.84,
      "learning_rate": 3.9696632994051476e-05,
      "loss": 0.4001,
      "step": 41200
    },
    {
      "epoch": 808.0,
      "eval_loss": 0.3997151553630829,
      "eval_runtime": 2.2178,
      "eval_samples_per_second": 1027.58,
      "eval_steps_per_second": 4.058,
      "step": 41208
    },
    {
      "epoch": 808.04,
      "learning_rate": 3.966088238536492e-05,
      "loss": 0.3915,
      "step": 41210
    },
    {
      "epoch": 808.24,
      "learning_rate": 3.962514209491254e-05,
      "loss": 0.3964,
      "step": 41220
    },
    {
      "epoch": 808.43,
      "learning_rate": 3.958941213312973e-05,
      "loss": 0.3962,
      "step": 41230
    },
    {
      "epoch": 808.63,
      "learning_rate": 3.955369251044884e-05,
      "loss": 0.3923,
      "step": 41240
    },
    {
      "epoch": 808.82,
      "learning_rate": 3.951798323729925e-05,
      "loss": 0.397,
      "step": 41250
    },
    {
      "epoch": 809.0,
      "eval_loss": 0.40183350443840027,
      "eval_runtime": 2.2856,
      "eval_samples_per_second": 997.107,
      "eval_steps_per_second": 3.938,
      "step": 41259
    },
    {
      "epoch": 809.02,
      "learning_rate": 3.948228432410722e-05,
      "loss": 0.3932,
      "step": 41260
    },
    {
      "epoch": 809.22,
      "learning_rate": 3.944659578129602e-05,
      "loss": 0.3923,
      "step": 41270
    },
    {
      "epoch": 809.41,
      "learning_rate": 3.9410917619285926e-05,
      "loss": 0.3966,
      "step": 41280
    },
    {
      "epoch": 809.61,
      "learning_rate": 3.9375249848494184e-05,
      "loss": 0.3941,
      "step": 41290
    },
    {
      "epoch": 809.8,
      "learning_rate": 3.9339592479335e-05,
      "loss": 0.3929,
      "step": 41300
    },
    {
      "epoch": 810.0,
      "learning_rate": 3.930394552221948e-05,
      "loss": 0.3984,
      "step": 41310
    },
    {
      "epoch": 810.0,
      "eval_loss": 0.4029523730278015,
      "eval_runtime": 2.225,
      "eval_samples_per_second": 1024.248,
      "eval_steps_per_second": 4.045,
      "step": 41310
    },
    {
      "epoch": 810.2,
      "learning_rate": 3.9268308987555794e-05,
      "loss": 0.3987,
      "step": 41320
    },
    {
      "epoch": 810.39,
      "learning_rate": 3.9232682885748965e-05,
      "loss": 0.3974,
      "step": 41330
    },
    {
      "epoch": 810.59,
      "learning_rate": 3.9197067227201044e-05,
      "loss": 0.3971,
      "step": 41340
    },
    {
      "epoch": 810.78,
      "learning_rate": 3.916146202231105e-05,
      "loss": 0.3933,
      "step": 41350
    },
    {
      "epoch": 810.98,
      "learning_rate": 3.912586728147482e-05,
      "loss": 0.3925,
      "step": 41360
    },
    {
      "epoch": 811.0,
      "eval_loss": 0.40738365054130554,
      "eval_runtime": 2.2715,
      "eval_samples_per_second": 1003.286,
      "eval_steps_per_second": 3.962,
      "step": 41361
    },
    {
      "epoch": 811.18,
      "learning_rate": 3.9090283015085305e-05,
      "loss": 0.4008,
      "step": 41370
    },
    {
      "epoch": 811.37,
      "learning_rate": 3.905470923353224e-05,
      "loss": 0.3922,
      "step": 41380
    },
    {
      "epoch": 811.57,
      "learning_rate": 3.901914594720247e-05,
      "loss": 0.3944,
      "step": 41390
    },
    {
      "epoch": 811.76,
      "learning_rate": 3.8983593166479635e-05,
      "loss": 0.3957,
      "step": 41400
    },
    {
      "epoch": 811.96,
      "learning_rate": 3.894805090174432e-05,
      "loss": 0.398,
      "step": 41410
    },
    {
      "epoch": 812.0,
      "eval_loss": 0.4031858444213867,
      "eval_runtime": 2.2163,
      "eval_samples_per_second": 1028.271,
      "eval_steps_per_second": 4.061,
      "step": 41412
    },
    {
      "epoch": 812.16,
      "learning_rate": 3.891251916337413e-05,
      "loss": 0.3923,
      "step": 41420
    },
    {
      "epoch": 812.35,
      "learning_rate": 3.8876997961743495e-05,
      "loss": 0.3998,
      "step": 41430
    },
    {
      "epoch": 812.55,
      "learning_rate": 3.8841487307223826e-05,
      "loss": 0.393,
      "step": 41440
    },
    {
      "epoch": 812.75,
      "learning_rate": 3.880598721018346e-05,
      "loss": 0.3957,
      "step": 41450
    },
    {
      "epoch": 812.94,
      "learning_rate": 3.8770497680987645e-05,
      "loss": 0.4,
      "step": 41460
    },
    {
      "epoch": 813.0,
      "eval_loss": 0.3986700773239136,
      "eval_runtime": 2.2742,
      "eval_samples_per_second": 1002.097,
      "eval_steps_per_second": 3.957,
      "step": 41463
    },
    {
      "epoch": 813.14,
      "learning_rate": 3.873501872999851e-05,
      "loss": 0.392,
      "step": 41470
    },
    {
      "epoch": 813.33,
      "learning_rate": 3.8699550367575105e-05,
      "loss": 0.3931,
      "step": 41480
    },
    {
      "epoch": 813.53,
      "learning_rate": 3.8664092604073404e-05,
      "loss": 0.3973,
      "step": 41490
    },
    {
      "epoch": 813.73,
      "learning_rate": 3.862864544984628e-05,
      "loss": 0.3959,
      "step": 41500
    },
    {
      "epoch": 813.92,
      "learning_rate": 3.8593208915243566e-05,
      "loss": 0.3943,
      "step": 41510
    },
    {
      "epoch": 814.0,
      "eval_loss": 0.40154093503952026,
      "eval_runtime": 2.3168,
      "eval_samples_per_second": 983.691,
      "eval_steps_per_second": 3.885,
      "step": 41514
    },
    {
      "epoch": 814.12,
      "learning_rate": 3.855778301061188e-05,
      "loss": 0.4014,
      "step": 41520
    },
    {
      "epoch": 814.31,
      "learning_rate": 3.852236774629483e-05,
      "loss": 0.3984,
      "step": 41530
    },
    {
      "epoch": 814.51,
      "learning_rate": 3.848696313263284e-05,
      "loss": 0.3954,
      "step": 41540
    },
    {
      "epoch": 814.71,
      "learning_rate": 3.8451569179963295e-05,
      "loss": 0.3955,
      "step": 41550
    },
    {
      "epoch": 814.9,
      "learning_rate": 3.8416185898620465e-05,
      "loss": 0.3973,
      "step": 41560
    },
    {
      "epoch": 815.0,
      "eval_loss": 0.3962329924106598,
      "eval_runtime": 2.2968,
      "eval_samples_per_second": 992.272,
      "eval_steps_per_second": 3.919,
      "step": 41565
    },
    {
      "epoch": 815.1,
      "learning_rate": 3.838081329893543e-05,
      "loss": 0.3943,
      "step": 41570
    },
    {
      "epoch": 815.29,
      "learning_rate": 3.834545139123626e-05,
      "loss": 0.3969,
      "step": 41580
    },
    {
      "epoch": 815.49,
      "learning_rate": 3.831010018584774e-05,
      "loss": 0.3928,
      "step": 41590
    },
    {
      "epoch": 815.69,
      "learning_rate": 3.827475969309177e-05,
      "loss": 0.3924,
      "step": 41600
    },
    {
      "epoch": 815.88,
      "learning_rate": 3.823942992328691e-05,
      "loss": 0.3922,
      "step": 41610
    },
    {
      "epoch": 816.0,
      "eval_loss": 0.403202623128891,
      "eval_runtime": 2.1921,
      "eval_samples_per_second": 1039.664,
      "eval_steps_per_second": 4.106,
      "step": 41616
    },
    {
      "epoch": 816.08,
      "learning_rate": 3.8204110886748645e-05,
      "loss": 0.3916,
      "step": 41620
    },
    {
      "epoch": 816.27,
      "learning_rate": 3.816880259378941e-05,
      "loss": 0.393,
      "step": 41630
    },
    {
      "epoch": 816.47,
      "learning_rate": 3.813350505471836e-05,
      "loss": 0.3974,
      "step": 41640
    },
    {
      "epoch": 816.67,
      "learning_rate": 3.809821827984164e-05,
      "loss": 0.3995,
      "step": 41650
    },
    {
      "epoch": 816.86,
      "learning_rate": 3.806294227946219e-05,
      "loss": 0.3902,
      "step": 41660
    },
    {
      "epoch": 817.0,
      "eval_loss": 0.3992672860622406,
      "eval_runtime": 2.2198,
      "eval_samples_per_second": 1026.655,
      "eval_steps_per_second": 4.054,
      "step": 41667
    },
    {
      "epoch": 817.06,
      "learning_rate": 3.8027677063879836e-05,
      "loss": 0.3939,
      "step": 41670
    },
    {
      "epoch": 817.25,
      "learning_rate": 3.799242264339123e-05,
      "loss": 0.3945,
      "step": 41680
    },
    {
      "epoch": 817.45,
      "learning_rate": 3.7957179028289835e-05,
      "loss": 0.3941,
      "step": 41690
    },
    {
      "epoch": 817.65,
      "learning_rate": 3.792194622886602e-05,
      "loss": 0.3934,
      "step": 41700
    },
    {
      "epoch": 817.84,
      "learning_rate": 3.788672425540699e-05,
      "loss": 0.3942,
      "step": 41710
    },
    {
      "epoch": 818.0,
      "eval_loss": 0.40182411670684814,
      "eval_runtime": 2.2756,
      "eval_samples_per_second": 1001.5,
      "eval_steps_per_second": 3.955,
      "step": 41718
    },
    {
      "epoch": 818.04,
      "learning_rate": 3.78515131181968e-05,
      "loss": 0.4016,
      "step": 41720
    },
    {
      "epoch": 818.24,
      "learning_rate": 3.781631282751629e-05,
      "loss": 0.3948,
      "step": 41730
    },
    {
      "epoch": 818.43,
      "learning_rate": 3.7781123393643125e-05,
      "loss": 0.3937,
      "step": 41740
    },
    {
      "epoch": 818.63,
      "learning_rate": 3.7745944826851866e-05,
      "loss": 0.3977,
      "step": 41750
    },
    {
      "epoch": 818.82,
      "learning_rate": 3.771077713741388e-05,
      "loss": 0.3994,
      "step": 41760
    },
    {
      "epoch": 819.0,
      "eval_loss": 0.40313833951950073,
      "eval_runtime": 2.2345,
      "eval_samples_per_second": 1019.911,
      "eval_steps_per_second": 4.028,
      "step": 41769
    },
    {
      "epoch": 819.02,
      "learning_rate": 3.767562033559736e-05,
      "loss": 0.3932,
      "step": 41770
    },
    {
      "epoch": 819.22,
      "learning_rate": 3.7640474431667264e-05,
      "loss": 0.391,
      "step": 41780
    },
    {
      "epoch": 819.41,
      "learning_rate": 3.760533943588546e-05,
      "loss": 0.3949,
      "step": 41790
    },
    {
      "epoch": 819.61,
      "learning_rate": 3.757021535851053e-05,
      "loss": 0.3966,
      "step": 41800
    },
    {
      "epoch": 819.8,
      "learning_rate": 3.753510220979795e-05,
      "loss": 0.3985,
      "step": 41810
    },
    {
      "epoch": 820.0,
      "learning_rate": 3.750000000000001e-05,
      "loss": 0.3959,
      "step": 41820
    },
    {
      "epoch": 820.0,
      "eval_loss": 0.4008371829986572,
      "eval_runtime": 2.3152,
      "eval_samples_per_second": 984.368,
      "eval_steps_per_second": 3.887,
      "step": 41820
    },
    {
      "epoch": 820.2,
      "learning_rate": 3.746490873936571e-05,
      "loss": 0.396,
      "step": 41830
    },
    {
      "epoch": 820.39,
      "learning_rate": 3.742982843814097e-05,
      "loss": 0.3978,
      "step": 41840
    },
    {
      "epoch": 820.59,
      "learning_rate": 3.73947591065684e-05,
      "loss": 0.3908,
      "step": 41850
    },
    {
      "epoch": 820.78,
      "learning_rate": 3.73597007548875e-05,
      "loss": 0.4008,
      "step": 41860
    },
    {
      "epoch": 820.98,
      "learning_rate": 3.732465339333454e-05,
      "loss": 0.3911,
      "step": 41870
    },
    {
      "epoch": 821.0,
      "eval_loss": 0.4035691022872925,
      "eval_runtime": 2.3143,
      "eval_samples_per_second": 984.737,
      "eval_steps_per_second": 3.889,
      "step": 41871
    },
    {
      "epoch": 821.18,
      "learning_rate": 3.728961703214252e-05,
      "loss": 0.3986,
      "step": 41880
    },
    {
      "epoch": 821.37,
      "learning_rate": 3.7254591681541327e-05,
      "loss": 0.3976,
      "step": 41890
    },
    {
      "epoch": 821.57,
      "learning_rate": 3.721957735175754e-05,
      "loss": 0.3909,
      "step": 41900
    },
    {
      "epoch": 821.76,
      "learning_rate": 3.7184574053014585e-05,
      "loss": 0.3977,
      "step": 41910
    },
    {
      "epoch": 821.96,
      "learning_rate": 3.714958179553263e-05,
      "loss": 0.3941,
      "step": 41920
    },
    {
      "epoch": 822.0,
      "eval_loss": 0.3997298777103424,
      "eval_runtime": 2.3656,
      "eval_samples_per_second": 963.412,
      "eval_steps_per_second": 3.805,
      "step": 41922
    },
    {
      "epoch": 822.16,
      "learning_rate": 3.7114600589528675e-05,
      "loss": 0.3965,
      "step": 41930
    },
    {
      "epoch": 822.35,
      "learning_rate": 3.707963044521642e-05,
      "loss": 0.3952,
      "step": 41940
    },
    {
      "epoch": 822.55,
      "learning_rate": 3.704467137280635e-05,
      "loss": 0.3936,
      "step": 41950
    },
    {
      "epoch": 822.75,
      "learning_rate": 3.700972338250574e-05,
      "loss": 0.3961,
      "step": 41960
    },
    {
      "epoch": 822.94,
      "learning_rate": 3.697478648451864e-05,
      "loss": 0.3936,
      "step": 41970
    },
    {
      "epoch": 823.0,
      "eval_loss": 0.3970935344696045,
      "eval_runtime": 2.2729,
      "eval_samples_per_second": 1002.69,
      "eval_steps_per_second": 3.96,
      "step": 41973
    },
    {
      "epoch": 823.14,
      "learning_rate": 3.693986068904588e-05,
      "loss": 0.3919,
      "step": 41980
    },
    {
      "epoch": 823.33,
      "learning_rate": 3.6904946006284936e-05,
      "loss": 0.3954,
      "step": 41990
    },
    {
      "epoch": 823.53,
      "learning_rate": 3.6870042446430185e-05,
      "loss": 0.3947,
      "step": 42000
    },
    {
      "epoch": 823.73,
      "learning_rate": 3.683515001967264e-05,
      "loss": 0.391,
      "step": 42010
    },
    {
      "epoch": 823.92,
      "learning_rate": 3.680026873620012e-05,
      "loss": 0.397,
      "step": 42020
    },
    {
      "epoch": 824.0,
      "eval_loss": 0.4010617733001709,
      "eval_runtime": 2.2259,
      "eval_samples_per_second": 1023.865,
      "eval_steps_per_second": 4.043,
      "step": 42024
    },
    {
      "epoch": 824.12,
      "learning_rate": 3.676539860619723e-05,
      "loss": 0.393,
      "step": 42030
    },
    {
      "epoch": 824.31,
      "learning_rate": 3.67305396398452e-05,
      "loss": 0.392,
      "step": 42040
    },
    {
      "epoch": 824.51,
      "learning_rate": 3.669569184732213e-05,
      "loss": 0.3962,
      "step": 42050
    },
    {
      "epoch": 824.71,
      "learning_rate": 3.666085523880274e-05,
      "loss": 0.3946,
      "step": 42060
    },
    {
      "epoch": 824.9,
      "learning_rate": 3.662602982445859e-05,
      "loss": 0.3974,
      "step": 42070
    },
    {
      "epoch": 825.0,
      "eval_loss": 0.3963702917098999,
      "eval_runtime": 2.2579,
      "eval_samples_per_second": 1009.332,
      "eval_steps_per_second": 3.986,
      "step": 42075
    },
    {
      "epoch": 825.1,
      "learning_rate": 3.659121561445792e-05,
      "loss": 0.3919,
      "step": 42080
    },
    {
      "epoch": 825.29,
      "learning_rate": 3.655641261896567e-05,
      "loss": 0.3924,
      "step": 42090
    },
    {
      "epoch": 825.49,
      "learning_rate": 3.6521620848143584e-05,
      "loss": 0.3921,
      "step": 42100
    },
    {
      "epoch": 825.69,
      "learning_rate": 3.648684031215004e-05,
      "loss": 0.398,
      "step": 42110
    },
    {
      "epoch": 825.88,
      "learning_rate": 3.6452071021140184e-05,
      "loss": 0.3921,
      "step": 42120
    },
    {
      "epoch": 826.0,
      "eval_loss": 0.4010373055934906,
      "eval_runtime": 2.3877,
      "eval_samples_per_second": 954.483,
      "eval_steps_per_second": 3.769,
      "step": 42126
    },
    {
      "epoch": 826.08,
      "learning_rate": 3.64173129852659e-05,
      "loss": 0.3915,
      "step": 42130
    },
    {
      "epoch": 826.27,
      "learning_rate": 3.638256621467577e-05,
      "loss": 0.3926,
      "step": 42140
    },
    {
      "epoch": 826.47,
      "learning_rate": 3.634783071951506e-05,
      "loss": 0.393,
      "step": 42150
    },
    {
      "epoch": 826.67,
      "learning_rate": 3.631310650992572e-05,
      "loss": 0.3911,
      "step": 42160
    },
    {
      "epoch": 826.86,
      "learning_rate": 3.6278393596046476e-05,
      "loss": 0.3961,
      "step": 42170
    },
    {
      "epoch": 827.0,
      "eval_loss": 0.401947021484375,
      "eval_runtime": 2.2833,
      "eval_samples_per_second": 998.113,
      "eval_steps_per_second": 3.942,
      "step": 42177
    },
    {
      "epoch": 827.06,
      "learning_rate": 3.624369198801272e-05,
      "loss": 0.3977,
      "step": 42180
    },
    {
      "epoch": 827.25,
      "learning_rate": 3.620900169595659e-05,
      "loss": 0.3955,
      "step": 42190
    },
    {
      "epoch": 827.45,
      "learning_rate": 3.617432273000681e-05,
      "loss": 0.3979,
      "step": 42200
    },
    {
      "epoch": 827.65,
      "learning_rate": 3.613965510028893e-05,
      "loss": 0.3954,
      "step": 42210
    },
    {
      "epoch": 827.84,
      "learning_rate": 3.610499881692506e-05,
      "loss": 0.3912,
      "step": 42220
    },
    {
      "epoch": 828.0,
      "eval_loss": 0.4004402756690979,
      "eval_runtime": 2.3254,
      "eval_samples_per_second": 980.067,
      "eval_steps_per_second": 3.87,
      "step": 42228
    },
    {
      "epoch": 828.04,
      "learning_rate": 3.607035389003409e-05,
      "loss": 0.391,
      "step": 42230
    },
    {
      "epoch": 828.24,
      "learning_rate": 3.60357203297316e-05,
      "loss": 0.3938,
      "step": 42240
    },
    {
      "epoch": 828.43,
      "learning_rate": 3.6001098146129756e-05,
      "loss": 0.3945,
      "step": 42250
    },
    {
      "epoch": 828.63,
      "learning_rate": 3.596648734933752e-05,
      "loss": 0.3921,
      "step": 42260
    },
    {
      "epoch": 828.82,
      "learning_rate": 3.5931887949460425e-05,
      "loss": 0.3939,
      "step": 42270
    },
    {
      "epoch": 829.0,
      "eval_loss": 0.39803311228752136,
      "eval_runtime": 2.2329,
      "eval_samples_per_second": 1020.649,
      "eval_steps_per_second": 4.031,
      "step": 42279
    },
    {
      "epoch": 829.02,
      "learning_rate": 3.5897299956600735e-05,
      "loss": 0.4018,
      "step": 42280
    },
    {
      "epoch": 829.22,
      "learning_rate": 3.586272338085742e-05,
      "loss": 0.3925,
      "step": 42290
    },
    {
      "epoch": 829.41,
      "learning_rate": 3.5828158232326e-05,
      "loss": 0.3942,
      "step": 42300
    },
    {
      "epoch": 829.61,
      "learning_rate": 3.5793604521098796e-05,
      "loss": 0.3919,
      "step": 42310
    },
    {
      "epoch": 829.8,
      "learning_rate": 3.5759062257264645e-05,
      "loss": 0.393,
      "step": 42320
    },
    {
      "epoch": 830.0,
      "learning_rate": 3.572453145090916e-05,
      "loss": 0.3917,
      "step": 42330
    },
    {
      "epoch": 830.0,
      "eval_loss": 0.40272367000579834,
      "eval_runtime": 2.3185,
      "eval_samples_per_second": 982.944,
      "eval_steps_per_second": 3.882,
      "step": 42330
    },
    {
      "epoch": 830.2,
      "learning_rate": 3.569001211211456e-05,
      "loss": 0.3938,
      "step": 42340
    },
    {
      "epoch": 830.39,
      "learning_rate": 3.565550425095976e-05,
      "loss": 0.3942,
      "step": 42350
    },
    {
      "epoch": 830.59,
      "learning_rate": 3.562100787752025e-05,
      "loss": 0.3922,
      "step": 42360
    },
    {
      "epoch": 830.78,
      "learning_rate": 3.558652300186817e-05,
      "loss": 0.3926,
      "step": 42370
    },
    {
      "epoch": 830.98,
      "learning_rate": 3.5552049634072366e-05,
      "loss": 0.3977,
      "step": 42380
    },
    {
      "epoch": 831.0,
      "eval_loss": 0.4004882574081421,
      "eval_runtime": 2.3806,
      "eval_samples_per_second": 957.34,
      "eval_steps_per_second": 3.781,
      "step": 42381
    },
    {
      "epoch": 831.18,
      "learning_rate": 3.55175877841983e-05,
      "loss": 0.3928,
      "step": 42390
    },
    {
      "epoch": 831.37,
      "learning_rate": 3.548313746230809e-05,
      "loss": 0.3944,
      "step": 42400
    },
    {
      "epoch": 831.57,
      "learning_rate": 3.544869867846039e-05,
      "loss": 0.3948,
      "step": 42410
    },
    {
      "epoch": 831.76,
      "learning_rate": 3.541427144271064e-05,
      "loss": 0.392,
      "step": 42420
    },
    {
      "epoch": 831.96,
      "learning_rate": 3.537985576511074e-05,
      "loss": 0.3881,
      "step": 42430
    },
    {
      "epoch": 832.0,
      "eval_loss": 0.39829736948013306,
      "eval_runtime": 2.2221,
      "eval_samples_per_second": 1025.626,
      "eval_steps_per_second": 4.05,
      "step": 42432
    },
    {
      "epoch": 832.16,
      "learning_rate": 3.534545165570934e-05,
      "loss": 0.3913,
      "step": 42440
    },
    {
      "epoch": 832.35,
      "learning_rate": 3.531105912455172e-05,
      "loss": 0.3917,
      "step": 42450
    },
    {
      "epoch": 832.55,
      "learning_rate": 3.5276678181679636e-05,
      "loss": 0.3904,
      "step": 42460
    },
    {
      "epoch": 832.75,
      "learning_rate": 3.524230883713164e-05,
      "loss": 0.3893,
      "step": 42470
    },
    {
      "epoch": 832.94,
      "learning_rate": 3.5207951100942765e-05,
      "loss": 0.3939,
      "step": 42480
    },
    {
      "epoch": 833.0,
      "eval_loss": 0.4025621712207794,
      "eval_runtime": 2.2271,
      "eval_samples_per_second": 1023.286,
      "eval_steps_per_second": 4.041,
      "step": 42483
    },
    {
      "epoch": 833.14,
      "learning_rate": 3.5173604983144714e-05,
      "loss": 0.3946,
      "step": 42490
    },
    {
      "epoch": 833.33,
      "learning_rate": 3.513927049376582e-05,
      "loss": 0.3929,
      "step": 42500
    },
    {
      "epoch": 833.53,
      "learning_rate": 3.5104947642830934e-05,
      "loss": 0.3909,
      "step": 42510
    },
    {
      "epoch": 833.73,
      "learning_rate": 3.5070636440361615e-05,
      "loss": 0.3942,
      "step": 42520
    },
    {
      "epoch": 833.92,
      "learning_rate": 3.5036336896375924e-05,
      "loss": 0.393,
      "step": 42530
    },
    {
      "epoch": 834.0,
      "eval_loss": 0.399141788482666,
      "eval_runtime": 2.1939,
      "eval_samples_per_second": 1038.783,
      "eval_steps_per_second": 4.102,
      "step": 42534
    },
    {
      "epoch": 834.12,
      "learning_rate": 3.500204902088857e-05,
      "loss": 0.3934,
      "step": 42540
    },
    {
      "epoch": 834.31,
      "learning_rate": 3.49677728239109e-05,
      "loss": 0.3953,
      "step": 42550
    },
    {
      "epoch": 834.51,
      "learning_rate": 3.493350831545073e-05,
      "loss": 0.3942,
      "step": 42560
    },
    {
      "epoch": 834.71,
      "learning_rate": 3.4899255505512593e-05,
      "loss": 0.394,
      "step": 42570
    },
    {
      "epoch": 834.9,
      "learning_rate": 3.4865014404097475e-05,
      "loss": 0.3928,
      "step": 42580
    },
    {
      "epoch": 835.0,
      "eval_loss": 0.398049920797348,
      "eval_runtime": 2.3222,
      "eval_samples_per_second": 981.383,
      "eval_steps_per_second": 3.876,
      "step": 42585
    },
    {
      "epoch": 835.1,
      "learning_rate": 3.483078502120307e-05,
      "loss": 0.3925,
      "step": 42590
    },
    {
      "epoch": 835.29,
      "learning_rate": 3.4796567366823564e-05,
      "loss": 0.3931,
      "step": 42600
    },
    {
      "epoch": 835.49,
      "learning_rate": 3.47623614509498e-05,
      "loss": 0.3872,
      "step": 42610
    },
    {
      "epoch": 835.69,
      "learning_rate": 3.47281672835691e-05,
      "loss": 0.392,
      "step": 42620
    },
    {
      "epoch": 835.88,
      "learning_rate": 3.4693984874665384e-05,
      "loss": 0.394,
      "step": 42630
    },
    {
      "epoch": 836.0,
      "eval_loss": 0.39526310563087463,
      "eval_runtime": 2.2715,
      "eval_samples_per_second": 1003.309,
      "eval_steps_per_second": 3.962,
      "step": 42636
    },
    {
      "epoch": 836.08,
      "learning_rate": 3.465981423421917e-05,
      "loss": 0.3924,
      "step": 42640
    },
    {
      "epoch": 836.27,
      "learning_rate": 3.462565537220753e-05,
      "loss": 0.3902,
      "step": 42650
    },
    {
      "epoch": 836.47,
      "learning_rate": 3.459150829860411e-05,
      "loss": 0.3939,
      "step": 42660
    },
    {
      "epoch": 836.67,
      "learning_rate": 3.455737302337904e-05,
      "loss": 0.3937,
      "step": 42670
    },
    {
      "epoch": 836.86,
      "learning_rate": 3.452324955649911e-05,
      "loss": 0.3908,
      "step": 42680
    },
    {
      "epoch": 837.0,
      "eval_loss": 0.4002179503440857,
      "eval_runtime": 2.3723,
      "eval_samples_per_second": 960.663,
      "eval_steps_per_second": 3.794,
      "step": 42687
    },
    {
      "epoch": 837.06,
      "learning_rate": 3.448913790792757e-05,
      "loss": 0.3886,
      "step": 42690
    },
    {
      "epoch": 837.25,
      "learning_rate": 3.445503808762429e-05,
      "loss": 0.3923,
      "step": 42700
    },
    {
      "epoch": 837.45,
      "learning_rate": 3.442095010554567e-05,
      "loss": 0.3926,
      "step": 42710
    },
    {
      "epoch": 837.65,
      "learning_rate": 3.4386873971644586e-05,
      "loss": 0.3957,
      "step": 42720
    },
    {
      "epoch": 837.84,
      "learning_rate": 3.4352809695870565e-05,
      "loss": 0.3926,
      "step": 42730
    },
    {
      "epoch": 838.0,
      "eval_loss": 0.4014919400215149,
      "eval_runtime": 2.3297,
      "eval_samples_per_second": 978.232,
      "eval_steps_per_second": 3.863,
      "step": 42738
    },
    {
      "epoch": 838.04,
      "learning_rate": 3.431875728816958e-05,
      "loss": 0.3962,
      "step": 42740
    },
    {
      "epoch": 838.24,
      "learning_rate": 3.4284716758484175e-05,
      "loss": 0.3914,
      "step": 42750
    },
    {
      "epoch": 838.43,
      "learning_rate": 3.4250688116753464e-05,
      "loss": 0.392,
      "step": 42760
    },
    {
      "epoch": 838.63,
      "learning_rate": 3.4216671372913005e-05,
      "loss": 0.3918,
      "step": 42770
    },
    {
      "epoch": 838.82,
      "learning_rate": 3.418266653689497e-05,
      "loss": 0.3947,
      "step": 42780
    },
    {
      "epoch": 839.0,
      "eval_loss": 0.3990994989871979,
      "eval_runtime": 2.3005,
      "eval_samples_per_second": 990.663,
      "eval_steps_per_second": 3.912,
      "step": 42789
    },
    {
      "epoch": 839.02,
      "learning_rate": 3.414867361862797e-05,
      "loss": 0.3898,
      "step": 42790
    },
    {
      "epoch": 839.22,
      "learning_rate": 3.41146926280372e-05,
      "loss": 0.3938,
      "step": 42800
    },
    {
      "epoch": 839.41,
      "learning_rate": 3.408072357504435e-05,
      "loss": 0.3916,
      "step": 42810
    },
    {
      "epoch": 839.61,
      "learning_rate": 3.404676646956765e-05,
      "loss": 0.3888,
      "step": 42820
    },
    {
      "epoch": 839.8,
      "learning_rate": 3.4012821321521806e-05,
      "loss": 0.3912,
      "step": 42830
    },
    {
      "epoch": 840.0,
      "learning_rate": 3.3978888140817996e-05,
      "loss": 0.3965,
      "step": 42840
    },
    {
      "epoch": 840.0,
      "eval_loss": 0.3969307243824005,
      "eval_runtime": 2.2053,
      "eval_samples_per_second": 1033.431,
      "eval_steps_per_second": 4.081,
      "step": 42840
    },
    {
      "epoch": 840.2,
      "learning_rate": 3.394496693736399e-05,
      "loss": 0.3947,
      "step": 42850
    },
    {
      "epoch": 840.39,
      "learning_rate": 3.391105772106403e-05,
      "loss": 0.3936,
      "step": 42860
    },
    {
      "epoch": 840.59,
      "learning_rate": 3.387716050181886e-05,
      "loss": 0.3952,
      "step": 42870
    },
    {
      "epoch": 840.78,
      "learning_rate": 3.384327528952568e-05,
      "loss": 0.3956,
      "step": 42880
    },
    {
      "epoch": 840.98,
      "learning_rate": 3.380940209407825e-05,
      "loss": 0.3934,
      "step": 42890
    },
    {
      "epoch": 841.0,
      "eval_loss": 0.4002283215522766,
      "eval_runtime": 2.2711,
      "eval_samples_per_second": 1003.473,
      "eval_steps_per_second": 3.963,
      "step": 42891
    },
    {
      "epoch": 841.18,
      "learning_rate": 3.377554092536674e-05,
      "loss": 0.3937,
      "step": 42900
    },
    {
      "epoch": 841.37,
      "learning_rate": 3.374169179327789e-05,
      "loss": 0.3956,
      "step": 42910
    },
    {
      "epoch": 841.57,
      "learning_rate": 3.370785470769491e-05,
      "loss": 0.3965,
      "step": 42920
    },
    {
      "epoch": 841.76,
      "learning_rate": 3.367402967849743e-05,
      "loss": 0.395,
      "step": 42930
    },
    {
      "epoch": 841.96,
      "learning_rate": 3.364021671556165e-05,
      "loss": 0.3916,
      "step": 42940
    },
    {
      "epoch": 842.0,
      "eval_loss": 0.39687296748161316,
      "eval_runtime": 2.3553,
      "eval_samples_per_second": 967.62,
      "eval_steps_per_second": 3.821,
      "step": 42942
    },
    {
      "epoch": 842.16,
      "learning_rate": 3.360641582876015e-05,
      "loss": 0.3895,
      "step": 42950
    },
    {
      "epoch": 842.35,
      "learning_rate": 3.357262702796206e-05,
      "loss": 0.3921,
      "step": 42960
    },
    {
      "epoch": 842.55,
      "learning_rate": 3.3538850323032984e-05,
      "loss": 0.3965,
      "step": 42970
    },
    {
      "epoch": 842.75,
      "learning_rate": 3.3505085723834917e-05,
      "loss": 0.3899,
      "step": 42980
    },
    {
      "epoch": 842.94,
      "learning_rate": 3.3471333240226414e-05,
      "loss": 0.3887,
      "step": 42990
    },
    {
      "epoch": 843.0,
      "eval_loss": 0.39406681060791016,
      "eval_runtime": 2.385,
      "eval_samples_per_second": 955.561,
      "eval_steps_per_second": 3.774,
      "step": 42993
    },
    {
      "epoch": 843.14,
      "learning_rate": 3.3437592882062406e-05,
      "loss": 0.3873,
      "step": 43000
    },
    {
      "epoch": 843.33,
      "learning_rate": 3.340386465919434e-05,
      "loss": 0.3939,
      "step": 43010
    },
    {
      "epoch": 843.53,
      "learning_rate": 3.3370148581470106e-05,
      "loss": 0.3885,
      "step": 43020
    },
    {
      "epoch": 843.73,
      "learning_rate": 3.333644465873408e-05,
      "loss": 0.3911,
      "step": 43030
    },
    {
      "epoch": 843.92,
      "learning_rate": 3.3302752900827025e-05,
      "loss": 0.3938,
      "step": 43040
    },
    {
      "epoch": 844.0,
      "eval_loss": 0.3971950113773346,
      "eval_runtime": 2.3473,
      "eval_samples_per_second": 970.919,
      "eval_steps_per_second": 3.834,
      "step": 43044
    },
    {
      "epoch": 844.12,
      "learning_rate": 3.3269073317586156e-05,
      "loss": 0.39,
      "step": 43050
    },
    {
      "epoch": 844.31,
      "learning_rate": 3.32354059188452e-05,
      "loss": 0.3895,
      "step": 43060
    },
    {
      "epoch": 844.51,
      "learning_rate": 3.3201750714434264e-05,
      "loss": 0.3975,
      "step": 43070
    },
    {
      "epoch": 844.71,
      "learning_rate": 3.3168107714179954e-05,
      "loss": 0.3905,
      "step": 43080
    },
    {
      "epoch": 844.9,
      "learning_rate": 3.3134476927905234e-05,
      "loss": 0.3928,
      "step": 43090
    },
    {
      "epoch": 845.0,
      "eval_loss": 0.40146586298942566,
      "eval_runtime": 2.1799,
      "eval_samples_per_second": 1045.449,
      "eval_steps_per_second": 4.129,
      "step": 43095
    },
    {
      "epoch": 845.1,
      "learning_rate": 3.3100858365429575e-05,
      "loss": 0.3932,
      "step": 43100
    },
    {
      "epoch": 845.29,
      "learning_rate": 3.306725203656881e-05,
      "loss": 0.3904,
      "step": 43110
    },
    {
      "epoch": 845.49,
      "learning_rate": 3.303365795113525e-05,
      "loss": 0.392,
      "step": 43120
    },
    {
      "epoch": 845.69,
      "learning_rate": 3.300007611893766e-05,
      "loss": 0.3893,
      "step": 43130
    },
    {
      "epoch": 845.88,
      "learning_rate": 3.2966506549781134e-05,
      "loss": 0.3948,
      "step": 43140
    },
    {
      "epoch": 846.0,
      "eval_loss": 0.39760321378707886,
      "eval_runtime": 2.3454,
      "eval_samples_per_second": 971.692,
      "eval_steps_per_second": 3.837,
      "step": 43146
    },
    {
      "epoch": 846.08,
      "learning_rate": 3.2932949253467276e-05,
      "loss": 0.395,
      "step": 43150
    },
    {
      "epoch": 846.27,
      "learning_rate": 3.2899404239794034e-05,
      "loss": 0.388,
      "step": 43160
    },
    {
      "epoch": 846.47,
      "learning_rate": 3.2865871518555814e-05,
      "loss": 0.394,
      "step": 43170
    },
    {
      "epoch": 846.67,
      "learning_rate": 3.283235109954345e-05,
      "loss": 0.3921,
      "step": 43180
    },
    {
      "epoch": 846.86,
      "learning_rate": 3.279884299254411e-05,
      "loss": 0.3925,
      "step": 43190
    },
    {
      "epoch": 847.0,
      "eval_loss": 0.3952951729297638,
      "eval_runtime": 2.212,
      "eval_samples_per_second": 1030.312,
      "eval_steps_per_second": 4.069,
      "step": 43197
    },
    {
      "epoch": 847.06,
      "learning_rate": 3.276534720734147e-05,
      "loss": 0.3906,
      "step": 43200
    },
    {
      "epoch": 847.25,
      "learning_rate": 3.273186375371549e-05,
      "loss": 0.3919,
      "step": 43210
    },
    {
      "epoch": 847.45,
      "learning_rate": 3.269839264144263e-05,
      "loss": 0.3918,
      "step": 43220
    },
    {
      "epoch": 847.65,
      "learning_rate": 3.266493388029572e-05,
      "loss": 0.3954,
      "step": 43230
    },
    {
      "epoch": 847.84,
      "learning_rate": 3.263148748004393e-05,
      "loss": 0.3876,
      "step": 43240
    },
    {
      "epoch": 848.0,
      "eval_loss": 0.3958490490913391,
      "eval_runtime": 2.2194,
      "eval_samples_per_second": 1026.867,
      "eval_steps_per_second": 4.055,
      "step": 43248
    },
    {
      "epoch": 848.04,
      "learning_rate": 3.2598053450452914e-05,
      "loss": 0.3967,
      "step": 43250
    },
    {
      "epoch": 848.24,
      "learning_rate": 3.2564631801284604e-05,
      "loss": 0.3884,
      "step": 43260
    },
    {
      "epoch": 848.43,
      "learning_rate": 3.253122254229742e-05,
      "loss": 0.3852,
      "step": 43270
    },
    {
      "epoch": 848.63,
      "learning_rate": 3.24978256832461e-05,
      "loss": 0.3918,
      "step": 43280
    },
    {
      "epoch": 848.82,
      "learning_rate": 3.246444123388181e-05,
      "loss": 0.3857,
      "step": 43290
    },
    {
      "epoch": 849.0,
      "eval_loss": 0.39667844772338867,
      "eval_runtime": 2.3103,
      "eval_samples_per_second": 986.453,
      "eval_steps_per_second": 3.896,
      "step": 43299
    },
    {
      "epoch": 849.02,
      "learning_rate": 3.2431069203952046e-05,
      "loss": 0.393,
      "step": 43300
    },
    {
      "epoch": 849.22,
      "learning_rate": 3.239770960320067e-05,
      "loss": 0.391,
      "step": 43310
    },
    {
      "epoch": 849.41,
      "learning_rate": 3.236436244136797e-05,
      "loss": 0.3919,
      "step": 43320
    },
    {
      "epoch": 849.61,
      "learning_rate": 3.233102772819057e-05,
      "loss": 0.3887,
      "step": 43330
    },
    {
      "epoch": 849.8,
      "learning_rate": 3.22977054734015e-05,
      "loss": 0.3876,
      "step": 43340
    },
    {
      "epoch": 850.0,
      "learning_rate": 3.226439568673003e-05,
      "loss": 0.389,
      "step": 43350
    },
    {
      "epoch": 850.0,
      "eval_loss": 0.3974584639072418,
      "eval_runtime": 2.2721,
      "eval_samples_per_second": 1003.056,
      "eval_steps_per_second": 3.961,
      "step": 43350
    },
    {
      "epoch": 850.2,
      "learning_rate": 3.2231098377901966e-05,
      "loss": 0.3892,
      "step": 43360
    },
    {
      "epoch": 850.39,
      "learning_rate": 3.21978135566393e-05,
      "loss": 0.3901,
      "step": 43370
    },
    {
      "epoch": 850.59,
      "learning_rate": 3.21645412326605e-05,
      "loss": 0.3902,
      "step": 43380
    },
    {
      "epoch": 850.78,
      "learning_rate": 3.2131281415680365e-05,
      "loss": 0.3908,
      "step": 43390
    },
    {
      "epoch": 850.98,
      "learning_rate": 3.2098034115409956e-05,
      "loss": 0.3905,
      "step": 43400
    },
    {
      "epoch": 851.0,
      "eval_loss": 0.3915613889694214,
      "eval_runtime": 2.2983,
      "eval_samples_per_second": 991.585,
      "eval_steps_per_second": 3.916,
      "step": 43401
    },
    {
      "epoch": 851.18,
      "learning_rate": 3.206479934155681e-05,
      "loss": 0.3891,
      "step": 43410
    },
    {
      "epoch": 851.37,
      "learning_rate": 3.203157710382469e-05,
      "loss": 0.3889,
      "step": 43420
    },
    {
      "epoch": 851.57,
      "learning_rate": 3.199836741191375e-05,
      "loss": 0.3898,
      "step": 43430
    },
    {
      "epoch": 851.76,
      "learning_rate": 3.1965170275520534e-05,
      "loss": 0.3915,
      "step": 43440
    },
    {
      "epoch": 851.96,
      "learning_rate": 3.1931985704337804e-05,
      "loss": 0.389,
      "step": 43450
    },
    {
      "epoch": 852.0,
      "eval_loss": 0.3987075686454773,
      "eval_runtime": 2.2702,
      "eval_samples_per_second": 1003.882,
      "eval_steps_per_second": 3.964,
      "step": 43452
    },
    {
      "epoch": 852.16,
      "learning_rate": 3.189881370805475e-05,
      "loss": 0.3933,
      "step": 43460
    },
    {
      "epoch": 852.35,
      "learning_rate": 3.1865654296356835e-05,
      "loss": 0.3869,
      "step": 43470
    },
    {
      "epoch": 852.55,
      "learning_rate": 3.183250747892587e-05,
      "loss": 0.39,
      "step": 43480
    },
    {
      "epoch": 852.75,
      "learning_rate": 3.1799373265439985e-05,
      "loss": 0.391,
      "step": 43490
    },
    {
      "epoch": 852.94,
      "learning_rate": 3.1766251665573676e-05,
      "loss": 0.3872,
      "step": 43500
    },
    {
      "epoch": 853.0,
      "eval_loss": 0.39647892117500305,
      "eval_runtime": 2.3604,
      "eval_samples_per_second": 965.511,
      "eval_steps_per_second": 3.813,
      "step": 43503
    },
    {
      "epoch": 853.14,
      "learning_rate": 3.173314268899767e-05,
      "loss": 0.3842,
      "step": 43510
    },
    {
      "epoch": 853.33,
      "learning_rate": 3.170004634537903e-05,
      "loss": 0.3962,
      "step": 43520
    },
    {
      "epoch": 853.53,
      "learning_rate": 3.1666962644381165e-05,
      "loss": 0.3919,
      "step": 43530
    },
    {
      "epoch": 853.73,
      "learning_rate": 3.1633891595663795e-05,
      "loss": 0.3922,
      "step": 43540
    },
    {
      "epoch": 853.92,
      "learning_rate": 3.1600833208882954e-05,
      "loss": 0.3902,
      "step": 43550
    },
    {
      "epoch": 854.0,
      "eval_loss": 0.3962956666946411,
      "eval_runtime": 2.2913,
      "eval_samples_per_second": 994.612,
      "eval_steps_per_second": 3.928,
      "step": 43554
    },
    {
      "epoch": 854.12,
      "learning_rate": 3.156778749369088e-05,
      "loss": 0.3889,
      "step": 43560
    },
    {
      "epoch": 854.31,
      "learning_rate": 3.1534754459736256e-05,
      "loss": 0.3916,
      "step": 43570
    },
    {
      "epoch": 854.51,
      "learning_rate": 3.150173411666394e-05,
      "loss": 0.389,
      "step": 43580
    },
    {
      "epoch": 854.71,
      "learning_rate": 3.1468726474115156e-05,
      "loss": 0.3866,
      "step": 43590
    },
    {
      "epoch": 854.9,
      "learning_rate": 3.143573154172743e-05,
      "loss": 0.3883,
      "step": 43600
    },
    {
      "epoch": 855.0,
      "eval_loss": 0.3941084146499634,
      "eval_runtime": 2.2726,
      "eval_samples_per_second": 1002.825,
      "eval_steps_per_second": 3.96,
      "step": 43605
    },
    {
      "epoch": 855.1,
      "learning_rate": 3.1402749329134476e-05,
      "loss": 0.3919,
      "step": 43610
    },
    {
      "epoch": 855.29,
      "learning_rate": 3.1369779845966446e-05,
      "loss": 0.3902,
      "step": 43620
    },
    {
      "epoch": 855.49,
      "learning_rate": 3.133682310184961e-05,
      "loss": 0.3866,
      "step": 43630
    },
    {
      "epoch": 855.69,
      "learning_rate": 3.1303879106406664e-05,
      "loss": 0.39,
      "step": 43640
    },
    {
      "epoch": 855.88,
      "learning_rate": 3.127094786925651e-05,
      "loss": 0.393,
      "step": 43650
    },
    {
      "epoch": 856.0,
      "eval_loss": 0.3944731056690216,
      "eval_runtime": 2.2622,
      "eval_samples_per_second": 1007.445,
      "eval_steps_per_second": 3.979,
      "step": 43656
    },
    {
      "epoch": 856.08,
      "learning_rate": 3.1238029400014305e-05,
      "loss": 0.388,
      "step": 43660
    },
    {
      "epoch": 856.27,
      "learning_rate": 3.120512370829156e-05,
      "loss": 0.3884,
      "step": 43670
    },
    {
      "epoch": 856.47,
      "learning_rate": 3.1172230803695945e-05,
      "loss": 0.3895,
      "step": 43680
    },
    {
      "epoch": 856.67,
      "learning_rate": 3.113935069583147e-05,
      "loss": 0.3919,
      "step": 43690
    },
    {
      "epoch": 856.86,
      "learning_rate": 3.1106483394298416e-05,
      "loss": 0.3908,
      "step": 43700
    },
    {
      "epoch": 857.0,
      "eval_loss": 0.3987371325492859,
      "eval_runtime": 2.2357,
      "eval_samples_per_second": 1019.351,
      "eval_steps_per_second": 4.026,
      "step": 43707
    },
    {
      "epoch": 857.06,
      "learning_rate": 3.107362890869332e-05,
      "loss": 0.3887,
      "step": 43710
    },
    {
      "epoch": 857.25,
      "learning_rate": 3.104078724860892e-05,
      "loss": 0.3931,
      "step": 43720
    },
    {
      "epoch": 857.45,
      "learning_rate": 3.1007958423634235e-05,
      "loss": 0.3914,
      "step": 43730
    },
    {
      "epoch": 857.65,
      "learning_rate": 3.097514244335457e-05,
      "loss": 0.3868,
      "step": 43740
    },
    {
      "epoch": 857.84,
      "learning_rate": 3.094233931735147e-05,
      "loss": 0.3891,
      "step": 43750
    },
    {
      "epoch": 858.0,
      "eval_loss": 0.3969500958919525,
      "eval_runtime": 2.2738,
      "eval_samples_per_second": 1002.285,
      "eval_steps_per_second": 3.958,
      "step": 43758
    },
    {
      "epoch": 858.04,
      "learning_rate": 3.090954905520272e-05,
      "loss": 0.3888,
      "step": 43760
    },
    {
      "epoch": 858.24,
      "learning_rate": 3.087677166648232e-05,
      "loss": 0.3955,
      "step": 43770
    },
    {
      "epoch": 858.43,
      "learning_rate": 3.0844007160760576e-05,
      "loss": 0.3885,
      "step": 43780
    },
    {
      "epoch": 858.63,
      "learning_rate": 3.0811255547603925e-05,
      "loss": 0.3864,
      "step": 43790
    },
    {
      "epoch": 858.82,
      "learning_rate": 3.077851683657517e-05,
      "loss": 0.39,
      "step": 43800
    },
    {
      "epoch": 859.0,
      "eval_loss": 0.3933936655521393,
      "eval_runtime": 2.2192,
      "eval_samples_per_second": 1026.96,
      "eval_steps_per_second": 4.056,
      "step": 43809
    },
    {
      "epoch": 859.02,
      "learning_rate": 3.074579103723327e-05,
      "loss": 0.3814,
      "step": 43810
    },
    {
      "epoch": 859.22,
      "learning_rate": 3.071307815913342e-05,
      "loss": 0.3884,
      "step": 43820
    },
    {
      "epoch": 859.41,
      "learning_rate": 3.068037821182706e-05,
      "loss": 0.3902,
      "step": 43830
    },
    {
      "epoch": 859.61,
      "learning_rate": 3.064769120486182e-05,
      "loss": 0.3885,
      "step": 43840
    },
    {
      "epoch": 859.8,
      "learning_rate": 3.061501714778159e-05,
      "loss": 0.3898,
      "step": 43850
    },
    {
      "epoch": 860.0,
      "learning_rate": 3.05823560501265e-05,
      "loss": 0.3894,
      "step": 43860
    },
    {
      "epoch": 860.0,
      "eval_loss": 0.3981279730796814,
      "eval_runtime": 2.295,
      "eval_samples_per_second": 993.016,
      "eval_steps_per_second": 3.922,
      "step": 43860
    },
    {
      "epoch": 860.2,
      "learning_rate": 3.054970792143282e-05,
      "loss": 0.3903,
      "step": 43870
    },
    {
      "epoch": 860.39,
      "learning_rate": 3.0517072771233103e-05,
      "loss": 0.388,
      "step": 43880
    },
    {
      "epoch": 860.59,
      "learning_rate": 3.0484450609056048e-05,
      "loss": 0.3893,
      "step": 43890
    },
    {
      "epoch": 860.78,
      "learning_rate": 3.0451841444426625e-05,
      "loss": 0.3894,
      "step": 43900
    },
    {
      "epoch": 860.98,
      "learning_rate": 3.0419245286865998e-05,
      "loss": 0.3859,
      "step": 43910
    },
    {
      "epoch": 861.0,
      "eval_loss": 0.39396482706069946,
      "eval_runtime": 2.2654,
      "eval_samples_per_second": 1005.99,
      "eval_steps_per_second": 3.973,
      "step": 43911
    },
    {
      "epoch": 861.18,
      "learning_rate": 3.038666214589148e-05,
      "loss": 0.3893,
      "step": 43920
    },
    {
      "epoch": 861.37,
      "learning_rate": 3.035409203101667e-05,
      "loss": 0.3916,
      "step": 43930
    },
    {
      "epoch": 861.57,
      "learning_rate": 3.032153495175126e-05,
      "loss": 0.3859,
      "step": 43940
    },
    {
      "epoch": 861.76,
      "learning_rate": 3.028899091760121e-05,
      "loss": 0.389,
      "step": 43950
    },
    {
      "epoch": 861.96,
      "learning_rate": 3.025645993806866e-05,
      "loss": 0.3896,
      "step": 43960
    },
    {
      "epoch": 862.0,
      "eval_loss": 0.39559245109558105,
      "eval_runtime": 2.3499,
      "eval_samples_per_second": 969.843,
      "eval_steps_per_second": 3.83,
      "step": 43962
    },
    {
      "epoch": 862.16,
      "learning_rate": 3.022394202265196e-05,
      "loss": 0.3863,
      "step": 43970
    },
    {
      "epoch": 862.35,
      "learning_rate": 3.019143718084559e-05,
      "loss": 0.3895,
      "step": 43980
    },
    {
      "epoch": 862.55,
      "learning_rate": 3.015894542214021e-05,
      "loss": 0.3908,
      "step": 43990
    },
    {
      "epoch": 862.75,
      "learning_rate": 3.0126466756022707e-05,
      "loss": 0.3892,
      "step": 44000
    },
    {
      "epoch": 862.94,
      "learning_rate": 3.0094001191976134e-05,
      "loss": 0.3897,
      "step": 44010
    },
    {
      "epoch": 863.0,
      "eval_loss": 0.3952128291130066,
      "eval_runtime": 2.2684,
      "eval_samples_per_second": 1004.679,
      "eval_steps_per_second": 3.968,
      "step": 44013
    },
    {
      "epoch": 863.14,
      "learning_rate": 3.0061548739479748e-05,
      "loss": 0.3845,
      "step": 44020
    },
    {
      "epoch": 863.33,
      "learning_rate": 3.0029109408008867e-05,
      "loss": 0.3908,
      "step": 44030
    },
    {
      "epoch": 863.53,
      "learning_rate": 2.9996683207035127e-05,
      "loss": 0.3871,
      "step": 44040
    },
    {
      "epoch": 863.73,
      "learning_rate": 2.9964270146026188e-05,
      "loss": 0.3866,
      "step": 44050
    },
    {
      "epoch": 863.92,
      "learning_rate": 2.993187023444597e-05,
      "loss": 0.385,
      "step": 44060
    },
    {
      "epoch": 864.0,
      "eval_loss": 0.3940654695034027,
      "eval_runtime": 2.3365,
      "eval_samples_per_second": 975.387,
      "eval_steps_per_second": 3.852,
      "step": 44064
    },
    {
      "epoch": 864.12,
      "learning_rate": 2.989948348175456e-05,
      "loss": 0.3915,
      "step": 44070
    },
    {
      "epoch": 864.31,
      "learning_rate": 2.98671098974081e-05,
      "loss": 0.389,
      "step": 44080
    },
    {
      "epoch": 864.51,
      "learning_rate": 2.983474949085902e-05,
      "loss": 0.3863,
      "step": 44090
    },
    {
      "epoch": 864.71,
      "learning_rate": 2.9802402271555775e-05,
      "loss": 0.3926,
      "step": 44100
    },
    {
      "epoch": 864.9,
      "learning_rate": 2.9770068248943062e-05,
      "loss": 0.3876,
      "step": 44110
    },
    {
      "epoch": 865.0,
      "eval_loss": 0.3937053680419922,
      "eval_runtime": 2.3814,
      "eval_samples_per_second": 956.993,
      "eval_steps_per_second": 3.779,
      "step": 44115
    },
    {
      "epoch": 865.1,
      "learning_rate": 2.973774743246173e-05,
      "loss": 0.3901,
      "step": 44120
    },
    {
      "epoch": 865.29,
      "learning_rate": 2.9705439831548672e-05,
      "loss": 0.3932,
      "step": 44130
    },
    {
      "epoch": 865.49,
      "learning_rate": 2.967314545563704e-05,
      "loss": 0.3903,
      "step": 44140
    },
    {
      "epoch": 865.69,
      "learning_rate": 2.9640864314156017e-05,
      "loss": 0.3917,
      "step": 44150
    },
    {
      "epoch": 865.88,
      "learning_rate": 2.9608596416531015e-05,
      "loss": 0.3889,
      "step": 44160
    },
    {
      "epoch": 866.0,
      "eval_loss": 0.39745286107063293,
      "eval_runtime": 2.2179,
      "eval_samples_per_second": 1027.526,
      "eval_steps_per_second": 4.058,
      "step": 44166
    },
    {
      "epoch": 866.08,
      "learning_rate": 2.957634177218353e-05,
      "loss": 0.3876,
      "step": 44170
    },
    {
      "epoch": 866.27,
      "learning_rate": 2.954410039053123e-05,
      "loss": 0.3854,
      "step": 44180
    },
    {
      "epoch": 866.47,
      "learning_rate": 2.951187228098785e-05,
      "loss": 0.3888,
      "step": 44190
    },
    {
      "epoch": 866.67,
      "learning_rate": 2.9479657452963253e-05,
      "loss": 0.3906,
      "step": 44200
    },
    {
      "epoch": 866.86,
      "learning_rate": 2.9447455915863477e-05,
      "loss": 0.3926,
      "step": 44210
    },
    {
      "epoch": 867.0,
      "eval_loss": 0.39533084630966187,
      "eval_runtime": 2.2146,
      "eval_samples_per_second": 1029.072,
      "eval_steps_per_second": 4.064,
      "step": 44217
    },
    {
      "epoch": 867.06,
      "learning_rate": 2.9415267679090657e-05,
      "loss": 0.3895,
      "step": 44220
    },
    {
      "epoch": 867.25,
      "learning_rate": 2.938309275204306e-05,
      "loss": 0.3908,
      "step": 44230
    },
    {
      "epoch": 867.45,
      "learning_rate": 2.9350931144115e-05,
      "loss": 0.3886,
      "step": 44240
    },
    {
      "epoch": 867.65,
      "learning_rate": 2.9318782864696995e-05,
      "loss": 0.385,
      "step": 44250
    },
    {
      "epoch": 867.84,
      "learning_rate": 2.928664792317558e-05,
      "loss": 0.3895,
      "step": 44260
    },
    {
      "epoch": 868.0,
      "eval_loss": 0.391824334859848,
      "eval_runtime": 2.2277,
      "eval_samples_per_second": 1023.015,
      "eval_steps_per_second": 4.04,
      "step": 44268
    },
    {
      "epoch": 868.04,
      "learning_rate": 2.925452632893346e-05,
      "loss": 0.3865,
      "step": 44270
    },
    {
      "epoch": 868.24,
      "learning_rate": 2.9222418091349463e-05,
      "loss": 0.3874,
      "step": 44280
    },
    {
      "epoch": 868.43,
      "learning_rate": 2.9190323219798413e-05,
      "loss": 0.3864,
      "step": 44290
    },
    {
      "epoch": 868.63,
      "learning_rate": 2.9158241723651357e-05,
      "loss": 0.3867,
      "step": 44300
    },
    {
      "epoch": 868.82,
      "learning_rate": 2.9126173612275315e-05,
      "loss": 0.3926,
      "step": 44310
    },
    {
      "epoch": 869.0,
      "eval_loss": 0.39258652925491333,
      "eval_runtime": 2.2004,
      "eval_samples_per_second": 1035.742,
      "eval_steps_per_second": 4.09,
      "step": 44319
    },
    {
      "epoch": 869.02,
      "learning_rate": 2.9094118895033494e-05,
      "loss": 0.3904,
      "step": 44320
    },
    {
      "epoch": 869.22,
      "learning_rate": 2.9062077581285187e-05,
      "loss": 0.3853,
      "step": 44330
    },
    {
      "epoch": 869.41,
      "learning_rate": 2.9030049680385685e-05,
      "loss": 0.3888,
      "step": 44340
    },
    {
      "epoch": 869.61,
      "learning_rate": 2.899803520168647e-05,
      "loss": 0.3925,
      "step": 44350
    },
    {
      "epoch": 869.8,
      "learning_rate": 2.8966034154535005e-05,
      "loss": 0.3892,
      "step": 44360
    },
    {
      "epoch": 870.0,
      "learning_rate": 2.893404654827491e-05,
      "loss": 0.3861,
      "step": 44370
    },
    {
      "epoch": 870.0,
      "eval_loss": 0.39331433176994324,
      "eval_runtime": 2.2363,
      "eval_samples_per_second": 1019.085,
      "eval_steps_per_second": 4.024,
      "step": 44370
    },
    {
      "epoch": 870.2,
      "learning_rate": 2.8902072392245856e-05,
      "loss": 0.3868,
      "step": 44380
    },
    {
      "epoch": 870.39,
      "learning_rate": 2.8870111695783603e-05,
      "loss": 0.3874,
      "step": 44390
    },
    {
      "epoch": 870.59,
      "learning_rate": 2.883816446821994e-05,
      "loss": 0.3876,
      "step": 44400
    },
    {
      "epoch": 870.78,
      "learning_rate": 2.880623071888271e-05,
      "loss": 0.386,
      "step": 44410
    },
    {
      "epoch": 870.98,
      "learning_rate": 2.87743104570959e-05,
      "loss": 0.3881,
      "step": 44420
    },
    {
      "epoch": 871.0,
      "eval_loss": 0.39406803250312805,
      "eval_runtime": 2.3068,
      "eval_samples_per_second": 987.965,
      "eval_steps_per_second": 3.902,
      "step": 44421
    },
    {
      "epoch": 871.18,
      "learning_rate": 2.87424036921795e-05,
      "loss": 0.3829,
      "step": 44430
    },
    {
      "epoch": 871.37,
      "learning_rate": 2.8710510433449598e-05,
      "loss": 0.3881,
      "step": 44440
    },
    {
      "epoch": 871.57,
      "learning_rate": 2.8678630690218274e-05,
      "loss": 0.3879,
      "step": 44450
    },
    {
      "epoch": 871.76,
      "learning_rate": 2.864676447179375e-05,
      "loss": 0.3864,
      "step": 44460
    },
    {
      "epoch": 871.96,
      "learning_rate": 2.8614911787480188e-05,
      "loss": 0.3863,
      "step": 44470
    },
    {
      "epoch": 872.0,
      "eval_loss": 0.3938988447189331,
      "eval_runtime": 2.3231,
      "eval_samples_per_second": 981.03,
      "eval_steps_per_second": 3.874,
      "step": 44472
    },
    {
      "epoch": 872.16,
      "learning_rate": 2.8583072646577905e-05,
      "loss": 0.3849,
      "step": 44480
    },
    {
      "epoch": 872.35,
      "learning_rate": 2.8551247058383234e-05,
      "loss": 0.3887,
      "step": 44490
    },
    {
      "epoch": 872.55,
      "learning_rate": 2.8519435032188488e-05,
      "loss": 0.3927,
      "step": 44500
    },
    {
      "epoch": 872.75,
      "learning_rate": 2.8487636577282115e-05,
      "loss": 0.3897,
      "step": 44510
    },
    {
      "epoch": 872.94,
      "learning_rate": 2.8455851702948522e-05,
      "loss": 0.3863,
      "step": 44520
    },
    {
      "epoch": 873.0,
      "eval_loss": 0.3912711441516876,
      "eval_runtime": 2.1836,
      "eval_samples_per_second": 1043.695,
      "eval_steps_per_second": 4.122,
      "step": 44523
    },
    {
      "epoch": 873.14,
      "learning_rate": 2.8424080418468184e-05,
      "loss": 0.392,
      "step": 44530
    },
    {
      "epoch": 873.33,
      "learning_rate": 2.8392322733117654e-05,
      "loss": 0.3873,
      "step": 44540
    },
    {
      "epoch": 873.53,
      "learning_rate": 2.83605786561694e-05,
      "loss": 0.3863,
      "step": 44550
    },
    {
      "epoch": 873.73,
      "learning_rate": 2.832884819689205e-05,
      "loss": 0.3924,
      "step": 44560
    },
    {
      "epoch": 873.92,
      "learning_rate": 2.8297131364550138e-05,
      "loss": 0.386,
      "step": 44570
    },
    {
      "epoch": 874.0,
      "eval_loss": 0.3918991982936859,
      "eval_runtime": 2.2676,
      "eval_samples_per_second": 1005.049,
      "eval_steps_per_second": 3.969,
      "step": 44574
    },
    {
      "epoch": 874.12,
      "learning_rate": 2.8265428168404287e-05,
      "loss": 0.3857,
      "step": 44580
    },
    {
      "epoch": 874.31,
      "learning_rate": 2.8233738617711158e-05,
      "loss": 0.3906,
      "step": 44590
    },
    {
      "epoch": 874.51,
      "learning_rate": 2.8202062721723325e-05,
      "loss": 0.3855,
      "step": 44600
    },
    {
      "epoch": 874.71,
      "learning_rate": 2.817040048968952e-05,
      "loss": 0.3865,
      "step": 44610
    },
    {
      "epoch": 874.9,
      "learning_rate": 2.8138751930854347e-05,
      "loss": 0.382,
      "step": 44620
    },
    {
      "epoch": 875.0,
      "eval_loss": 0.38788464665412903,
      "eval_runtime": 2.2983,
      "eval_samples_per_second": 991.581,
      "eval_steps_per_second": 3.916,
      "step": 44625
    },
    {
      "epoch": 875.1,
      "learning_rate": 2.8107117054458496e-05,
      "loss": 0.3885,
      "step": 44630
    },
    {
      "epoch": 875.29,
      "learning_rate": 2.8075495869738657e-05,
      "loss": 0.3876,
      "step": 44640
    },
    {
      "epoch": 875.49,
      "learning_rate": 2.8043888385927525e-05,
      "loss": 0.385,
      "step": 44650
    },
    {
      "epoch": 875.69,
      "learning_rate": 2.8012294612253767e-05,
      "loss": 0.3894,
      "step": 44660
    },
    {
      "epoch": 875.88,
      "learning_rate": 2.798071455794203e-05,
      "loss": 0.384,
      "step": 44670
    },
    {
      "epoch": 876.0,
      "eval_loss": 0.393778532743454,
      "eval_runtime": 2.3202,
      "eval_samples_per_second": 982.244,
      "eval_steps_per_second": 3.879,
      "step": 44676
    },
    {
      "epoch": 876.08,
      "learning_rate": 2.7949148232213006e-05,
      "loss": 0.387,
      "step": 44680
    },
    {
      "epoch": 876.27,
      "learning_rate": 2.7917595644283365e-05,
      "loss": 0.3904,
      "step": 44690
    },
    {
      "epoch": 876.47,
      "learning_rate": 2.7886056803365777e-05,
      "loss": 0.3851,
      "step": 44700
    },
    {
      "epoch": 876.67,
      "learning_rate": 2.7854531718668842e-05,
      "loss": 0.389,
      "step": 44710
    },
    {
      "epoch": 876.86,
      "learning_rate": 2.7823020399397213e-05,
      "loss": 0.3898,
      "step": 44720
    },
    {
      "epoch": 877.0,
      "eval_loss": 0.3949425220489502,
      "eval_runtime": 2.2739,
      "eval_samples_per_second": 1002.245,
      "eval_steps_per_second": 3.958,
      "step": 44727
    },
    {
      "epoch": 877.06,
      "learning_rate": 2.779152285475146e-05,
      "loss": 0.3867,
      "step": 44730
    },
    {
      "epoch": 877.25,
      "learning_rate": 2.776003909392819e-05,
      "loss": 0.384,
      "step": 44740
    },
    {
      "epoch": 877.45,
      "learning_rate": 2.7728569126119966e-05,
      "loss": 0.3847,
      "step": 44750
    },
    {
      "epoch": 877.65,
      "learning_rate": 2.7697112960515283e-05,
      "loss": 0.3864,
      "step": 44760
    },
    {
      "epoch": 877.84,
      "learning_rate": 2.7665670606298682e-05,
      "loss": 0.3913,
      "step": 44770
    },
    {
      "epoch": 878.0,
      "eval_loss": 0.3947102725505829,
      "eval_runtime": 2.3101,
      "eval_samples_per_second": 986.554,
      "eval_steps_per_second": 3.896,
      "step": 44778
    },
    {
      "epoch": 878.04,
      "learning_rate": 2.7634242072650577e-05,
      "loss": 0.3859,
      "step": 44780
    },
    {
      "epoch": 878.24,
      "learning_rate": 2.760282736874743e-05,
      "loss": 0.3849,
      "step": 44790
    },
    {
      "epoch": 878.43,
      "learning_rate": 2.7571426503761657e-05,
      "loss": 0.3884,
      "step": 44800
    },
    {
      "epoch": 878.63,
      "learning_rate": 2.754003948686156e-05,
      "loss": 0.3871,
      "step": 44810
    },
    {
      "epoch": 878.82,
      "learning_rate": 2.75086663272115e-05,
      "loss": 0.3859,
      "step": 44820
    },
    {
      "epoch": 879.0,
      "eval_loss": 0.3952098488807678,
      "eval_runtime": 2.2397,
      "eval_samples_per_second": 1017.564,
      "eval_steps_per_second": 4.018,
      "step": 44829
    },
    {
      "epoch": 879.02,
      "learning_rate": 2.7477307033971687e-05,
      "loss": 0.3867,
      "step": 44830
    },
    {
      "epoch": 879.22,
      "learning_rate": 2.744596161629836e-05,
      "loss": 0.3881,
      "step": 44840
    },
    {
      "epoch": 879.41,
      "learning_rate": 2.7414630083343687e-05,
      "loss": 0.3871,
      "step": 44850
    },
    {
      "epoch": 879.61,
      "learning_rate": 2.7383312444255793e-05,
      "loss": 0.383,
      "step": 44860
    },
    {
      "epoch": 879.8,
      "learning_rate": 2.7352008708178714e-05,
      "loss": 0.3874,
      "step": 44870
    },
    {
      "epoch": 880.0,
      "learning_rate": 2.7320718884252412e-05,
      "loss": 0.385,
      "step": 44880
    },
    {
      "epoch": 880.0,
      "eval_loss": 0.395025372505188,
      "eval_runtime": 2.3571,
      "eval_samples_per_second": 966.867,
      "eval_steps_per_second": 3.818,
      "step": 44880
    },
    {
      "epoch": 880.2,
      "learning_rate": 2.728944298161284e-05,
      "loss": 0.388,
      "step": 44890
    },
    {
      "epoch": 880.39,
      "learning_rate": 2.725818100939187e-05,
      "loss": 0.3887,
      "step": 44900
    },
    {
      "epoch": 880.59,
      "learning_rate": 2.7226932976717336e-05,
      "loss": 0.3882,
      "step": 44910
    },
    {
      "epoch": 880.78,
      "learning_rate": 2.7195698892712894e-05,
      "loss": 0.3846,
      "step": 44920
    },
    {
      "epoch": 880.98,
      "learning_rate": 2.716447876649826e-05,
      "loss": 0.3872,
      "step": 44930
    },
    {
      "epoch": 881.0,
      "eval_loss": 0.3877263069152832,
      "eval_runtime": 2.2028,
      "eval_samples_per_second": 1034.586,
      "eval_steps_per_second": 4.086,
      "step": 44931
    },
    {
      "epoch": 881.18,
      "learning_rate": 2.7133272607188975e-05,
      "loss": 0.3849,
      "step": 44940
    },
    {
      "epoch": 881.37,
      "learning_rate": 2.710208042389655e-05,
      "loss": 0.3876,
      "step": 44950
    },
    {
      "epoch": 881.57,
      "learning_rate": 2.707090222572844e-05,
      "loss": 0.3888,
      "step": 44960
    },
    {
      "epoch": 881.76,
      "learning_rate": 2.7039738021787926e-05,
      "loss": 0.3888,
      "step": 44970
    },
    {
      "epoch": 881.96,
      "learning_rate": 2.7008587821174328e-05,
      "loss": 0.383,
      "step": 44980
    },
    {
      "epoch": 882.0,
      "eval_loss": 0.3904988169670105,
      "eval_runtime": 2.2822,
      "eval_samples_per_second": 998.591,
      "eval_steps_per_second": 3.944,
      "step": 44982
    },
    {
      "epoch": 882.16,
      "learning_rate": 2.697745163298274e-05,
      "loss": 0.3868,
      "step": 44990
    },
    {
      "epoch": 882.35,
      "learning_rate": 2.6946329466304274e-05,
      "loss": 0.3821,
      "step": 45000
    },
    {
      "epoch": 882.55,
      "learning_rate": 2.691522133022593e-05,
      "loss": 0.3869,
      "step": 45010
    },
    {
      "epoch": 882.75,
      "learning_rate": 2.6884127233830533e-05,
      "loss": 0.3848,
      "step": 45020
    },
    {
      "epoch": 882.94,
      "learning_rate": 2.6853047186196924e-05,
      "loss": 0.387,
      "step": 45030
    },
    {
      "epoch": 883.0,
      "eval_loss": 0.39386025071144104,
      "eval_runtime": 2.2917,
      "eval_samples_per_second": 994.475,
      "eval_steps_per_second": 3.927,
      "step": 45033
    },
    {
      "epoch": 883.14,
      "learning_rate": 2.6821981196399727e-05,
      "loss": 0.3901,
      "step": 45040
    },
    {
      "epoch": 883.33,
      "learning_rate": 2.6790929273509545e-05,
      "loss": 0.3869,
      "step": 45050
    },
    {
      "epoch": 883.53,
      "learning_rate": 2.675989142659285e-05,
      "loss": 0.3875,
      "step": 45060
    },
    {
      "epoch": 883.73,
      "learning_rate": 2.6728867664712033e-05,
      "loss": 0.3818,
      "step": 45070
    },
    {
      "epoch": 883.92,
      "learning_rate": 2.66978579969253e-05,
      "loss": 0.3834,
      "step": 45080
    },
    {
      "epoch": 884.0,
      "eval_loss": 0.39473608136177063,
      "eval_runtime": 2.2587,
      "eval_samples_per_second": 1009.006,
      "eval_steps_per_second": 3.985,
      "step": 45084
    },
    {
      "epoch": 884.12,
      "learning_rate": 2.6666862432286758e-05,
      "loss": 0.3834,
      "step": 45090
    },
    {
      "epoch": 884.31,
      "learning_rate": 2.6635880979846462e-05,
      "loss": 0.3862,
      "step": 45100
    },
    {
      "epoch": 884.51,
      "learning_rate": 2.6604913648650295e-05,
      "loss": 0.3878,
      "step": 45110
    },
    {
      "epoch": 884.71,
      "learning_rate": 2.6573960447740055e-05,
      "loss": 0.3898,
      "step": 45120
    },
    {
      "epoch": 884.9,
      "learning_rate": 2.6543021386153322e-05,
      "loss": 0.3866,
      "step": 45130
    },
    {
      "epoch": 885.0,
      "eval_loss": 0.39346495270729065,
      "eval_runtime": 2.245,
      "eval_samples_per_second": 1015.159,
      "eval_steps_per_second": 4.009,
      "step": 45135
    },
    {
      "epoch": 885.1,
      "learning_rate": 2.651209647292368e-05,
      "loss": 0.3878,
      "step": 45140
    },
    {
      "epoch": 885.29,
      "learning_rate": 2.6481185717080457e-05,
      "loss": 0.3882,
      "step": 45150
    },
    {
      "epoch": 885.49,
      "learning_rate": 2.645028912764893e-05,
      "loss": 0.3869,
      "step": 45160
    },
    {
      "epoch": 885.69,
      "learning_rate": 2.6419406713650245e-05,
      "loss": 0.3878,
      "step": 45170
    },
    {
      "epoch": 885.88,
      "learning_rate": 2.638853848410132e-05,
      "loss": 0.3834,
      "step": 45180
    },
    {
      "epoch": 886.0,
      "eval_loss": 0.3925130069255829,
      "eval_runtime": 2.2463,
      "eval_samples_per_second": 1014.544,
      "eval_steps_per_second": 4.007,
      "step": 45186
    },
    {
      "epoch": 886.08,
      "learning_rate": 2.6357684448015038e-05,
      "loss": 0.3826,
      "step": 45190
    },
    {
      "epoch": 886.27,
      "learning_rate": 2.6326844614400038e-05,
      "loss": 0.387,
      "step": 45200
    },
    {
      "epoch": 886.47,
      "learning_rate": 2.6296018992260903e-05,
      "loss": 0.3832,
      "step": 45210
    },
    {
      "epoch": 886.67,
      "learning_rate": 2.626520759059804e-05,
      "loss": 0.3887,
      "step": 45220
    },
    {
      "epoch": 886.86,
      "learning_rate": 2.623441041840765e-05,
      "loss": 0.3848,
      "step": 45230
    },
    {
      "epoch": 887.0,
      "eval_loss": 0.3903357684612274,
      "eval_runtime": 2.3016,
      "eval_samples_per_second": 990.196,
      "eval_steps_per_second": 3.91,
      "step": 45237
    },
    {
      "epoch": 887.06,
      "learning_rate": 2.620362748468186e-05,
      "loss": 0.3878,
      "step": 45240
    },
    {
      "epoch": 887.25,
      "learning_rate": 2.6172858798408557e-05,
      "loss": 0.3854,
      "step": 45250
    },
    {
      "epoch": 887.45,
      "learning_rate": 2.6142104368571522e-05,
      "loss": 0.386,
      "step": 45260
    },
    {
      "epoch": 887.65,
      "learning_rate": 2.6111364204150414e-05,
      "loss": 0.3814,
      "step": 45270
    },
    {
      "epoch": 887.84,
      "learning_rate": 2.60806383141206e-05,
      "loss": 0.3896,
      "step": 45280
    },
    {
      "epoch": 888.0,
      "eval_loss": 0.39181816577911377,
      "eval_runtime": 2.3791,
      "eval_samples_per_second": 957.935,
      "eval_steps_per_second": 3.783,
      "step": 45288
    },
    {
      "epoch": 888.04,
      "learning_rate": 2.6049926707453428e-05,
      "loss": 0.3842,
      "step": 45290
    },
    {
      "epoch": 888.24,
      "learning_rate": 2.6019229393115935e-05,
      "loss": 0.389,
      "step": 45300
    },
    {
      "epoch": 888.43,
      "learning_rate": 2.5988546380071072e-05,
      "loss": 0.3812,
      "step": 45310
    },
    {
      "epoch": 888.63,
      "learning_rate": 2.5957877677277615e-05,
      "loss": 0.3885,
      "step": 45320
    },
    {
      "epoch": 888.82,
      "learning_rate": 2.592722329369016e-05,
      "loss": 0.3863,
      "step": 45330
    },
    {
      "epoch": 889.0,
      "eval_loss": 0.3879792094230652,
      "eval_runtime": 2.2596,
      "eval_samples_per_second": 1008.603,
      "eval_steps_per_second": 3.983,
      "step": 45339
    },
    {
      "epoch": 889.02,
      "learning_rate": 2.5896583238259064e-05,
      "loss": 0.3845,
      "step": 45340
    },
    {
      "epoch": 889.22,
      "learning_rate": 2.5865957519930526e-05,
      "loss": 0.3888,
      "step": 45350
    },
    {
      "epoch": 889.41,
      "learning_rate": 2.5835346147646597e-05,
      "loss": 0.3855,
      "step": 45360
    },
    {
      "epoch": 889.61,
      "learning_rate": 2.580474913034512e-05,
      "loss": 0.3849,
      "step": 45370
    },
    {
      "epoch": 889.8,
      "learning_rate": 2.5774166476959758e-05,
      "loss": 0.3828,
      "step": 45380
    },
    {
      "epoch": 890.0,
      "learning_rate": 2.574359819641992e-05,
      "loss": 0.384,
      "step": 45390
    },
    {
      "epoch": 890.0,
      "eval_loss": 0.388411283493042,
      "eval_runtime": 2.2402,
      "eval_samples_per_second": 1017.319,
      "eval_steps_per_second": 4.017,
      "step": 45390
    },
    {
      "epoch": 890.2,
      "learning_rate": 2.5713044297650904e-05,
      "loss": 0.3816,
      "step": 45400
    },
    {
      "epoch": 890.39,
      "learning_rate": 2.568250478957372e-05,
      "loss": 0.3868,
      "step": 45410
    },
    {
      "epoch": 890.59,
      "learning_rate": 2.5651979681105258e-05,
      "loss": 0.3859,
      "step": 45420
    },
    {
      "epoch": 890.78,
      "learning_rate": 2.562146898115819e-05,
      "loss": 0.3863,
      "step": 45430
    },
    {
      "epoch": 890.98,
      "learning_rate": 2.5590972698640892e-05,
      "loss": 0.3844,
      "step": 45440
    },
    {
      "epoch": 891.0,
      "eval_loss": 0.3906935751438141,
      "eval_runtime": 2.3035,
      "eval_samples_per_second": 989.365,
      "eval_steps_per_second": 3.907,
      "step": 45441
    },
    {
      "epoch": 891.18,
      "learning_rate": 2.5560490842457675e-05,
      "loss": 0.3852,
      "step": 45450
    },
    {
      "epoch": 891.37,
      "learning_rate": 2.553002342150849e-05,
      "loss": 0.3851,
      "step": 45460
    },
    {
      "epoch": 891.57,
      "learning_rate": 2.549957044468919e-05,
      "loss": 0.3863,
      "step": 45470
    },
    {
      "epoch": 891.76,
      "learning_rate": 2.546913192089137e-05,
      "loss": 0.3835,
      "step": 45480
    },
    {
      "epoch": 891.96,
      "learning_rate": 2.543870785900236e-05,
      "loss": 0.3863,
      "step": 45490
    },
    {
      "epoch": 892.0,
      "eval_loss": 0.39539283514022827,
      "eval_runtime": 2.2062,
      "eval_samples_per_second": 1032.976,
      "eval_steps_per_second": 4.079,
      "step": 45492
    },
    {
      "epoch": 892.16,
      "learning_rate": 2.5408298267905357e-05,
      "loss": 0.3857,
      "step": 45500
    },
    {
      "epoch": 892.35,
      "learning_rate": 2.5377903156479235e-05,
      "loss": 0.3898,
      "step": 45510
    },
    {
      "epoch": 892.55,
      "learning_rate": 2.5347522533598706e-05,
      "loss": 0.3868,
      "step": 45520
    },
    {
      "epoch": 892.75,
      "learning_rate": 2.531715640813424e-05,
      "loss": 0.3801,
      "step": 45530
    },
    {
      "epoch": 892.94,
      "learning_rate": 2.52868047889521e-05,
      "loss": 0.3872,
      "step": 45540
    },
    {
      "epoch": 893.0,
      "eval_loss": 0.3918585479259491,
      "eval_runtime": 2.1779,
      "eval_samples_per_second": 1046.398,
      "eval_steps_per_second": 4.132,
      "step": 45543
    },
    {
      "epoch": 893.14,
      "learning_rate": 2.525646768491424e-05,
      "loss": 0.385,
      "step": 45550
    },
    {
      "epoch": 893.33,
      "learning_rate": 2.5226145104878405e-05,
      "loss": 0.3884,
      "step": 45560
    },
    {
      "epoch": 893.53,
      "learning_rate": 2.5195837057698134e-05,
      "loss": 0.3824,
      "step": 45570
    },
    {
      "epoch": 893.73,
      "learning_rate": 2.5165543552222706e-05,
      "loss": 0.3824,
      "step": 45580
    },
    {
      "epoch": 893.92,
      "learning_rate": 2.5135264597297166e-05,
      "loss": 0.3869,
      "step": 45590
    },
    {
      "epoch": 894.0,
      "eval_loss": 0.39283615350723267,
      "eval_runtime": 2.2359,
      "eval_samples_per_second": 1019.291,
      "eval_steps_per_second": 4.025,
      "step": 45594
    },
    {
      "epoch": 894.12,
      "learning_rate": 2.5105000201762253e-05,
      "loss": 0.3907,
      "step": 45600
    },
    {
      "epoch": 894.31,
      "learning_rate": 2.5074750374454532e-05,
      "loss": 0.3855,
      "step": 45610
    },
    {
      "epoch": 894.51,
      "learning_rate": 2.504451512420624e-05,
      "loss": 0.383,
      "step": 45620
    },
    {
      "epoch": 894.71,
      "learning_rate": 2.5014294459845418e-05,
      "loss": 0.384,
      "step": 45630
    },
    {
      "epoch": 894.9,
      "learning_rate": 2.498408839019584e-05,
      "loss": 0.3801,
      "step": 45640
    },
    {
      "epoch": 895.0,
      "eval_loss": 0.39413610100746155,
      "eval_runtime": 2.344,
      "eval_samples_per_second": 972.252,
      "eval_steps_per_second": 3.84,
      "step": 45645
    },
    {
      "epoch": 895.1,
      "learning_rate": 2.4953896924076978e-05,
      "loss": 0.3843,
      "step": 45650
    },
    {
      "epoch": 895.29,
      "learning_rate": 2.4923720070304088e-05,
      "loss": 0.386,
      "step": 45660
    },
    {
      "epoch": 895.49,
      "learning_rate": 2.4893557837688108e-05,
      "loss": 0.3901,
      "step": 45670
    },
    {
      "epoch": 895.69,
      "learning_rate": 2.486341023503576e-05,
      "loss": 0.3842,
      "step": 45680
    },
    {
      "epoch": 895.88,
      "learning_rate": 2.4833277271149496e-05,
      "loss": 0.3832,
      "step": 45690
    },
    {
      "epoch": 896.0,
      "eval_loss": 0.39303308725357056,
      "eval_runtime": 2.2279,
      "eval_samples_per_second": 1022.934,
      "eval_steps_per_second": 4.04,
      "step": 45696
    },
    {
      "epoch": 896.08,
      "learning_rate": 2.480315895482742e-05,
      "loss": 0.3866,
      "step": 45700
    },
    {
      "epoch": 896.27,
      "learning_rate": 2.4773055294863443e-05,
      "loss": 0.3891,
      "step": 45710
    },
    {
      "epoch": 896.47,
      "learning_rate": 2.4742966300047138e-05,
      "loss": 0.3846,
      "step": 45720
    },
    {
      "epoch": 896.67,
      "learning_rate": 2.4712891979163826e-05,
      "loss": 0.3854,
      "step": 45730
    },
    {
      "epoch": 896.86,
      "learning_rate": 2.4682832340994544e-05,
      "loss": 0.3886,
      "step": 45740
    },
    {
      "epoch": 897.0,
      "eval_loss": 0.3933192193508148,
      "eval_runtime": 2.243,
      "eval_samples_per_second": 1016.036,
      "eval_steps_per_second": 4.012,
      "step": 45747
    },
    {
      "epoch": 897.06,
      "learning_rate": 2.4652787394316066e-05,
      "loss": 0.3919,
      "step": 45750
    },
    {
      "epoch": 897.25,
      "learning_rate": 2.4622757147900816e-05,
      "loss": 0.3843,
      "step": 45760
    },
    {
      "epoch": 897.45,
      "learning_rate": 2.459274161051693e-05,
      "loss": 0.3851,
      "step": 45770
    },
    {
      "epoch": 897.65,
      "learning_rate": 2.4562740790928304e-05,
      "loss": 0.3832,
      "step": 45780
    },
    {
      "epoch": 897.84,
      "learning_rate": 2.4532754697894512e-05,
      "loss": 0.3871,
      "step": 45790
    },
    {
      "epoch": 898.0,
      "eval_loss": 0.3916724920272827,
      "eval_runtime": 2.233,
      "eval_samples_per_second": 1020.585,
      "eval_steps_per_second": 4.03,
      "step": 45798
    },
    {
      "epoch": 898.04,
      "learning_rate": 2.4502783340170833e-05,
      "loss": 0.3837,
      "step": 45800
    },
    {
      "epoch": 898.24,
      "learning_rate": 2.4472826726508207e-05,
      "loss": 0.3866,
      "step": 45810
    },
    {
      "epoch": 898.43,
      "learning_rate": 2.4442884865653332e-05,
      "loss": 0.3846,
      "step": 45820
    },
    {
      "epoch": 898.63,
      "learning_rate": 2.4412957766348516e-05,
      "loss": 0.3798,
      "step": 45830
    },
    {
      "epoch": 898.82,
      "learning_rate": 2.4383045437331835e-05,
      "loss": 0.3892,
      "step": 45840
    },
    {
      "epoch": 899.0,
      "eval_loss": 0.39273956418037415,
      "eval_runtime": 2.3197,
      "eval_samples_per_second": 982.453,
      "eval_steps_per_second": 3.88,
      "step": 45849
    },
    {
      "epoch": 899.02,
      "learning_rate": 2.4353147887337042e-05,
      "loss": 0.3851,
      "step": 45850
    },
    {
      "epoch": 899.22,
      "learning_rate": 2.4323265125093507e-05,
      "loss": 0.386,
      "step": 45860
    },
    {
      "epoch": 899.41,
      "learning_rate": 2.4293397159326384e-05,
      "loss": 0.3838,
      "step": 45870
    },
    {
      "epoch": 899.61,
      "learning_rate": 2.4263543998756392e-05,
      "loss": 0.3802,
      "step": 45880
    },
    {
      "epoch": 899.8,
      "learning_rate": 2.4233705652100026e-05,
      "loss": 0.3867,
      "step": 45890
    },
    {
      "epoch": 900.0,
      "learning_rate": 2.420388212806943e-05,
      "loss": 0.3864,
      "step": 45900
    },
    {
      "epoch": 900.0,
      "eval_loss": 0.3934266269207001,
      "eval_runtime": 2.2188,
      "eval_samples_per_second": 1027.135,
      "eval_steps_per_second": 4.056,
      "step": 45900
    },
    {
      "epoch": 900.2,
      "learning_rate": 2.417407343537237e-05,
      "loss": 0.3864,
      "step": 45910
    },
    {
      "epoch": 900.39,
      "learning_rate": 2.4144279582712353e-05,
      "loss": 0.384,
      "step": 45920
    },
    {
      "epoch": 900.59,
      "learning_rate": 2.4114500578788486e-05,
      "loss": 0.3841,
      "step": 45930
    },
    {
      "epoch": 900.78,
      "learning_rate": 2.40847364322956e-05,
      "loss": 0.3825,
      "step": 45940
    },
    {
      "epoch": 900.98,
      "learning_rate": 2.405498715192415e-05,
      "loss": 0.3827,
      "step": 45950
    },
    {
      "epoch": 901.0,
      "eval_loss": 0.39162707328796387,
      "eval_runtime": 2.2278,
      "eval_samples_per_second": 1022.964,
      "eval_steps_per_second": 4.04,
      "step": 45951
    },
    {
      "epoch": 901.18,
      "learning_rate": 2.402525274636029e-05,
      "loss": 0.3816,
      "step": 45960
    },
    {
      "epoch": 901.37,
      "learning_rate": 2.3995533224285788e-05,
      "loss": 0.3832,
      "step": 45970
    },
    {
      "epoch": 901.57,
      "learning_rate": 2.3965828594378042e-05,
      "loss": 0.3892,
      "step": 45980
    },
    {
      "epoch": 901.76,
      "learning_rate": 2.3936138865310177e-05,
      "loss": 0.3815,
      "step": 45990
    },
    {
      "epoch": 901.96,
      "learning_rate": 2.3906464045750927e-05,
      "loss": 0.3838,
      "step": 46000
    },
    {
      "epoch": 902.0,
      "eval_loss": 0.3931758403778076,
      "eval_runtime": 2.2246,
      "eval_samples_per_second": 1024.454,
      "eval_steps_per_second": 4.046,
      "step": 46002
    },
    {
      "epoch": 902.16,
      "learning_rate": 2.387680414436471e-05,
      "loss": 0.3852,
      "step": 46010
    },
    {
      "epoch": 902.35,
      "learning_rate": 2.384715916981152e-05,
      "loss": 0.3842,
      "step": 46020
    },
    {
      "epoch": 902.55,
      "learning_rate": 2.3817529130747002e-05,
      "loss": 0.3843,
      "step": 46030
    },
    {
      "epoch": 902.75,
      "learning_rate": 2.3787914035822512e-05,
      "loss": 0.3856,
      "step": 46040
    },
    {
      "epoch": 902.94,
      "learning_rate": 2.3758313893684976e-05,
      "loss": 0.3859,
      "step": 46050
    },
    {
      "epoch": 903.0,
      "eval_loss": 0.3901480436325073,
      "eval_runtime": 2.2773,
      "eval_samples_per_second": 1000.738,
      "eval_steps_per_second": 3.952,
      "step": 46053
    },
    {
      "epoch": 903.14,
      "learning_rate": 2.3728728712977005e-05,
      "loss": 0.377,
      "step": 46060
    },
    {
      "epoch": 903.33,
      "learning_rate": 2.369915850233677e-05,
      "loss": 0.3878,
      "step": 46070
    },
    {
      "epoch": 903.53,
      "learning_rate": 2.366960327039815e-05,
      "loss": 0.3839,
      "step": 46080
    },
    {
      "epoch": 903.73,
      "learning_rate": 2.3640063025790577e-05,
      "loss": 0.3786,
      "step": 46090
    },
    {
      "epoch": 903.92,
      "learning_rate": 2.3610537777139165e-05,
      "loss": 0.382,
      "step": 46100
    },
    {
      "epoch": 904.0,
      "eval_loss": 0.3918239176273346,
      "eval_runtime": 2.2928,
      "eval_samples_per_second": 993.994,
      "eval_steps_per_second": 3.925,
      "step": 46104
    },
    {
      "epoch": 904.12,
      "learning_rate": 2.358102753306465e-05,
      "loss": 0.3819,
      "step": 46110
    },
    {
      "epoch": 904.31,
      "learning_rate": 2.3551532302183307e-05,
      "loss": 0.3855,
      "step": 46120
    },
    {
      "epoch": 904.51,
      "learning_rate": 2.3522052093107154e-05,
      "loss": 0.3824,
      "step": 46130
    },
    {
      "epoch": 904.71,
      "learning_rate": 2.3492586914443693e-05,
      "loss": 0.3829,
      "step": 46140
    },
    {
      "epoch": 904.9,
      "learning_rate": 2.346313677479613e-05,
      "loss": 0.3824,
      "step": 46150
    },
    {
      "epoch": 905.0,
      "eval_loss": 0.39389172196388245,
      "eval_runtime": 2.3228,
      "eval_samples_per_second": 981.125,
      "eval_steps_per_second": 3.875,
      "step": 46155
    },
    {
      "epoch": 905.1,
      "learning_rate": 2.3433701682763262e-05,
      "loss": 0.3865,
      "step": 46160
    },
    {
      "epoch": 905.29,
      "learning_rate": 2.3404281646939442e-05,
      "loss": 0.385,
      "step": 46170
    },
    {
      "epoch": 905.49,
      "learning_rate": 2.3374876675914704e-05,
      "loss": 0.386,
      "step": 46180
    },
    {
      "epoch": 905.69,
      "learning_rate": 2.3345486778274604e-05,
      "loss": 0.386,
      "step": 46190
    },
    {
      "epoch": 905.88,
      "learning_rate": 2.331611196260036e-05,
      "loss": 0.3799,
      "step": 46200
    },
    {
      "epoch": 906.0,
      "eval_loss": 0.390666663646698,
      "eval_runtime": 2.2415,
      "eval_samples_per_second": 1016.712,
      "eval_steps_per_second": 4.015,
      "step": 46206
    },
    {
      "epoch": 906.08,
      "learning_rate": 2.328675223746876e-05,
      "loss": 0.3824,
      "step": 46210
    },
    {
      "epoch": 906.27,
      "learning_rate": 2.3257407611452215e-05,
      "loss": 0.3818,
      "step": 46220
    },
    {
      "epoch": 906.47,
      "learning_rate": 2.322807809311867e-05,
      "loss": 0.3869,
      "step": 46230
    },
    {
      "epoch": 906.67,
      "learning_rate": 2.3198763691031675e-05,
      "loss": 0.3806,
      "step": 46240
    },
    {
      "epoch": 906.86,
      "learning_rate": 2.31694644137504e-05,
      "loss": 0.3851,
      "step": 46250
    },
    {
      "epoch": 907.0,
      "eval_loss": 0.38907137513160706,
      "eval_runtime": 2.3737,
      "eval_samples_per_second": 960.124,
      "eval_steps_per_second": 3.792,
      "step": 46257
    },
    {
      "epoch": 907.06,
      "learning_rate": 2.3140180269829587e-05,
      "loss": 0.3824,
      "step": 46260
    },
    {
      "epoch": 907.25,
      "learning_rate": 2.311091126781957e-05,
      "loss": 0.3862,
      "step": 46270
    },
    {
      "epoch": 907.45,
      "learning_rate": 2.3081657416266202e-05,
      "loss": 0.3848,
      "step": 46280
    },
    {
      "epoch": 907.65,
      "learning_rate": 2.3052418723711e-05,
      "loss": 0.3833,
      "step": 46290
    },
    {
      "epoch": 907.84,
      "learning_rate": 2.3023195198690968e-05,
      "loss": 0.3854,
      "step": 46300
    },
    {
      "epoch": 908.0,
      "eval_loss": 0.38849303126335144,
      "eval_runtime": 2.3757,
      "eval_samples_per_second": 959.284,
      "eval_steps_per_second": 3.788,
      "step": 46308
    },
    {
      "epoch": 908.04,
      "learning_rate": 2.2993986849738735e-05,
      "loss": 0.3819,
      "step": 46310
    },
    {
      "epoch": 908.24,
      "learning_rate": 2.2964793685382518e-05,
      "loss": 0.384,
      "step": 46320
    },
    {
      "epoch": 908.43,
      "learning_rate": 2.293561571414603e-05,
      "loss": 0.3822,
      "step": 46330
    },
    {
      "epoch": 908.63,
      "learning_rate": 2.2906452944548622e-05,
      "loss": 0.381,
      "step": 46340
    },
    {
      "epoch": 908.82,
      "learning_rate": 2.2877305385105134e-05,
      "loss": 0.3855,
      "step": 46350
    },
    {
      "epoch": 909.0,
      "eval_loss": 0.3911910653114319,
      "eval_runtime": 2.2359,
      "eval_samples_per_second": 1019.275,
      "eval_steps_per_second": 4.025,
      "step": 46359
    },
    {
      "epoch": 909.02,
      "learning_rate": 2.2848173044326036e-05,
      "loss": 0.3796,
      "step": 46360
    },
    {
      "epoch": 909.22,
      "learning_rate": 2.2819055930717316e-05,
      "loss": 0.3814,
      "step": 46370
    },
    {
      "epoch": 909.41,
      "learning_rate": 2.2789954052780508e-05,
      "loss": 0.3793,
      "step": 46380
    },
    {
      "epoch": 909.61,
      "learning_rate": 2.2760867419012732e-05,
      "loss": 0.3837,
      "step": 46390
    },
    {
      "epoch": 909.8,
      "learning_rate": 2.273179603790661e-05,
      "loss": 0.3862,
      "step": 46400
    },
    {
      "epoch": 910.0,
      "learning_rate": 2.2702739917950342e-05,
      "loss": 0.3855,
      "step": 46410
    },
    {
      "epoch": 910.0,
      "eval_loss": 0.3912041187286377,
      "eval_runtime": 2.2617,
      "eval_samples_per_second": 1007.639,
      "eval_steps_per_second": 3.979,
      "step": 46410
    },
    {
      "epoch": 910.2,
      "learning_rate": 2.267369906762768e-05,
      "loss": 0.3839,
      "step": 46420
    },
    {
      "epoch": 910.39,
      "learning_rate": 2.2644673495417922e-05,
      "loss": 0.3809,
      "step": 46430
    },
    {
      "epoch": 910.59,
      "learning_rate": 2.261566320979587e-05,
      "loss": 0.3842,
      "step": 46440
    },
    {
      "epoch": 910.78,
      "learning_rate": 2.2586668219231847e-05,
      "loss": 0.3804,
      "step": 46450
    },
    {
      "epoch": 910.98,
      "learning_rate": 2.255768853219178e-05,
      "loss": 0.3799,
      "step": 46460
    },
    {
      "epoch": 911.0,
      "eval_loss": 0.38822638988494873,
      "eval_runtime": 2.2355,
      "eval_samples_per_second": 1019.442,
      "eval_steps_per_second": 4.026,
      "step": 46461
    },
    {
      "epoch": 911.18,
      "learning_rate": 2.2528724157137082e-05,
      "loss": 0.3793,
      "step": 46470
    },
    {
      "epoch": 911.37,
      "learning_rate": 2.2499775102524725e-05,
      "loss": 0.3807,
      "step": 46480
    },
    {
      "epoch": 911.57,
      "learning_rate": 2.2470841376807154e-05,
      "loss": 0.3854,
      "step": 46490
    },
    {
      "epoch": 911.76,
      "learning_rate": 2.2441922988432405e-05,
      "loss": 0.3827,
      "step": 46500
    },
    {
      "epoch": 911.96,
      "learning_rate": 2.2413019945843964e-05,
      "loss": 0.387,
      "step": 46510
    },
    {
      "epoch": 912.0,
      "eval_loss": 0.3894227147102356,
      "eval_runtime": 2.3651,
      "eval_samples_per_second": 963.582,
      "eval_steps_per_second": 3.805,
      "step": 46512
    },
    {
      "epoch": 912.16,
      "learning_rate": 2.2384132257480898e-05,
      "loss": 0.384,
      "step": 46520
    },
    {
      "epoch": 912.35,
      "learning_rate": 2.2355259931777784e-05,
      "loss": 0.387,
      "step": 46530
    },
    {
      "epoch": 912.55,
      "learning_rate": 2.2326402977164658e-05,
      "loss": 0.3837,
      "step": 46540
    },
    {
      "epoch": 912.75,
      "learning_rate": 2.2297561402067148e-05,
      "loss": 0.3859,
      "step": 46550
    },
    {
      "epoch": 912.94,
      "learning_rate": 2.226873521490631e-05,
      "loss": 0.3792,
      "step": 46560
    },
    {
      "epoch": 913.0,
      "eval_loss": 0.3886968791484833,
      "eval_runtime": 2.3469,
      "eval_samples_per_second": 971.078,
      "eval_steps_per_second": 3.835,
      "step": 46563
    },
    {
      "epoch": 913.14,
      "learning_rate": 2.223992442409876e-05,
      "loss": 0.3861,
      "step": 46570
    },
    {
      "epoch": 913.33,
      "learning_rate": 2.2211129038056646e-05,
      "loss": 0.3809,
      "step": 46580
    },
    {
      "epoch": 913.53,
      "learning_rate": 2.218234906518752e-05,
      "loss": 0.3852,
      "step": 46590
    },
    {
      "epoch": 913.73,
      "learning_rate": 2.2153584513894547e-05,
      "loss": 0.3826,
      "step": 46600
    },
    {
      "epoch": 913.92,
      "learning_rate": 2.2124835392576275e-05,
      "loss": 0.3831,
      "step": 46610
    },
    {
      "epoch": 914.0,
      "eval_loss": 0.3874710500240326,
      "eval_runtime": 2.2984,
      "eval_samples_per_second": 991.568,
      "eval_steps_per_second": 3.916,
      "step": 46614
    },
    {
      "epoch": 914.12,
      "learning_rate": 2.209610170962685e-05,
      "loss": 0.3827,
      "step": 46620
    },
    {
      "epoch": 914.31,
      "learning_rate": 2.2067383473435844e-05,
      "loss": 0.3832,
      "step": 46630
    },
    {
      "epoch": 914.51,
      "learning_rate": 2.203868069238838e-05,
      "loss": 0.385,
      "step": 46640
    },
    {
      "epoch": 914.71,
      "learning_rate": 2.2009993374864997e-05,
      "loss": 0.3857,
      "step": 46650
    },
    {
      "epoch": 914.9,
      "learning_rate": 2.198132152924173e-05,
      "loss": 0.3821,
      "step": 46660
    },
    {
      "epoch": 915.0,
      "eval_loss": 0.38625603914260864,
      "eval_runtime": 2.2102,
      "eval_samples_per_second": 1031.139,
      "eval_steps_per_second": 4.072,
      "step": 46665
    },
    {
      "epoch": 915.1,
      "learning_rate": 2.195266516389015e-05,
      "loss": 0.381,
      "step": 46670
    },
    {
      "epoch": 915.29,
      "learning_rate": 2.192402428717728e-05,
      "loss": 0.3842,
      "step": 46680
    },
    {
      "epoch": 915.49,
      "learning_rate": 2.189539890746562e-05,
      "loss": 0.381,
      "step": 46690
    },
    {
      "epoch": 915.69,
      "learning_rate": 2.1866789033113142e-05,
      "loss": 0.3763,
      "step": 46700
    },
    {
      "epoch": 915.88,
      "learning_rate": 2.1838194672473254e-05,
      "loss": 0.3853,
      "step": 46710
    },
    {
      "epoch": 916.0,
      "eval_loss": 0.3884444534778595,
      "eval_runtime": 2.358,
      "eval_samples_per_second": 966.491,
      "eval_steps_per_second": 3.817,
      "step": 46716
    },
    {
      "epoch": 916.08,
      "learning_rate": 2.1809615833894893e-05,
      "loss": 0.38,
      "step": 46720
    },
    {
      "epoch": 916.27,
      "learning_rate": 2.178105252572245e-05,
      "loss": 0.3845,
      "step": 46730
    },
    {
      "epoch": 916.47,
      "learning_rate": 2.17525047562958e-05,
      "loss": 0.3847,
      "step": 46740
    },
    {
      "epoch": 916.67,
      "learning_rate": 2.1723972533950197e-05,
      "loss": 0.3907,
      "step": 46750
    },
    {
      "epoch": 916.86,
      "learning_rate": 2.1695455867016466e-05,
      "loss": 0.381,
      "step": 46760
    },
    {
      "epoch": 917.0,
      "eval_loss": 0.38729578256607056,
      "eval_runtime": 2.3567,
      "eval_samples_per_second": 967.025,
      "eval_steps_per_second": 3.819,
      "step": 46767
    },
    {
      "epoch": 917.06,
      "learning_rate": 2.1666954763820795e-05,
      "loss": 0.3843,
      "step": 46770
    },
    {
      "epoch": 917.25,
      "learning_rate": 2.1638469232684892e-05,
      "loss": 0.3812,
      "step": 46780
    },
    {
      "epoch": 917.45,
      "learning_rate": 2.1609999281925916e-05,
      "loss": 0.3827,
      "step": 46790
    },
    {
      "epoch": 917.65,
      "learning_rate": 2.1581544919856415e-05,
      "loss": 0.3857,
      "step": 46800
    },
    {
      "epoch": 917.84,
      "learning_rate": 2.1553106154784482e-05,
      "loss": 0.3847,
      "step": 46810
    },
    {
      "epoch": 918.0,
      "eval_loss": 0.3849899470806122,
      "eval_runtime": 2.2047,
      "eval_samples_per_second": 1033.685,
      "eval_steps_per_second": 4.082,
      "step": 46818
    },
    {
      "epoch": 918.04,
      "learning_rate": 2.152468299501353e-05,
      "loss": 0.3817,
      "step": 46820
    },
    {
      "epoch": 918.24,
      "learning_rate": 2.1496275448842536e-05,
      "loss": 0.3891,
      "step": 46830
    },
    {
      "epoch": 918.43,
      "learning_rate": 2.1467883524565886e-05,
      "loss": 0.3834,
      "step": 46840
    },
    {
      "epoch": 918.63,
      "learning_rate": 2.1439507230473345e-05,
      "loss": 0.3803,
      "step": 46850
    },
    {
      "epoch": 918.82,
      "learning_rate": 2.14111465748502e-05,
      "loss": 0.3813,
      "step": 46860
    },
    {
      "epoch": 919.0,
      "eval_loss": 0.387481153011322,
      "eval_runtime": 2.1882,
      "eval_samples_per_second": 1041.495,
      "eval_steps_per_second": 4.113,
      "step": 46869
    },
    {
      "epoch": 919.02,
      "learning_rate": 2.1382801565977082e-05,
      "loss": 0.3762,
      "step": 46870
    },
    {
      "epoch": 919.22,
      "learning_rate": 2.135447221213013e-05,
      "loss": 0.3835,
      "step": 46880
    },
    {
      "epoch": 919.41,
      "learning_rate": 2.1326158521580874e-05,
      "loss": 0.3842,
      "step": 46890
    },
    {
      "epoch": 919.61,
      "learning_rate": 2.129786050259632e-05,
      "loss": 0.3819,
      "step": 46900
    },
    {
      "epoch": 919.8,
      "learning_rate": 2.1269578163438812e-05,
      "loss": 0.3833,
      "step": 46910
    },
    {
      "epoch": 920.0,
      "learning_rate": 2.1241311512366167e-05,
      "loss": 0.3853,
      "step": 46920
    },
    {
      "epoch": 920.0,
      "eval_loss": 0.3859827518463135,
      "eval_runtime": 2.2216,
      "eval_samples_per_second": 1025.821,
      "eval_steps_per_second": 4.051,
      "step": 46920
    },
    {
      "epoch": 920.2,
      "learning_rate": 2.1213060557631614e-05,
      "loss": 0.3855,
      "step": 46930
    },
    {
      "epoch": 920.39,
      "learning_rate": 2.1184825307483818e-05,
      "loss": 0.3855,
      "step": 46940
    },
    {
      "epoch": 920.59,
      "learning_rate": 2.115660577016686e-05,
      "loss": 0.3826,
      "step": 46950
    },
    {
      "epoch": 920.78,
      "learning_rate": 2.1128401953920172e-05,
      "loss": 0.3822,
      "step": 46960
    },
    {
      "epoch": 920.98,
      "learning_rate": 2.1100213866978683e-05,
      "loss": 0.3849,
      "step": 46970
    },
    {
      "epoch": 921.0,
      "eval_loss": 0.38799986243247986,
      "eval_runtime": 2.175,
      "eval_samples_per_second": 1047.835,
      "eval_steps_per_second": 4.138,
      "step": 46971
    },
    {
      "epoch": 921.18,
      "learning_rate": 2.1072041517572635e-05,
      "loss": 0.3817,
      "step": 46980
    },
    {
      "epoch": 921.37,
      "learning_rate": 2.1043884913927757e-05,
      "loss": 0.3842,
      "step": 46990
    },
    {
      "epoch": 921.57,
      "learning_rate": 2.1015744064265165e-05,
      "loss": 0.3846,
      "step": 47000
    },
    {
      "epoch": 921.76,
      "learning_rate": 2.098761897680132e-05,
      "loss": 0.3848,
      "step": 47010
    },
    {
      "epoch": 921.96,
      "learning_rate": 2.095950965974817e-05,
      "loss": 0.3771,
      "step": 47020
    },
    {
      "epoch": 922.0,
      "eval_loss": 0.3890962600708008,
      "eval_runtime": 2.3192,
      "eval_samples_per_second": 982.67,
      "eval_steps_per_second": 3.881,
      "step": 47022
    },
    {
      "epoch": 922.16,
      "learning_rate": 2.0931416121312948e-05,
      "loss": 0.3789,
      "step": 47030
    },
    {
      "epoch": 922.35,
      "learning_rate": 2.0903338369698376e-05,
      "loss": 0.3837,
      "step": 47040
    },
    {
      "epoch": 922.55,
      "learning_rate": 2.0875276413102553e-05,
      "loss": 0.3806,
      "step": 47050
    },
    {
      "epoch": 922.75,
      "learning_rate": 2.084723025971889e-05,
      "loss": 0.3833,
      "step": 47060
    },
    {
      "epoch": 922.94,
      "learning_rate": 2.0819199917736294e-05,
      "loss": 0.3815,
      "step": 47070
    },
    {
      "epoch": 923.0,
      "eval_loss": 0.3886687457561493,
      "eval_runtime": 2.278,
      "eval_samples_per_second": 1000.437,
      "eval_steps_per_second": 3.951,
      "step": 47073
    },
    {
      "epoch": 923.14,
      "learning_rate": 2.0791185395338944e-05,
      "loss": 0.3829,
      "step": 47080
    },
    {
      "epoch": 923.33,
      "learning_rate": 2.076318670070649e-05,
      "loss": 0.3815,
      "step": 47090
    },
    {
      "epoch": 923.53,
      "learning_rate": 2.0735203842013924e-05,
      "loss": 0.384,
      "step": 47100
    },
    {
      "epoch": 923.73,
      "learning_rate": 2.0707236827431635e-05,
      "loss": 0.3862,
      "step": 47110
    },
    {
      "epoch": 923.92,
      "learning_rate": 2.0679285665125343e-05,
      "loss": 0.3827,
      "step": 47120
    },
    {
      "epoch": 924.0,
      "eval_loss": 0.39016667008399963,
      "eval_runtime": 2.192,
      "eval_samples_per_second": 1039.686,
      "eval_steps_per_second": 4.106,
      "step": 47124
    },
    {
      "epoch": 924.12,
      "learning_rate": 2.0651350363256144e-05,
      "loss": 0.3817,
      "step": 47130
    },
    {
      "epoch": 924.31,
      "learning_rate": 2.062343092998055e-05,
      "loss": 0.379,
      "step": 47140
    },
    {
      "epoch": 924.51,
      "learning_rate": 2.0595527373450406e-05,
      "loss": 0.3816,
      "step": 47150
    },
    {
      "epoch": 924.71,
      "learning_rate": 2.0567639701812956e-05,
      "loss": 0.3834,
      "step": 47160
    },
    {
      "epoch": 924.9,
      "learning_rate": 2.0539767923210733e-05,
      "loss": 0.3828,
      "step": 47170
    },
    {
      "epoch": 925.0,
      "eval_loss": 0.39003047347068787,
      "eval_runtime": 2.2931,
      "eval_samples_per_second": 993.858,
      "eval_steps_per_second": 3.925,
      "step": 47175
    },
    {
      "epoch": 925.1,
      "learning_rate": 2.0511912045781716e-05,
      "loss": 0.3807,
      "step": 47180
    },
    {
      "epoch": 925.29,
      "learning_rate": 2.0484072077659158e-05,
      "loss": 0.3796,
      "step": 47190
    },
    {
      "epoch": 925.49,
      "learning_rate": 2.045624802697173e-05,
      "loss": 0.3844,
      "step": 47200
    },
    {
      "epoch": 925.69,
      "learning_rate": 2.0428439901843452e-05,
      "loss": 0.3805,
      "step": 47210
    },
    {
      "epoch": 925.88,
      "learning_rate": 2.0400647710393635e-05,
      "loss": 0.3861,
      "step": 47220
    },
    {
      "epoch": 926.0,
      "eval_loss": 0.39150747656822205,
      "eval_runtime": 2.2942,
      "eval_samples_per_second": 993.379,
      "eval_steps_per_second": 3.923,
      "step": 47226
    },
    {
      "epoch": 926.08,
      "learning_rate": 2.037287146073703e-05,
      "loss": 0.3812,
      "step": 47230
    },
    {
      "epoch": 926.27,
      "learning_rate": 2.0345111160983632e-05,
      "loss": 0.3801,
      "step": 47240
    },
    {
      "epoch": 926.47,
      "learning_rate": 2.0317366819238855e-05,
      "loss": 0.3837,
      "step": 47250
    },
    {
      "epoch": 926.67,
      "learning_rate": 2.0289638443603447e-05,
      "loss": 0.3836,
      "step": 47260
    },
    {
      "epoch": 926.86,
      "learning_rate": 2.0261926042173433e-05,
      "loss": 0.383,
      "step": 47270
    },
    {
      "epoch": 927.0,
      "eval_loss": 0.39107587933540344,
      "eval_runtime": 2.2238,
      "eval_samples_per_second": 1024.819,
      "eval_steps_per_second": 4.047,
      "step": 47277
    },
    {
      "epoch": 927.06,
      "learning_rate": 2.023422962304026e-05,
      "loss": 0.3848,
      "step": 47280
    },
    {
      "epoch": 927.25,
      "learning_rate": 2.0206549194290613e-05,
      "loss": 0.3828,
      "step": 47290
    },
    {
      "epoch": 927.45,
      "learning_rate": 2.0178884764006595e-05,
      "loss": 0.3804,
      "step": 47300
    },
    {
      "epoch": 927.65,
      "learning_rate": 2.0151236340265593e-05,
      "loss": 0.3857,
      "step": 47310
    },
    {
      "epoch": 927.84,
      "learning_rate": 2.0123603931140354e-05,
      "loss": 0.3785,
      "step": 47320
    },
    {
      "epoch": 928.0,
      "eval_loss": 0.3836647570133209,
      "eval_runtime": 2.3837,
      "eval_samples_per_second": 956.084,
      "eval_steps_per_second": 3.776,
      "step": 47328
    },
    {
      "epoch": 928.04,
      "learning_rate": 2.0095987544698916e-05,
      "loss": 0.3847,
      "step": 47330
    },
    {
      "epoch": 928.24,
      "learning_rate": 2.0068387189004604e-05,
      "loss": 0.3833,
      "step": 47340
    },
    {
      "epoch": 928.43,
      "learning_rate": 2.004080287211614e-05,
      "loss": 0.3813,
      "step": 47350
    },
    {
      "epoch": 928.63,
      "learning_rate": 2.0013234602087526e-05,
      "loss": 0.3792,
      "step": 47360
    },
    {
      "epoch": 928.82,
      "learning_rate": 1.998568238696811e-05,
      "loss": 0.3825,
      "step": 47370
    },
    {
      "epoch": 929.0,
      "eval_loss": 0.3878856301307678,
      "eval_runtime": 2.2175,
      "eval_samples_per_second": 1027.725,
      "eval_steps_per_second": 4.059,
      "step": 47379
    },
    {
      "epoch": 929.02,
      "learning_rate": 1.9958146234802504e-05,
      "loss": 0.3804,
      "step": 47380
    },
    {
      "epoch": 929.22,
      "learning_rate": 1.9930626153630614e-05,
      "loss": 0.3808,
      "step": 47390
    },
    {
      "epoch": 929.41,
      "learning_rate": 1.9903122151487725e-05,
      "loss": 0.3789,
      "step": 47400
    },
    {
      "epoch": 929.61,
      "learning_rate": 1.9875634236404388e-05,
      "loss": 0.382,
      "step": 47410
    },
    {
      "epoch": 929.8,
      "learning_rate": 1.984816241640648e-05,
      "loss": 0.3786,
      "step": 47420
    },
    {
      "epoch": 930.0,
      "learning_rate": 1.982070669951513e-05,
      "loss": 0.3793,
      "step": 47430
    },
    {
      "epoch": 930.0,
      "eval_loss": 0.39214441180229187,
      "eval_runtime": 2.3109,
      "eval_samples_per_second": 986.177,
      "eval_steps_per_second": 3.895,
      "step": 47430
    },
    {
      "epoch": 930.2,
      "learning_rate": 1.9793267093746814e-05,
      "loss": 0.3809,
      "step": 47440
    },
    {
      "epoch": 930.39,
      "learning_rate": 1.976584360711326e-05,
      "loss": 0.3851,
      "step": 47450
    },
    {
      "epoch": 930.59,
      "learning_rate": 1.9738436247621536e-05,
      "loss": 0.3829,
      "step": 47460
    },
    {
      "epoch": 930.78,
      "learning_rate": 1.971104502327399e-05,
      "loss": 0.3799,
      "step": 47470
    },
    {
      "epoch": 930.98,
      "learning_rate": 1.968366994206822e-05,
      "loss": 0.3836,
      "step": 47480
    },
    {
      "epoch": 931.0,
      "eval_loss": 0.38933873176574707,
      "eval_runtime": 2.3912,
      "eval_samples_per_second": 953.091,
      "eval_steps_per_second": 3.764,
      "step": 47481
    },
    {
      "epoch": 931.18,
      "learning_rate": 1.9656311011997168e-05,
      "loss": 0.3799,
      "step": 47490
    },
    {
      "epoch": 931.37,
      "learning_rate": 1.9628968241049e-05,
      "loss": 0.3838,
      "step": 47500
    },
    {
      "epoch": 931.57,
      "learning_rate": 1.9601641637207204e-05,
      "loss": 0.3878,
      "step": 47510
    },
    {
      "epoch": 931.76,
      "learning_rate": 1.9574331208450575e-05,
      "loss": 0.3797,
      "step": 47520
    },
    {
      "epoch": 931.96,
      "learning_rate": 1.9547036962753097e-05,
      "loss": 0.3858,
      "step": 47530
    },
    {
      "epoch": 932.0,
      "eval_loss": 0.38738271594047546,
      "eval_runtime": 2.2401,
      "eval_samples_per_second": 1017.363,
      "eval_steps_per_second": 4.018,
      "step": 47532
    },
    {
      "epoch": 932.16,
      "learning_rate": 1.9519758908084132e-05,
      "loss": 0.3813,
      "step": 47540
    },
    {
      "epoch": 932.35,
      "learning_rate": 1.9492497052408204e-05,
      "loss": 0.3814,
      "step": 47550
    },
    {
      "epoch": 932.55,
      "learning_rate": 1.9465251403685207e-05,
      "loss": 0.3827,
      "step": 47560
    },
    {
      "epoch": 932.75,
      "learning_rate": 1.9438021969870248e-05,
      "loss": 0.3792,
      "step": 47570
    },
    {
      "epoch": 932.94,
      "learning_rate": 1.9410808758913747e-05,
      "loss": 0.387,
      "step": 47580
    },
    {
      "epoch": 933.0,
      "eval_loss": 0.3881475627422333,
      "eval_runtime": 2.3304,
      "eval_samples_per_second": 977.924,
      "eval_steps_per_second": 3.862,
      "step": 47583
    },
    {
      "epoch": 933.14,
      "learning_rate": 1.938361177876133e-05,
      "loss": 0.3814,
      "step": 47590
    },
    {
      "epoch": 933.33,
      "learning_rate": 1.935643103735389e-05,
      "loss": 0.3805,
      "step": 47600
    },
    {
      "epoch": 933.53,
      "learning_rate": 1.9329266542627614e-05,
      "loss": 0.3807,
      "step": 47610
    },
    {
      "epoch": 933.73,
      "learning_rate": 1.9302118302513926e-05,
      "loss": 0.3796,
      "step": 47620
    },
    {
      "epoch": 933.92,
      "learning_rate": 1.927498632493953e-05,
      "loss": 0.3855,
      "step": 47630
    },
    {
      "epoch": 934.0,
      "eval_loss": 0.3862844705581665,
      "eval_runtime": 2.2897,
      "eval_samples_per_second": 995.32,
      "eval_steps_per_second": 3.931,
      "step": 47634
    },
    {
      "epoch": 934.12,
      "learning_rate": 1.9247870617826323e-05,
      "loss": 0.3807,
      "step": 47640
    },
    {
      "epoch": 934.31,
      "learning_rate": 1.9220771189091515e-05,
      "loss": 0.3788,
      "step": 47650
    },
    {
      "epoch": 934.51,
      "learning_rate": 1.919368804664751e-05,
      "loss": 0.3823,
      "step": 47660
    },
    {
      "epoch": 934.71,
      "learning_rate": 1.9166621198401992e-05,
      "loss": 0.3811,
      "step": 47670
    },
    {
      "epoch": 934.9,
      "learning_rate": 1.9139570652257897e-05,
      "loss": 0.3813,
      "step": 47680
    },
    {
      "epoch": 935.0,
      "eval_loss": 0.38326093554496765,
      "eval_runtime": 2.2607,
      "eval_samples_per_second": 1008.081,
      "eval_steps_per_second": 3.981,
      "step": 47685
    },
    {
      "epoch": 935.1,
      "learning_rate": 1.911253641611334e-05,
      "loss": 0.379,
      "step": 47690
    },
    {
      "epoch": 935.29,
      "learning_rate": 1.9085518497861766e-05,
      "loss": 0.3842,
      "step": 47700
    },
    {
      "epoch": 935.49,
      "learning_rate": 1.9058516905391757e-05,
      "loss": 0.378,
      "step": 47710
    },
    {
      "epoch": 935.69,
      "learning_rate": 1.9031531646587185e-05,
      "loss": 0.3811,
      "step": 47720
    },
    {
      "epoch": 935.88,
      "learning_rate": 1.9004562729327182e-05,
      "loss": 0.3787,
      "step": 47730
    },
    {
      "epoch": 936.0,
      "eval_loss": 0.387604683637619,
      "eval_runtime": 2.2353,
      "eval_samples_per_second": 1019.552,
      "eval_steps_per_second": 4.026,
      "step": 47736
    },
    {
      "epoch": 936.08,
      "learning_rate": 1.897761016148602e-05,
      "loss": 0.3787,
      "step": 47740
    },
    {
      "epoch": 936.27,
      "learning_rate": 1.8950673950933296e-05,
      "loss": 0.3826,
      "step": 47750
    },
    {
      "epoch": 936.47,
      "learning_rate": 1.8923754105533733e-05,
      "loss": 0.3797,
      "step": 47760
    },
    {
      "epoch": 936.67,
      "learning_rate": 1.889685063314734e-05,
      "loss": 0.3848,
      "step": 47770
    },
    {
      "epoch": 936.86,
      "learning_rate": 1.8869963541629353e-05,
      "loss": 0.3834,
      "step": 47780
    },
    {
      "epoch": 937.0,
      "eval_loss": 0.38703593611717224,
      "eval_runtime": 2.28,
      "eval_samples_per_second": 999.577,
      "eval_steps_per_second": 3.947,
      "step": 47787
    },
    {
      "epoch": 937.06,
      "learning_rate": 1.8843092838830206e-05,
      "loss": 0.381,
      "step": 47790
    },
    {
      "epoch": 937.25,
      "learning_rate": 1.8816238532595532e-05,
      "loss": 0.3802,
      "step": 47800
    },
    {
      "epoch": 937.45,
      "learning_rate": 1.8789400630766168e-05,
      "loss": 0.3742,
      "step": 47810
    },
    {
      "epoch": 937.65,
      "learning_rate": 1.8762579141178198e-05,
      "loss": 0.3801,
      "step": 47820
    },
    {
      "epoch": 937.84,
      "learning_rate": 1.87357740716629e-05,
      "loss": 0.3807,
      "step": 47830
    },
    {
      "epoch": 938.0,
      "eval_loss": 0.3838607668876648,
      "eval_runtime": 2.2246,
      "eval_samples_per_second": 1024.454,
      "eval_steps_per_second": 4.046,
      "step": 47838
    },
    {
      "epoch": 938.04,
      "learning_rate": 1.8708985430046785e-05,
      "loss": 0.3805,
      "step": 47840
    },
    {
      "epoch": 938.24,
      "learning_rate": 1.868221322415149e-05,
      "loss": 0.3789,
      "step": 47850
    },
    {
      "epoch": 938.43,
      "learning_rate": 1.8655457461793947e-05,
      "loss": 0.3759,
      "step": 47860
    },
    {
      "epoch": 938.63,
      "learning_rate": 1.8628718150786196e-05,
      "loss": 0.3823,
      "step": 47870
    },
    {
      "epoch": 938.82,
      "learning_rate": 1.8601995298935548e-05,
      "loss": 0.3788,
      "step": 47880
    },
    {
      "epoch": 939.0,
      "eval_loss": 0.3863469660282135,
      "eval_runtime": 2.3287,
      "eval_samples_per_second": 978.651,
      "eval_steps_per_second": 3.865,
      "step": 47889
    },
    {
      "epoch": 939.02,
      "learning_rate": 1.8575288914044497e-05,
      "loss": 0.3787,
      "step": 47890
    },
    {
      "epoch": 939.22,
      "learning_rate": 1.8548599003910664e-05,
      "loss": 0.3816,
      "step": 47900
    },
    {
      "epoch": 939.41,
      "learning_rate": 1.8521925576326955e-05,
      "loss": 0.3785,
      "step": 47910
    },
    {
      "epoch": 939.61,
      "learning_rate": 1.8495268639081373e-05,
      "loss": 0.384,
      "step": 47920
    },
    {
      "epoch": 939.8,
      "learning_rate": 1.846862819995718e-05,
      "loss": 0.3861,
      "step": 47930
    },
    {
      "epoch": 940.0,
      "learning_rate": 1.8442004266732787e-05,
      "loss": 0.3788,
      "step": 47940
    },
    {
      "epoch": 940.0,
      "eval_loss": 0.38470685482025146,
      "eval_runtime": 2.281,
      "eval_samples_per_second": 999.111,
      "eval_steps_per_second": 3.946,
      "step": 47940
    },
    {
      "epoch": 940.2,
      "learning_rate": 1.8415396847181766e-05,
      "loss": 0.3786,
      "step": 47950
    },
    {
      "epoch": 940.39,
      "learning_rate": 1.838880594907294e-05,
      "loss": 0.3824,
      "step": 47960
    },
    {
      "epoch": 940.59,
      "learning_rate": 1.8362231580170186e-05,
      "loss": 0.3843,
      "step": 47970
    },
    {
      "epoch": 940.78,
      "learning_rate": 1.8335673748232674e-05,
      "loss": 0.3859,
      "step": 47980
    },
    {
      "epoch": 940.98,
      "learning_rate": 1.8309132461014688e-05,
      "loss": 0.3819,
      "step": 47990
    },
    {
      "epoch": 941.0,
      "eval_loss": 0.3876339793205261,
      "eval_runtime": 2.2305,
      "eval_samples_per_second": 1021.726,
      "eval_steps_per_second": 4.035,
      "step": 47991
    },
    {
      "epoch": 941.18,
      "learning_rate": 1.8282607726265716e-05,
      "loss": 0.3788,
      "step": 48000
    },
    {
      "epoch": 941.37,
      "learning_rate": 1.825609955173037e-05,
      "loss": 0.3834,
      "step": 48010
    },
    {
      "epoch": 941.57,
      "learning_rate": 1.822960794514842e-05,
      "loss": 0.3777,
      "step": 48020
    },
    {
      "epoch": 941.76,
      "learning_rate": 1.8203132914254847e-05,
      "loss": 0.3827,
      "step": 48030
    },
    {
      "epoch": 941.96,
      "learning_rate": 1.817667446677977e-05,
      "loss": 0.3814,
      "step": 48040
    },
    {
      "epoch": 942.0,
      "eval_loss": 0.38454288244247437,
      "eval_runtime": 2.3427,
      "eval_samples_per_second": 972.806,
      "eval_steps_per_second": 3.842,
      "step": 48042
    },
    {
      "epoch": 942.16,
      "learning_rate": 1.8150232610448492e-05,
      "loss": 0.3836,
      "step": 48050
    },
    {
      "epoch": 942.35,
      "learning_rate": 1.812380735298139e-05,
      "loss": 0.3805,
      "step": 48060
    },
    {
      "epoch": 942.55,
      "learning_rate": 1.8097398702094106e-05,
      "loss": 0.3773,
      "step": 48070
    },
    {
      "epoch": 942.75,
      "learning_rate": 1.8071006665497327e-05,
      "loss": 0.3781,
      "step": 48080
    },
    {
      "epoch": 942.94,
      "learning_rate": 1.8044631250896958e-05,
      "loss": 0.3817,
      "step": 48090
    },
    {
      "epoch": 943.0,
      "eval_loss": 0.3829639256000519,
      "eval_runtime": 2.3281,
      "eval_samples_per_second": 978.891,
      "eval_steps_per_second": 3.866,
      "step": 48093
    },
    {
      "epoch": 943.14,
      "learning_rate": 1.8018272465994058e-05,
      "loss": 0.3792,
      "step": 48100
    },
    {
      "epoch": 943.33,
      "learning_rate": 1.7991930318484763e-05,
      "loss": 0.3781,
      "step": 48110
    },
    {
      "epoch": 943.53,
      "learning_rate": 1.7965604816060436e-05,
      "loss": 0.3822,
      "step": 48120
    },
    {
      "epoch": 943.73,
      "learning_rate": 1.7939295966407478e-05,
      "loss": 0.3778,
      "step": 48130
    },
    {
      "epoch": 943.92,
      "learning_rate": 1.7913003777207533e-05,
      "loss": 0.3838,
      "step": 48140
    },
    {
      "epoch": 944.0,
      "eval_loss": 0.388039231300354,
      "eval_runtime": 2.3308,
      "eval_samples_per_second": 977.761,
      "eval_steps_per_second": 3.861,
      "step": 48144
    },
    {
      "epoch": 944.12,
      "learning_rate": 1.7886728256137345e-05,
      "loss": 0.3834,
      "step": 48150
    },
    {
      "epoch": 944.31,
      "learning_rate": 1.786046941086873e-05,
      "loss": 0.3813,
      "step": 48160
    },
    {
      "epoch": 944.51,
      "learning_rate": 1.783422724906873e-05,
      "loss": 0.3789,
      "step": 48170
    },
    {
      "epoch": 944.71,
      "learning_rate": 1.7808001778399432e-05,
      "loss": 0.3765,
      "step": 48180
    },
    {
      "epoch": 944.9,
      "learning_rate": 1.7781793006518112e-05,
      "loss": 0.3787,
      "step": 48190
    },
    {
      "epoch": 945.0,
      "eval_loss": 0.3880222737789154,
      "eval_runtime": 2.2771,
      "eval_samples_per_second": 1000.828,
      "eval_steps_per_second": 3.952,
      "step": 48195
    },
    {
      "epoch": 945.1,
      "learning_rate": 1.7755600941077165e-05,
      "loss": 0.3771,
      "step": 48200
    },
    {
      "epoch": 945.29,
      "learning_rate": 1.772942558972405e-05,
      "loss": 0.3782,
      "step": 48210
    },
    {
      "epoch": 945.49,
      "learning_rate": 1.7703266960101425e-05,
      "loss": 0.3793,
      "step": 48220
    },
    {
      "epoch": 945.69,
      "learning_rate": 1.7677125059846983e-05,
      "loss": 0.3813,
      "step": 48230
    },
    {
      "epoch": 945.88,
      "learning_rate": 1.7650999896593602e-05,
      "loss": 0.3812,
      "step": 48240
    },
    {
      "epoch": 946.0,
      "eval_loss": 0.38842880725860596,
      "eval_runtime": 2.3222,
      "eval_samples_per_second": 981.39,
      "eval_steps_per_second": 3.876,
      "step": 48246
    },
    {
      "epoch": 946.08,
      "learning_rate": 1.7624891477969244e-05,
      "loss": 0.3814,
      "step": 48250
    },
    {
      "epoch": 946.27,
      "learning_rate": 1.7598799811597004e-05,
      "loss": 0.3784,
      "step": 48260
    },
    {
      "epoch": 946.47,
      "learning_rate": 1.7572724905095058e-05,
      "loss": 0.3796,
      "step": 48270
    },
    {
      "epoch": 946.67,
      "learning_rate": 1.7546666766076655e-05,
      "loss": 0.3824,
      "step": 48280
    },
    {
      "epoch": 946.86,
      "learning_rate": 1.7520625402150225e-05,
      "loss": 0.3806,
      "step": 48290
    },
    {
      "epoch": 947.0,
      "eval_loss": 0.38914692401885986,
      "eval_runtime": 2.3124,
      "eval_samples_per_second": 985.566,
      "eval_steps_per_second": 3.892,
      "step": 48297
    },
    {
      "epoch": 947.06,
      "learning_rate": 1.7494600820919264e-05,
      "loss": 0.3746,
      "step": 48300
    },
    {
      "epoch": 947.25,
      "learning_rate": 1.746859302998239e-05,
      "loss": 0.3777,
      "step": 48310
    },
    {
      "epoch": 947.45,
      "learning_rate": 1.7442602036933252e-05,
      "loss": 0.3768,
      "step": 48320
    },
    {
      "epoch": 947.65,
      "learning_rate": 1.7416627849360695e-05,
      "loss": 0.3803,
      "step": 48330
    },
    {
      "epoch": 947.84,
      "learning_rate": 1.7390670474848538e-05,
      "loss": 0.3816,
      "step": 48340
    },
    {
      "epoch": 948.0,
      "eval_loss": 0.3855222165584564,
      "eval_runtime": 2.2246,
      "eval_samples_per_second": 1024.441,
      "eval_steps_per_second": 4.046,
      "step": 48348
    },
    {
      "epoch": 948.04,
      "learning_rate": 1.73647299209758e-05,
      "loss": 0.3813,
      "step": 48350
    },
    {
      "epoch": 948.24,
      "learning_rate": 1.7338806195316555e-05,
      "loss": 0.3799,
      "step": 48360
    },
    {
      "epoch": 948.43,
      "learning_rate": 1.7312899305439903e-05,
      "loss": 0.3819,
      "step": 48370
    },
    {
      "epoch": 948.63,
      "learning_rate": 1.728700925891013e-05,
      "loss": 0.3781,
      "step": 48380
    },
    {
      "epoch": 948.82,
      "learning_rate": 1.7261136063286505e-05,
      "loss": 0.3813,
      "step": 48390
    },
    {
      "epoch": 949.0,
      "eval_loss": 0.38467514514923096,
      "eval_runtime": 2.2999,
      "eval_samples_per_second": 990.903,
      "eval_steps_per_second": 3.913,
      "step": 48399
    },
    {
      "epoch": 949.02,
      "learning_rate": 1.7235279726123456e-05,
      "loss": 0.3769,
      "step": 48400
    },
    {
      "epoch": 949.22,
      "learning_rate": 1.7209440254970467e-05,
      "loss": 0.3814,
      "step": 48410
    },
    {
      "epoch": 949.41,
      "learning_rate": 1.7183617657372047e-05,
      "loss": 0.3837,
      "step": 48420
    },
    {
      "epoch": 949.61,
      "learning_rate": 1.715781194086786e-05,
      "loss": 0.3795,
      "step": 48430
    },
    {
      "epoch": 949.8,
      "learning_rate": 1.713202311299256e-05,
      "loss": 0.378,
      "step": 48440
    },
    {
      "epoch": 950.0,
      "learning_rate": 1.7106251181275932e-05,
      "loss": 0.3811,
      "step": 48450
    },
    {
      "epoch": 950.0,
      "eval_loss": 0.38474026322364807,
      "eval_runtime": 2.3034,
      "eval_samples_per_second": 989.396,
      "eval_steps_per_second": 3.907,
      "step": 48450
    },
    {
      "epoch": 950.2,
      "learning_rate": 1.7080496153242798e-05,
      "loss": 0.3811,
      "step": 48460
    },
    {
      "epoch": 950.39,
      "learning_rate": 1.7054758036413086e-05,
      "loss": 0.3793,
      "step": 48470
    },
    {
      "epoch": 950.59,
      "learning_rate": 1.7029036838301716e-05,
      "loss": 0.378,
      "step": 48480
    },
    {
      "epoch": 950.78,
      "learning_rate": 1.700333256641869e-05,
      "loss": 0.3775,
      "step": 48490
    },
    {
      "epoch": 950.98,
      "learning_rate": 1.6977645228269106e-05,
      "loss": 0.3776,
      "step": 48500
    },
    {
      "epoch": 951.0,
      "eval_loss": 0.38311800360679626,
      "eval_runtime": 2.3155,
      "eval_samples_per_second": 984.221,
      "eval_steps_per_second": 3.887,
      "step": 48501
    },
    {
      "epoch": 951.18,
      "learning_rate": 1.6951974831353092e-05,
      "loss": 0.3787,
      "step": 48510
    },
    {
      "epoch": 951.37,
      "learning_rate": 1.6926321383165852e-05,
      "loss": 0.3782,
      "step": 48520
    },
    {
      "epoch": 951.57,
      "learning_rate": 1.6900684891197576e-05,
      "loss": 0.378,
      "step": 48530
    },
    {
      "epoch": 951.76,
      "learning_rate": 1.6875065362933595e-05,
      "loss": 0.378,
      "step": 48540
    },
    {
      "epoch": 951.96,
      "learning_rate": 1.684946280585419e-05,
      "loss": 0.3794,
      "step": 48550
    },
    {
      "epoch": 952.0,
      "eval_loss": 0.38669443130493164,
      "eval_runtime": 2.36,
      "eval_samples_per_second": 965.687,
      "eval_steps_per_second": 3.814,
      "step": 48552
    },
    {
      "epoch": 952.16,
      "learning_rate": 1.6823877227434774e-05,
      "loss": 0.3798,
      "step": 48560
    },
    {
      "epoch": 952.35,
      "learning_rate": 1.6798308635145765e-05,
      "loss": 0.3816,
      "step": 48570
    },
    {
      "epoch": 952.55,
      "learning_rate": 1.677275703645259e-05,
      "loss": 0.3793,
      "step": 48580
    },
    {
      "epoch": 952.75,
      "learning_rate": 1.674722243881579e-05,
      "loss": 0.3783,
      "step": 48590
    },
    {
      "epoch": 952.94,
      "learning_rate": 1.672170484969086e-05,
      "loss": 0.3782,
      "step": 48600
    },
    {
      "epoch": 953.0,
      "eval_loss": 0.38120561838150024,
      "eval_runtime": 2.3996,
      "eval_samples_per_second": 949.743,
      "eval_steps_per_second": 3.751,
      "step": 48603
    },
    {
      "epoch": 953.14,
      "learning_rate": 1.6696204276528375e-05,
      "loss": 0.3754,
      "step": 48610
    },
    {
      "epoch": 953.33,
      "learning_rate": 1.6670720726773965e-05,
      "loss": 0.3837,
      "step": 48620
    },
    {
      "epoch": 953.53,
      "learning_rate": 1.6645254207868203e-05,
      "loss": 0.38,
      "step": 48630
    },
    {
      "epoch": 953.73,
      "learning_rate": 1.661980472724681e-05,
      "loss": 0.3779,
      "step": 48640
    },
    {
      "epoch": 953.92,
      "learning_rate": 1.6594372292340403e-05,
      "loss": 0.3834,
      "step": 48650
    },
    {
      "epoch": 954.0,
      "eval_loss": 0.38515594601631165,
      "eval_runtime": 2.3227,
      "eval_samples_per_second": 981.17,
      "eval_steps_per_second": 3.875,
      "step": 48654
    },
    {
      "epoch": 954.12,
      "learning_rate": 1.6568956910574713e-05,
      "loss": 0.3766,
      "step": 48660
    },
    {
      "epoch": 954.31,
      "learning_rate": 1.6543558589370472e-05,
      "loss": 0.3815,
      "step": 48670
    },
    {
      "epoch": 954.51,
      "learning_rate": 1.6518177336143434e-05,
      "loss": 0.383,
      "step": 48680
    },
    {
      "epoch": 954.71,
      "learning_rate": 1.6492813158304344e-05,
      "loss": 0.3795,
      "step": 48690
    },
    {
      "epoch": 954.9,
      "learning_rate": 1.6467466063258956e-05,
      "loss": 0.3785,
      "step": 48700
    },
    {
      "epoch": 955.0,
      "eval_loss": 0.3830149173736572,
      "eval_runtime": 2.3291,
      "eval_samples_per_second": 978.479,
      "eval_steps_per_second": 3.864,
      "step": 48705
    },
    {
      "epoch": 955.1,
      "learning_rate": 1.6442136058408073e-05,
      "loss": 0.3811,
      "step": 48710
    },
    {
      "epoch": 955.29,
      "learning_rate": 1.6416823151147498e-05,
      "loss": 0.3839,
      "step": 48720
    },
    {
      "epoch": 955.49,
      "learning_rate": 1.6391527348868047e-05,
      "loss": 0.3788,
      "step": 48730
    },
    {
      "epoch": 955.69,
      "learning_rate": 1.6366248658955496e-05,
      "loss": 0.3777,
      "step": 48740
    },
    {
      "epoch": 955.88,
      "learning_rate": 1.6340987088790696e-05,
      "loss": 0.3789,
      "step": 48750
    },
    {
      "epoch": 956.0,
      "eval_loss": 0.3851874768733978,
      "eval_runtime": 2.2442,
      "eval_samples_per_second": 1015.509,
      "eval_steps_per_second": 4.01,
      "step": 48756
    },
    {
      "epoch": 956.08,
      "learning_rate": 1.6315742645749423e-05,
      "loss": 0.3794,
      "step": 48760
    },
    {
      "epoch": 956.27,
      "learning_rate": 1.6290515337202516e-05,
      "loss": 0.3801,
      "step": 48770
    },
    {
      "epoch": 956.47,
      "learning_rate": 1.6265305170515798e-05,
      "loss": 0.3787,
      "step": 48780
    },
    {
      "epoch": 956.67,
      "learning_rate": 1.6240112153050038e-05,
      "loss": 0.3808,
      "step": 48790
    },
    {
      "epoch": 956.86,
      "learning_rate": 1.6214936292161072e-05,
      "loss": 0.3801,
      "step": 48800
    },
    {
      "epoch": 957.0,
      "eval_loss": 0.38819777965545654,
      "eval_runtime": 2.2645,
      "eval_samples_per_second": 1006.408,
      "eval_steps_per_second": 3.974,
      "step": 48807
    },
    {
      "epoch": 957.06,
      "learning_rate": 1.6189777595199663e-05,
      "loss": 0.3766,
      "step": 48810
    },
    {
      "epoch": 957.25,
      "learning_rate": 1.6164636069511606e-05,
      "loss": 0.3797,
      "step": 48820
    },
    {
      "epoch": 957.45,
      "learning_rate": 1.613951172243767e-05,
      "loss": 0.3823,
      "step": 48830
    },
    {
      "epoch": 957.65,
      "learning_rate": 1.6114404561313583e-05,
      "loss": 0.3768,
      "step": 48840
    },
    {
      "epoch": 957.84,
      "learning_rate": 1.60893145934701e-05,
      "loss": 0.3771,
      "step": 48850
    },
    {
      "epoch": 958.0,
      "eval_loss": 0.38420116901397705,
      "eval_runtime": 2.2468,
      "eval_samples_per_second": 1014.35,
      "eval_steps_per_second": 4.006,
      "step": 48858
    },
    {
      "epoch": 958.04,
      "learning_rate": 1.60642418262329e-05,
      "loss": 0.3806,
      "step": 48860
    },
    {
      "epoch": 958.24,
      "learning_rate": 1.6039186266922693e-05,
      "loss": 0.3787,
      "step": 48870
    },
    {
      "epoch": 958.43,
      "learning_rate": 1.6014147922855168e-05,
      "loss": 0.3784,
      "step": 48880
    },
    {
      "epoch": 958.63,
      "learning_rate": 1.5989126801340914e-05,
      "loss": 0.3739,
      "step": 48890
    },
    {
      "epoch": 958.82,
      "learning_rate": 1.5964122909685588e-05,
      "loss": 0.3808,
      "step": 48900
    },
    {
      "epoch": 959.0,
      "eval_loss": 0.3839624524116516,
      "eval_runtime": 2.2667,
      "eval_samples_per_second": 1005.427,
      "eval_steps_per_second": 3.971,
      "step": 48909
    },
    {
      "epoch": 959.02,
      "learning_rate": 1.5939136255189715e-05,
      "loss": 0.3793,
      "step": 48910
    },
    {
      "epoch": 959.22,
      "learning_rate": 1.5914166845148876e-05,
      "loss": 0.3776,
      "step": 48920
    },
    {
      "epoch": 959.41,
      "learning_rate": 1.5889214686853578e-05,
      "loss": 0.3781,
      "step": 48930
    },
    {
      "epoch": 959.61,
      "learning_rate": 1.5864279787589306e-05,
      "loss": 0.3814,
      "step": 48940
    },
    {
      "epoch": 959.8,
      "learning_rate": 1.5839362154636485e-05,
      "loss": 0.3793,
      "step": 48950
    },
    {
      "epoch": 960.0,
      "learning_rate": 1.581446179527049e-05,
      "loss": 0.3762,
      "step": 48960
    },
    {
      "epoch": 960.0,
      "eval_loss": 0.3849249482154846,
      "eval_runtime": 2.1949,
      "eval_samples_per_second": 1038.309,
      "eval_steps_per_second": 4.1,
      "step": 48960
    },
    {
      "epoch": 960.2,
      "learning_rate": 1.578957871676168e-05,
      "loss": 0.3752,
      "step": 48970
    },
    {
      "epoch": 960.39,
      "learning_rate": 1.5764712926375365e-05,
      "loss": 0.3755,
      "step": 48980
    },
    {
      "epoch": 960.59,
      "learning_rate": 1.5739864431371816e-05,
      "loss": 0.3833,
      "step": 48990
    },
    {
      "epoch": 960.78,
      "learning_rate": 1.5715033239006214e-05,
      "loss": 0.3765,
      "step": 49000
    },
    {
      "epoch": 960.98,
      "learning_rate": 1.5690219356528737e-05,
      "loss": 0.3777,
      "step": 49010
    },
    {
      "epoch": 961.0,
      "eval_loss": 0.38420653343200684,
      "eval_runtime": 2.4626,
      "eval_samples_per_second": 925.439,
      "eval_steps_per_second": 3.655,
      "step": 49011
    },
    {
      "epoch": 961.18,
      "learning_rate": 1.566542279118445e-05,
      "loss": 0.3807,
      "step": 49020
    },
    {
      "epoch": 961.37,
      "learning_rate": 1.564064355021342e-05,
      "loss": 0.3801,
      "step": 49030
    },
    {
      "epoch": 961.57,
      "learning_rate": 1.5615881640850652e-05,
      "loss": 0.3761,
      "step": 49040
    },
    {
      "epoch": 961.76,
      "learning_rate": 1.5591137070326027e-05,
      "loss": 0.379,
      "step": 49050
    },
    {
      "epoch": 961.96,
      "learning_rate": 1.5566409845864454e-05,
      "loss": 0.3781,
      "step": 49060
    },
    {
      "epoch": 962.0,
      "eval_loss": 0.3874445855617523,
      "eval_runtime": 2.1852,
      "eval_samples_per_second": 1042.935,
      "eval_steps_per_second": 4.119,
      "step": 49062
    },
    {
      "epoch": 962.16,
      "learning_rate": 1.554169997468569e-05,
      "loss": 0.3793,
      "step": 49070
    },
    {
      "epoch": 962.35,
      "learning_rate": 1.5517007464004482e-05,
      "loss": 0.3771,
      "step": 49080
    },
    {
      "epoch": 962.55,
      "learning_rate": 1.5492332321030517e-05,
      "loss": 0.3779,
      "step": 49090
    },
    {
      "epoch": 962.75,
      "learning_rate": 1.546767455296834e-05,
      "loss": 0.3808,
      "step": 49100
    },
    {
      "epoch": 962.94,
      "learning_rate": 1.5443034167017524e-05,
      "loss": 0.3781,
      "step": 49110
    },
    {
      "epoch": 963.0,
      "eval_loss": 0.3837532699108124,
      "eval_runtime": 2.345,
      "eval_samples_per_second": 971.842,
      "eval_steps_per_second": 3.838,
      "step": 49113
    },
    {
      "epoch": 963.14,
      "learning_rate": 1.5418411170372452e-05,
      "loss": 0.3771,
      "step": 49120
    },
    {
      "epoch": 963.33,
      "learning_rate": 1.5393805570222524e-05,
      "loss": 0.3781,
      "step": 49130
    },
    {
      "epoch": 963.53,
      "learning_rate": 1.5369217373752023e-05,
      "loss": 0.3766,
      "step": 49140
    },
    {
      "epoch": 963.73,
      "learning_rate": 1.534464658814017e-05,
      "loss": 0.3766,
      "step": 49150
    },
    {
      "epoch": 963.92,
      "learning_rate": 1.532009322056107e-05,
      "loss": 0.376,
      "step": 49160
    },
    {
      "epoch": 964.0,
      "eval_loss": 0.3862951695919037,
      "eval_runtime": 2.2938,
      "eval_samples_per_second": 993.556,
      "eval_steps_per_second": 3.924,
      "step": 49164
    },
    {
      "epoch": 964.12,
      "learning_rate": 1.529555727818374e-05,
      "loss": 0.3788,
      "step": 49170
    },
    {
      "epoch": 964.31,
      "learning_rate": 1.5271038768172144e-05,
      "loss": 0.3788,
      "step": 49180
    },
    {
      "epoch": 964.51,
      "learning_rate": 1.5246537697685143e-05,
      "loss": 0.3767,
      "step": 49190
    },
    {
      "epoch": 964.71,
      "learning_rate": 1.5222054073876527e-05,
      "loss": 0.3779,
      "step": 49200
    },
    {
      "epoch": 964.9,
      "learning_rate": 1.5197587903894929e-05,
      "loss": 0.3777,
      "step": 49210
    },
    {
      "epoch": 965.0,
      "eval_loss": 0.3826569616794586,
      "eval_runtime": 2.3906,
      "eval_samples_per_second": 953.331,
      "eval_steps_per_second": 3.765,
      "step": 49215
    },
    {
      "epoch": 965.1,
      "learning_rate": 1.5173139194883948e-05,
      "loss": 0.3756,
      "step": 49220
    },
    {
      "epoch": 965.29,
      "learning_rate": 1.5148707953982036e-05,
      "loss": 0.3765,
      "step": 49230
    },
    {
      "epoch": 965.49,
      "learning_rate": 1.5124294188322594e-05,
      "loss": 0.3776,
      "step": 49240
    },
    {
      "epoch": 965.69,
      "learning_rate": 1.5099897905033904e-05,
      "loss": 0.3812,
      "step": 49250
    },
    {
      "epoch": 965.88,
      "learning_rate": 1.5075519111239106e-05,
      "loss": 0.3808,
      "step": 49260
    },
    {
      "epoch": 966.0,
      "eval_loss": 0.38532519340515137,
      "eval_runtime": 2.2587,
      "eval_samples_per_second": 1008.974,
      "eval_steps_per_second": 3.985,
      "step": 49266
    },
    {
      "epoch": 966.08,
      "learning_rate": 1.5051157814056303e-05,
      "loss": 0.3771,
      "step": 49270
    },
    {
      "epoch": 966.27,
      "learning_rate": 1.502681402059841e-05,
      "loss": 0.3805,
      "step": 49280
    },
    {
      "epoch": 966.47,
      "learning_rate": 1.5002487737973293e-05,
      "loss": 0.3763,
      "step": 49290
    },
    {
      "epoch": 966.67,
      "learning_rate": 1.4978178973283703e-05,
      "loss": 0.3812,
      "step": 49300
    },
    {
      "epoch": 966.86,
      "learning_rate": 1.4953887733627213e-05,
      "loss": 0.3835,
      "step": 49310
    },
    {
      "epoch": 967.0,
      "eval_loss": 0.3868524432182312,
      "eval_runtime": 2.3298,
      "eval_samples_per_second": 978.194,
      "eval_steps_per_second": 3.863,
      "step": 49317
    },
    {
      "epoch": 967.06,
      "learning_rate": 1.4929614026096365e-05,
      "loss": 0.3793,
      "step": 49320
    },
    {
      "epoch": 967.25,
      "learning_rate": 1.4905357857778499e-05,
      "loss": 0.3769,
      "step": 49330
    },
    {
      "epoch": 967.45,
      "learning_rate": 1.488111923575591e-05,
      "loss": 0.3771,
      "step": 49340
    },
    {
      "epoch": 967.65,
      "learning_rate": 1.4856898167105707e-05,
      "loss": 0.381,
      "step": 49350
    },
    {
      "epoch": 967.84,
      "learning_rate": 1.4832694658899946e-05,
      "loss": 0.3801,
      "step": 49360
    },
    {
      "epoch": 968.0,
      "eval_loss": 0.3859129548072815,
      "eval_runtime": 2.3191,
      "eval_samples_per_second": 982.701,
      "eval_steps_per_second": 3.881,
      "step": 49368
    },
    {
      "epoch": 968.04,
      "learning_rate": 1.480850871820549e-05,
      "loss": 0.3765,
      "step": 49370
    },
    {
      "epoch": 968.24,
      "learning_rate": 1.4784340352084062e-05,
      "loss": 0.3785,
      "step": 49380
    },
    {
      "epoch": 968.43,
      "learning_rate": 1.4760189567592304e-05,
      "loss": 0.3763,
      "step": 49390
    },
    {
      "epoch": 968.63,
      "learning_rate": 1.4736056371781723e-05,
      "loss": 0.3771,
      "step": 49400
    },
    {
      "epoch": 968.82,
      "learning_rate": 1.4711940771698686e-05,
      "loss": 0.3839,
      "step": 49410
    },
    {
      "epoch": 969.0,
      "eval_loss": 0.38414880633354187,
      "eval_runtime": 2.2645,
      "eval_samples_per_second": 1006.397,
      "eval_steps_per_second": 3.974,
      "step": 49419
    },
    {
      "epoch": 969.02,
      "learning_rate": 1.4687842774384365e-05,
      "loss": 0.3796,
      "step": 49420
    },
    {
      "epoch": 969.22,
      "learning_rate": 1.4663762386874883e-05,
      "loss": 0.3757,
      "step": 49430
    },
    {
      "epoch": 969.41,
      "learning_rate": 1.4639699616201133e-05,
      "loss": 0.3808,
      "step": 49440
    },
    {
      "epoch": 969.61,
      "learning_rate": 1.4615654469388938e-05,
      "loss": 0.3708,
      "step": 49450
    },
    {
      "epoch": 969.8,
      "learning_rate": 1.4591626953458955e-05,
      "loss": 0.38,
      "step": 49460
    },
    {
      "epoch": 970.0,
      "learning_rate": 1.4567617075426638e-05,
      "loss": 0.3768,
      "step": 49470
    },
    {
      "epoch": 970.0,
      "eval_loss": 0.38485315442085266,
      "eval_runtime": 2.244,
      "eval_samples_per_second": 1015.601,
      "eval_steps_per_second": 4.011,
      "step": 49470
    },
    {
      "epoch": 970.2,
      "learning_rate": 1.4543624842302382e-05,
      "loss": 0.3777,
      "step": 49480
    },
    {
      "epoch": 970.39,
      "learning_rate": 1.4519650261091347e-05,
      "loss": 0.376,
      "step": 49490
    },
    {
      "epoch": 970.59,
      "learning_rate": 1.4495693338793595e-05,
      "loss": 0.3779,
      "step": 49500
    },
    {
      "epoch": 970.78,
      "learning_rate": 1.447175408240403e-05,
      "loss": 0.3753,
      "step": 49510
    },
    {
      "epoch": 970.98,
      "learning_rate": 1.4447832498912335e-05,
      "loss": 0.3797,
      "step": 49520
    },
    {
      "epoch": 971.0,
      "eval_loss": 0.38439249992370605,
      "eval_runtime": 2.2074,
      "eval_samples_per_second": 1032.431,
      "eval_steps_per_second": 4.077,
      "step": 49521
    },
    {
      "epoch": 971.18,
      "learning_rate": 1.442392859530313e-05,
      "loss": 0.3765,
      "step": 49530
    },
    {
      "epoch": 971.37,
      "learning_rate": 1.4400042378555784e-05,
      "loss": 0.3805,
      "step": 49540
    },
    {
      "epoch": 971.57,
      "learning_rate": 1.4376173855644544e-05,
      "loss": 0.3766,
      "step": 49550
    },
    {
      "epoch": 971.76,
      "learning_rate": 1.4352323033538523e-05,
      "loss": 0.3776,
      "step": 49560
    },
    {
      "epoch": 971.96,
      "learning_rate": 1.432848991920158e-05,
      "loss": 0.3763,
      "step": 49570
    },
    {
      "epoch": 972.0,
      "eval_loss": 0.38550448417663574,
      "eval_runtime": 2.3189,
      "eval_samples_per_second": 982.804,
      "eval_steps_per_second": 3.881,
      "step": 49572
    },
    {
      "epoch": 972.16,
      "learning_rate": 1.4304674519592496e-05,
      "loss": 0.3719,
      "step": 49580
    },
    {
      "epoch": 972.35,
      "learning_rate": 1.4280876841664793e-05,
      "loss": 0.3774,
      "step": 49590
    },
    {
      "epoch": 972.55,
      "learning_rate": 1.425709689236688e-05,
      "loss": 0.3792,
      "step": 49600
    },
    {
      "epoch": 972.75,
      "learning_rate": 1.4233334678641984e-05,
      "loss": 0.3802,
      "step": 49610
    },
    {
      "epoch": 972.94,
      "learning_rate": 1.4209590207428148e-05,
      "loss": 0.3788,
      "step": 49620
    },
    {
      "epoch": 973.0,
      "eval_loss": 0.3832288980484009,
      "eval_runtime": 2.3426,
      "eval_samples_per_second": 972.871,
      "eval_steps_per_second": 3.842,
      "step": 49623
    },
    {
      "epoch": 973.14,
      "learning_rate": 1.418586348565821e-05,
      "loss": 0.3797,
      "step": 49630
    },
    {
      "epoch": 973.33,
      "learning_rate": 1.4162154520259839e-05,
      "loss": 0.376,
      "step": 49640
    },
    {
      "epoch": 973.53,
      "learning_rate": 1.4138463318155527e-05,
      "loss": 0.3818,
      "step": 49650
    },
    {
      "epoch": 973.73,
      "learning_rate": 1.4114789886262576e-05,
      "loss": 0.3774,
      "step": 49660
    },
    {
      "epoch": 973.92,
      "learning_rate": 1.4091134231493131e-05,
      "loss": 0.374,
      "step": 49670
    },
    {
      "epoch": 974.0,
      "eval_loss": 0.3858170211315155,
      "eval_runtime": 2.3194,
      "eval_samples_per_second": 982.599,
      "eval_steps_per_second": 3.88,
      "step": 49674
    },
    {
      "epoch": 974.12,
      "learning_rate": 1.4067496360754078e-05,
      "loss": 0.3829,
      "step": 49680
    },
    {
      "epoch": 974.31,
      "learning_rate": 1.4043876280947175e-05,
      "loss": 0.3772,
      "step": 49690
    },
    {
      "epoch": 974.51,
      "learning_rate": 1.4020273998968918e-05,
      "loss": 0.376,
      "step": 49700
    },
    {
      "epoch": 974.71,
      "learning_rate": 1.3996689521710683e-05,
      "loss": 0.373,
      "step": 49710
    },
    {
      "epoch": 974.9,
      "learning_rate": 1.3973122856058614e-05,
      "loss": 0.3785,
      "step": 49720
    },
    {
      "epoch": 975.0,
      "eval_loss": 0.38047897815704346,
      "eval_runtime": 2.3373,
      "eval_samples_per_second": 975.043,
      "eval_steps_per_second": 3.851,
      "step": 49725
    },
    {
      "epoch": 975.1,
      "learning_rate": 1.3949574008893629e-05,
      "loss": 0.3775,
      "step": 49730
    },
    {
      "epoch": 975.29,
      "learning_rate": 1.392604298709149e-05,
      "loss": 0.3805,
      "step": 49740
    },
    {
      "epoch": 975.49,
      "learning_rate": 1.39025297975227e-05,
      "loss": 0.3765,
      "step": 49750
    },
    {
      "epoch": 975.69,
      "learning_rate": 1.3879034447052597e-05,
      "loss": 0.3808,
      "step": 49760
    },
    {
      "epoch": 975.88,
      "learning_rate": 1.3855556942541333e-05,
      "loss": 0.3752,
      "step": 49770
    },
    {
      "epoch": 976.0,
      "eval_loss": 0.38550615310668945,
      "eval_runtime": 2.3057,
      "eval_samples_per_second": 988.423,
      "eval_steps_per_second": 3.903,
      "step": 49776
    },
    {
      "epoch": 976.08,
      "learning_rate": 1.383209729084377e-05,
      "loss": 0.3783,
      "step": 49780
    },
    {
      "epoch": 976.27,
      "learning_rate": 1.3808655498809638e-05,
      "loss": 0.379,
      "step": 49790
    },
    {
      "epoch": 976.47,
      "learning_rate": 1.3785231573283379e-05,
      "loss": 0.3753,
      "step": 49800
    },
    {
      "epoch": 976.67,
      "learning_rate": 1.376182552110428e-05,
      "loss": 0.3774,
      "step": 49810
    },
    {
      "epoch": 976.86,
      "learning_rate": 1.3738437349106384e-05,
      "loss": 0.3752,
      "step": 49820
    },
    {
      "epoch": 977.0,
      "eval_loss": 0.38268429040908813,
      "eval_runtime": 2.3909,
      "eval_samples_per_second": 953.211,
      "eval_steps_per_second": 3.764,
      "step": 49827
    },
    {
      "epoch": 977.06,
      "learning_rate": 1.3715067064118537e-05,
      "loss": 0.381,
      "step": 49830
    },
    {
      "epoch": 977.25,
      "learning_rate": 1.3691714672964322e-05,
      "loss": 0.3796,
      "step": 49840
    },
    {
      "epoch": 977.45,
      "learning_rate": 1.36683801824621e-05,
      "loss": 0.3758,
      "step": 49850
    },
    {
      "epoch": 977.65,
      "learning_rate": 1.364506359942503e-05,
      "loss": 0.3765,
      "step": 49860
    },
    {
      "epoch": 977.84,
      "learning_rate": 1.362176493066104e-05,
      "loss": 0.3779,
      "step": 49870
    },
    {
      "epoch": 978.0,
      "eval_loss": 0.3826252222061157,
      "eval_runtime": 2.2244,
      "eval_samples_per_second": 1024.528,
      "eval_steps_per_second": 4.046,
      "step": 49878
    },
    {
      "epoch": 978.04,
      "learning_rate": 1.3598484182972844e-05,
      "loss": 0.3764,
      "step": 49880
    },
    {
      "epoch": 978.24,
      "learning_rate": 1.3575221363157866e-05,
      "loss": 0.377,
      "step": 49890
    },
    {
      "epoch": 978.43,
      "learning_rate": 1.3551976478008356e-05,
      "loss": 0.3756,
      "step": 49900
    },
    {
      "epoch": 978.63,
      "learning_rate": 1.3528749534311279e-05,
      "loss": 0.3736,
      "step": 49910
    },
    {
      "epoch": 978.82,
      "learning_rate": 1.3505540538848384e-05,
      "loss": 0.3769,
      "step": 49920
    },
    {
      "epoch": 979.0,
      "eval_loss": 0.3824384808540344,
      "eval_runtime": 2.2551,
      "eval_samples_per_second": 1010.599,
      "eval_steps_per_second": 3.991,
      "step": 49929
    },
    {
      "epoch": 979.02,
      "learning_rate": 1.3482349498396224e-05,
      "loss": 0.3763,
      "step": 49930
    },
    {
      "epoch": 979.22,
      "learning_rate": 1.3459176419726004e-05,
      "loss": 0.3792,
      "step": 49940
    },
    {
      "epoch": 979.41,
      "learning_rate": 1.3436021309603806e-05,
      "loss": 0.3759,
      "step": 49950
    },
    {
      "epoch": 979.61,
      "learning_rate": 1.341288417479035e-05,
      "loss": 0.3765,
      "step": 49960
    },
    {
      "epoch": 979.8,
      "learning_rate": 1.3389765022041191e-05,
      "loss": 0.3754,
      "step": 49970
    },
    {
      "epoch": 980.0,
      "learning_rate": 1.3366663858106618e-05,
      "loss": 0.3778,
      "step": 49980
    },
    {
      "epoch": 980.0,
      "eval_loss": 0.38484612107276917,
      "eval_runtime": 2.2844,
      "eval_samples_per_second": 997.63,
      "eval_steps_per_second": 3.94,
      "step": 49980
    },
    {
      "epoch": 980.2,
      "learning_rate": 1.3343580689731632e-05,
      "loss": 0.3776,
      "step": 49990
    },
    {
      "epoch": 980.39,
      "learning_rate": 1.3320515523656019e-05,
      "loss": 0.382,
      "step": 50000
    },
    {
      "epoch": 980.59,
      "learning_rate": 1.3297468366614281e-05,
      "loss": 0.3809,
      "step": 50010
    },
    {
      "epoch": 980.78,
      "learning_rate": 1.3274439225335673e-05,
      "loss": 0.3788,
      "step": 50020
    },
    {
      "epoch": 980.98,
      "learning_rate": 1.3251428106544202e-05,
      "loss": 0.3749,
      "step": 50030
    },
    {
      "epoch": 981.0,
      "eval_loss": 0.38307544589042664,
      "eval_runtime": 2.3077,
      "eval_samples_per_second": 987.572,
      "eval_steps_per_second": 3.9,
      "step": 50031
    },
    {
      "epoch": 981.18,
      "learning_rate": 1.3228435016958609e-05,
      "loss": 0.3727,
      "step": 50040
    },
    {
      "epoch": 981.37,
      "learning_rate": 1.3205459963292357e-05,
      "loss": 0.377,
      "step": 50050
    },
    {
      "epoch": 981.57,
      "learning_rate": 1.3182502952253621e-05,
      "loss": 0.3802,
      "step": 50060
    },
    {
      "epoch": 981.76,
      "learning_rate": 1.3159563990545366e-05,
      "loss": 0.3794,
      "step": 50070
    },
    {
      "epoch": 981.96,
      "learning_rate": 1.3136643084865242e-05,
      "loss": 0.3756,
      "step": 50080
    },
    {
      "epoch": 982.0,
      "eval_loss": 0.38791292905807495,
      "eval_runtime": 2.2435,
      "eval_samples_per_second": 1015.827,
      "eval_steps_per_second": 4.012,
      "step": 50082
    },
    {
      "epoch": 982.16,
      "learning_rate": 1.3113740241905671e-05,
      "loss": 0.38,
      "step": 50090
    },
    {
      "epoch": 982.35,
      "learning_rate": 1.3090855468353736e-05,
      "loss": 0.377,
      "step": 50100
    },
    {
      "epoch": 982.55,
      "learning_rate": 1.3067988770891319e-05,
      "loss": 0.3827,
      "step": 50110
    },
    {
      "epoch": 982.75,
      "learning_rate": 1.3045140156194936e-05,
      "loss": 0.3768,
      "step": 50120
    },
    {
      "epoch": 982.94,
      "learning_rate": 1.3022309630935901e-05,
      "loss": 0.3739,
      "step": 50130
    },
    {
      "epoch": 983.0,
      "eval_loss": 0.38304463028907776,
      "eval_runtime": 2.2767,
      "eval_samples_per_second": 1001.022,
      "eval_steps_per_second": 3.953,
      "step": 50133
    },
    {
      "epoch": 983.14,
      "learning_rate": 1.299949720178024e-05,
      "loss": 0.3792,
      "step": 50140
    },
    {
      "epoch": 983.33,
      "learning_rate": 1.2976702875388633e-05,
      "loss": 0.3716,
      "step": 50150
    },
    {
      "epoch": 983.53,
      "learning_rate": 1.295392665841655e-05,
      "loss": 0.3773,
      "step": 50160
    },
    {
      "epoch": 983.73,
      "learning_rate": 1.2931168557514094e-05,
      "loss": 0.3751,
      "step": 50170
    },
    {
      "epoch": 983.92,
      "learning_rate": 1.2908428579326158e-05,
      "loss": 0.3769,
      "step": 50180
    },
    {
      "epoch": 984.0,
      "eval_loss": 0.3844551146030426,
      "eval_runtime": 2.1862,
      "eval_samples_per_second": 1042.456,
      "eval_steps_per_second": 4.117,
      "step": 50184
    },
    {
      "epoch": 984.12,
      "learning_rate": 1.2885706730492316e-05,
      "loss": 0.3767,
      "step": 50190
    },
    {
      "epoch": 984.31,
      "learning_rate": 1.2863003017646809e-05,
      "loss": 0.3797,
      "step": 50200
    },
    {
      "epoch": 984.51,
      "learning_rate": 1.2840317447418652e-05,
      "loss": 0.379,
      "step": 50210
    },
    {
      "epoch": 984.71,
      "learning_rate": 1.2817650026431481e-05,
      "loss": 0.3756,
      "step": 50220
    },
    {
      "epoch": 984.9,
      "learning_rate": 1.2795000761303708e-05,
      "loss": 0.3737,
      "step": 50230
    },
    {
      "epoch": 985.0,
      "eval_loss": 0.3893979787826538,
      "eval_runtime": 2.2314,
      "eval_samples_per_second": 1021.322,
      "eval_steps_per_second": 4.033,
      "step": 50235
    },
    {
      "epoch": 985.1,
      "learning_rate": 1.277236965864842e-05,
      "loss": 0.38,
      "step": 50240
    },
    {
      "epoch": 985.29,
      "learning_rate": 1.2749756725073365e-05,
      "loss": 0.3791,
      "step": 50250
    },
    {
      "epoch": 985.49,
      "learning_rate": 1.2727161967181043e-05,
      "loss": 0.3772,
      "step": 50260
    },
    {
      "epoch": 985.69,
      "learning_rate": 1.2704585391568594e-05,
      "loss": 0.3743,
      "step": 50270
    },
    {
      "epoch": 985.88,
      "learning_rate": 1.2682027004827888e-05,
      "loss": 0.3769,
      "step": 50280
    },
    {
      "epoch": 986.0,
      "eval_loss": 0.38151878118515015,
      "eval_runtime": 2.232,
      "eval_samples_per_second": 1021.062,
      "eval_steps_per_second": 4.032,
      "step": 50286
    },
    {
      "epoch": 986.08,
      "learning_rate": 1.2659486813545472e-05,
      "loss": 0.3764,
      "step": 50290
    },
    {
      "epoch": 986.27,
      "learning_rate": 1.2636964824302597e-05,
      "loss": 0.3798,
      "step": 50300
    },
    {
      "epoch": 986.47,
      "learning_rate": 1.2614461043675164e-05,
      "loss": 0.3708,
      "step": 50310
    },
    {
      "epoch": 986.67,
      "learning_rate": 1.2591975478233749e-05,
      "loss": 0.3742,
      "step": 50320
    },
    {
      "epoch": 986.86,
      "learning_rate": 1.2569508134543666e-05,
      "loss": 0.373,
      "step": 50330
    },
    {
      "epoch": 987.0,
      "eval_loss": 0.37965089082717896,
      "eval_runtime": 2.2126,
      "eval_samples_per_second": 1030.024,
      "eval_steps_per_second": 4.068,
      "step": 50337
    },
    {
      "epoch": 987.06,
      "learning_rate": 1.2547059019164868e-05,
      "loss": 0.3739,
      "step": 50340
    },
    {
      "epoch": 987.25,
      "learning_rate": 1.2524628138652021e-05,
      "loss": 0.3752,
      "step": 50350
    },
    {
      "epoch": 987.45,
      "learning_rate": 1.2502215499554411e-05,
      "loss": 0.3725,
      "step": 50360
    },
    {
      "epoch": 987.65,
      "learning_rate": 1.2479821108416044e-05,
      "loss": 0.3808,
      "step": 50370
    },
    {
      "epoch": 987.84,
      "learning_rate": 1.2457444971775565e-05,
      "loss": 0.374,
      "step": 50380
    },
    {
      "epoch": 988.0,
      "eval_loss": 0.38273051381111145,
      "eval_runtime": 2.3252,
      "eval_samples_per_second": 980.135,
      "eval_steps_per_second": 3.871,
      "step": 50388
    },
    {
      "epoch": 988.04,
      "learning_rate": 1.2435087096166324e-05,
      "loss": 0.3735,
      "step": 50390
    },
    {
      "epoch": 988.24,
      "learning_rate": 1.2412747488116332e-05,
      "loss": 0.3778,
      "step": 50400
    },
    {
      "epoch": 988.43,
      "learning_rate": 1.2390426154148228e-05,
      "loss": 0.372,
      "step": 50410
    },
    {
      "epoch": 988.63,
      "learning_rate": 1.2368123100779376e-05,
      "loss": 0.379,
      "step": 50420
    },
    {
      "epoch": 988.82,
      "learning_rate": 1.2345838334521724e-05,
      "loss": 0.3778,
      "step": 50430
    },
    {
      "epoch": 989.0,
      "eval_loss": 0.38441118597984314,
      "eval_runtime": 2.235,
      "eval_samples_per_second": 1019.7,
      "eval_steps_per_second": 4.027,
      "step": 50439
    },
    {
      "epoch": 989.02,
      "learning_rate": 1.2323571861881967e-05,
      "loss": 0.3758,
      "step": 50440
    },
    {
      "epoch": 989.22,
      "learning_rate": 1.2301323689361423e-05,
      "loss": 0.3726,
      "step": 50450
    },
    {
      "epoch": 989.41,
      "learning_rate": 1.2279093823456019e-05,
      "loss": 0.3765,
      "step": 50460
    },
    {
      "epoch": 989.61,
      "learning_rate": 1.2256882270656429e-05,
      "loss": 0.3738,
      "step": 50470
    },
    {
      "epoch": 989.8,
      "learning_rate": 1.2234689037447892e-05,
      "loss": 0.3775,
      "step": 50480
    },
    {
      "epoch": 990.0,
      "learning_rate": 1.2212514130310358e-05,
      "loss": 0.3773,
      "step": 50490
    },
    {
      "epoch": 990.0,
      "eval_loss": 0.38456442952156067,
      "eval_runtime": 2.2877,
      "eval_samples_per_second": 996.205,
      "eval_steps_per_second": 3.934,
      "step": 50490
    },
    {
      "epoch": 990.2,
      "learning_rate": 1.2190357555718388e-05,
      "loss": 0.3756,
      "step": 50500
    },
    {
      "epoch": 990.39,
      "learning_rate": 1.216821932014125e-05,
      "loss": 0.3724,
      "step": 50510
    },
    {
      "epoch": 990.59,
      "learning_rate": 1.2146099430042782e-05,
      "loss": 0.3797,
      "step": 50520
    },
    {
      "epoch": 990.78,
      "learning_rate": 1.2123997891881485e-05,
      "loss": 0.3732,
      "step": 50530
    },
    {
      "epoch": 990.98,
      "learning_rate": 1.2101914712110536e-05,
      "loss": 0.3759,
      "step": 50540
    },
    {
      "epoch": 991.0,
      "eval_loss": 0.3825616240501404,
      "eval_runtime": 2.2692,
      "eval_samples_per_second": 1004.299,
      "eval_steps_per_second": 3.966,
      "step": 50541
    },
    {
      "epoch": 991.18,
      "learning_rate": 1.2079849897177721e-05,
      "loss": 0.3776,
      "step": 50550
    },
    {
      "epoch": 991.37,
      "learning_rate": 1.2057803453525502e-05,
      "loss": 0.3784,
      "step": 50560
    },
    {
      "epoch": 991.57,
      "learning_rate": 1.2035775387590915e-05,
      "loss": 0.3768,
      "step": 50570
    },
    {
      "epoch": 991.76,
      "learning_rate": 1.201376570580569e-05,
      "loss": 0.3741,
      "step": 50580
    },
    {
      "epoch": 991.96,
      "learning_rate": 1.1991774414596126e-05,
      "loss": 0.3752,
      "step": 50590
    },
    {
      "epoch": 992.0,
      "eval_loss": 0.38430219888687134,
      "eval_runtime": 2.3526,
      "eval_samples_per_second": 968.721,
      "eval_steps_per_second": 3.826,
      "step": 50592
    },
    {
      "epoch": 992.16,
      "learning_rate": 1.196980152038322e-05,
      "loss": 0.3784,
      "step": 50600
    },
    {
      "epoch": 992.35,
      "learning_rate": 1.1947847029582578e-05,
      "loss": 0.3768,
      "step": 50610
    },
    {
      "epoch": 992.55,
      "learning_rate": 1.1925910948604376e-05,
      "loss": 0.3751,
      "step": 50620
    },
    {
      "epoch": 992.75,
      "learning_rate": 1.1903993283853516e-05,
      "loss": 0.3772,
      "step": 50630
    },
    {
      "epoch": 992.94,
      "learning_rate": 1.1882094041729423e-05,
      "loss": 0.3747,
      "step": 50640
    },
    {
      "epoch": 993.0,
      "eval_loss": 0.381651371717453,
      "eval_runtime": 2.2123,
      "eval_samples_per_second": 1030.155,
      "eval_steps_per_second": 4.068,
      "step": 50643
    },
    {
      "epoch": 993.14,
      "learning_rate": 1.1860213228626198e-05,
      "loss": 0.3762,
      "step": 50650
    },
    {
      "epoch": 993.33,
      "learning_rate": 1.1838350850932578e-05,
      "loss": 0.3774,
      "step": 50660
    },
    {
      "epoch": 993.53,
      "learning_rate": 1.1816506915031845e-05,
      "loss": 0.3776,
      "step": 50670
    },
    {
      "epoch": 993.73,
      "learning_rate": 1.1794681427301986e-05,
      "loss": 0.3762,
      "step": 50680
    },
    {
      "epoch": 993.92,
      "learning_rate": 1.1772874394115519e-05,
      "loss": 0.3781,
      "step": 50690
    },
    {
      "epoch": 994.0,
      "eval_loss": 0.3783932626247406,
      "eval_runtime": 2.3211,
      "eval_samples_per_second": 981.883,
      "eval_steps_per_second": 3.878,
      "step": 50694
    },
    {
      "epoch": 994.12,
      "learning_rate": 1.175108582183962e-05,
      "loss": 0.3763,
      "step": 50700
    },
    {
      "epoch": 994.31,
      "learning_rate": 1.1729315716836083e-05,
      "loss": 0.3761,
      "step": 50710
    },
    {
      "epoch": 994.51,
      "learning_rate": 1.1707564085461295e-05,
      "loss": 0.3792,
      "step": 50720
    },
    {
      "epoch": 994.71,
      "learning_rate": 1.168583093406624e-05,
      "loss": 0.3752,
      "step": 50730
    },
    {
      "epoch": 994.9,
      "learning_rate": 1.1664116268996488e-05,
      "loss": 0.3751,
      "step": 50740
    },
    {
      "epoch": 995.0,
      "eval_loss": 0.3832464814186096,
      "eval_runtime": 2.2172,
      "eval_samples_per_second": 1027.873,
      "eval_steps_per_second": 4.059,
      "step": 50745
    },
    {
      "epoch": 995.1,
      "learning_rate": 1.1642420096592258e-05,
      "loss": 0.3765,
      "step": 50750
    },
    {
      "epoch": 995.29,
      "learning_rate": 1.1620742423188354e-05,
      "loss": 0.3787,
      "step": 50760
    },
    {
      "epoch": 995.49,
      "learning_rate": 1.1599083255114175e-05,
      "loss": 0.3764,
      "step": 50770
    },
    {
      "epoch": 995.69,
      "learning_rate": 1.1577442598693699e-05,
      "loss": 0.3781,
      "step": 50780
    },
    {
      "epoch": 995.88,
      "learning_rate": 1.1555820460245535e-05,
      "loss": 0.3758,
      "step": 50790
    },
    {
      "epoch": 996.0,
      "eval_loss": 0.37998104095458984,
      "eval_runtime": 2.2526,
      "eval_samples_per_second": 1011.735,
      "eval_steps_per_second": 3.995,
      "step": 50796
    },
    {
      "epoch": 996.08,
      "learning_rate": 1.1534216846082845e-05,
      "loss": 0.3749,
      "step": 50800
    },
    {
      "epoch": 996.27,
      "learning_rate": 1.1512631762513405e-05,
      "loss": 0.3793,
      "step": 50810
    },
    {
      "epoch": 996.47,
      "learning_rate": 1.14910652158396e-05,
      "loss": 0.3785,
      "step": 50820
    },
    {
      "epoch": 996.67,
      "learning_rate": 1.1469517212358354e-05,
      "loss": 0.3736,
      "step": 50830
    },
    {
      "epoch": 996.86,
      "learning_rate": 1.144798775836123e-05,
      "loss": 0.3718,
      "step": 50840
    },
    {
      "epoch": 997.0,
      "eval_loss": 0.38368964195251465,
      "eval_runtime": 2.2857,
      "eval_samples_per_second": 997.047,
      "eval_steps_per_second": 3.937,
      "step": 50847
    },
    {
      "epoch": 997.06,
      "learning_rate": 1.1426476860134318e-05,
      "loss": 0.3746,
      "step": 50850
    },
    {
      "epoch": 997.25,
      "learning_rate": 1.1404984523958335e-05,
      "loss": 0.3727,
      "step": 50860
    },
    {
      "epoch": 997.45,
      "learning_rate": 1.138351075610858e-05,
      "loss": 0.3771,
      "step": 50870
    },
    {
      "epoch": 997.65,
      "learning_rate": 1.1362055562854877e-05,
      "loss": 0.3787,
      "step": 50880
    },
    {
      "epoch": 997.84,
      "learning_rate": 1.1340618950461708e-05,
      "loss": 0.3745,
      "step": 50890
    },
    {
      "epoch": 998.0,
      "eval_loss": 0.382259726524353,
      "eval_runtime": 2.3112,
      "eval_samples_per_second": 986.086,
      "eval_steps_per_second": 3.894,
      "step": 50898
    },
    {
      "epoch": 998.04,
      "learning_rate": 1.1319200925188049e-05,
      "loss": 0.3769,
      "step": 50900
    },
    {
      "epoch": 998.24,
      "learning_rate": 1.1297801493287497e-05,
      "loss": 0.3799,
      "step": 50910
    },
    {
      "epoch": 998.43,
      "learning_rate": 1.1276420661008231e-05,
      "loss": 0.3787,
      "step": 50920
    },
    {
      "epoch": 998.63,
      "learning_rate": 1.1255058434592939e-05,
      "loss": 0.3742,
      "step": 50930
    },
    {
      "epoch": 998.82,
      "learning_rate": 1.123371482027895e-05,
      "loss": 0.3757,
      "step": 50940
    },
    {
      "epoch": 999.0,
      "eval_loss": 0.3797883093357086,
      "eval_runtime": 2.2661,
      "eval_samples_per_second": 1005.687,
      "eval_steps_per_second": 3.972,
      "step": 50949
    },
    {
      "epoch": 999.02,
      "learning_rate": 1.1212389824298093e-05,
      "loss": 0.3729,
      "step": 50950
    },
    {
      "epoch": 999.22,
      "learning_rate": 1.1191083452876806e-05,
      "loss": 0.3754,
      "step": 50960
    },
    {
      "epoch": 999.41,
      "learning_rate": 1.116979571223607e-05,
      "loss": 0.3697,
      "step": 50970
    },
    {
      "epoch": 999.61,
      "learning_rate": 1.114852660859145e-05,
      "loss": 0.3744,
      "step": 50980
    },
    {
      "epoch": 999.8,
      "learning_rate": 1.1127276148153039e-05,
      "loss": 0.373,
      "step": 50990
    },
    {
      "epoch": 1000.0,
      "learning_rate": 1.1106044337125478e-05,
      "loss": 0.3786,
      "step": 51000
    },
    {
      "epoch": 1000.0,
      "eval_loss": 0.37940987944602966,
      "eval_runtime": 2.3813,
      "eval_samples_per_second": 957.056,
      "eval_steps_per_second": 3.78,
      "step": 51000
    },
    {
      "epoch": 1000.2,
      "learning_rate": 1.108483118170799e-05,
      "loss": 0.3717,
      "step": 51010
    },
    {
      "epoch": 1000.39,
      "learning_rate": 1.1063636688094354e-05,
      "loss": 0.3741,
      "step": 51020
    },
    {
      "epoch": 1000.59,
      "learning_rate": 1.1042460862472905e-05,
      "loss": 0.3779,
      "step": 51030
    },
    {
      "epoch": 1000.78,
      "learning_rate": 1.1021303711026468e-05,
      "loss": 0.3747,
      "step": 51040
    },
    {
      "epoch": 1000.98,
      "learning_rate": 1.1000165239932507e-05,
      "loss": 0.3738,
      "step": 51050
    },
    {
      "epoch": 1001.0,
      "eval_loss": 0.37811383605003357,
      "eval_runtime": 2.1934,
      "eval_samples_per_second": 1039.022,
      "eval_steps_per_second": 4.103,
      "step": 51051
    },
    {
      "epoch": 1001.18,
      "learning_rate": 1.0979045455362948e-05,
      "loss": 0.3778,
      "step": 51060
    },
    {
      "epoch": 1001.37,
      "learning_rate": 1.09579443634843e-05,
      "loss": 0.3713,
      "step": 51070
    },
    {
      "epoch": 1001.57,
      "learning_rate": 1.0936861970457644e-05,
      "loss": 0.3763,
      "step": 51080
    },
    {
      "epoch": 1001.76,
      "learning_rate": 1.0915798282438531e-05,
      "loss": 0.3775,
      "step": 51090
    },
    {
      "epoch": 1001.96,
      "learning_rate": 1.0894753305577116e-05,
      "loss": 0.3779,
      "step": 51100
    },
    {
      "epoch": 1002.0,
      "eval_loss": 0.38506320118904114,
      "eval_runtime": 2.3112,
      "eval_samples_per_second": 986.049,
      "eval_steps_per_second": 3.894,
      "step": 51102
    },
    {
      "epoch": 1002.16,
      "learning_rate": 1.0873727046018036e-05,
      "loss": 0.3746,
      "step": 51110
    },
    {
      "epoch": 1002.35,
      "learning_rate": 1.085271950990051e-05,
      "loss": 0.3796,
      "step": 51120
    },
    {
      "epoch": 1002.55,
      "learning_rate": 1.0831730703358265e-05,
      "loss": 0.3764,
      "step": 51130
    },
    {
      "epoch": 1002.75,
      "learning_rate": 1.081076063251956e-05,
      "loss": 0.3795,
      "step": 51140
    },
    {
      "epoch": 1002.94,
      "learning_rate": 1.0789809303507205e-05,
      "loss": 0.3735,
      "step": 51150
    },
    {
      "epoch": 1003.0,
      "eval_loss": 0.3844279646873474,
      "eval_runtime": 2.3307,
      "eval_samples_per_second": 977.811,
      "eval_steps_per_second": 3.861,
      "step": 51153
    },
    {
      "epoch": 1003.14,
      "learning_rate": 1.0768876722438487e-05,
      "loss": 0.376,
      "step": 51160
    },
    {
      "epoch": 1003.33,
      "learning_rate": 1.0747962895425272e-05,
      "loss": 0.3744,
      "step": 51170
    },
    {
      "epoch": 1003.53,
      "learning_rate": 1.0727067828573937e-05,
      "loss": 0.376,
      "step": 51180
    },
    {
      "epoch": 1003.73,
      "learning_rate": 1.0706191527985389e-05,
      "loss": 0.3746,
      "step": 51190
    },
    {
      "epoch": 1003.92,
      "learning_rate": 1.0685333999755017e-05,
      "loss": 0.3753,
      "step": 51200
    },
    {
      "epoch": 1004.0,
      "eval_loss": 0.3840962052345276,
      "eval_runtime": 2.2584,
      "eval_samples_per_second": 1009.122,
      "eval_steps_per_second": 3.985,
      "step": 51204
    },
    {
      "epoch": 1004.12,
      "learning_rate": 1.0664495249972749e-05,
      "loss": 0.3796,
      "step": 51210
    },
    {
      "epoch": 1004.31,
      "learning_rate": 1.0643675284723043e-05,
      "loss": 0.3747,
      "step": 51220
    },
    {
      "epoch": 1004.51,
      "learning_rate": 1.0622874110084873e-05,
      "loss": 0.3754,
      "step": 51230
    },
    {
      "epoch": 1004.71,
      "learning_rate": 1.0602091732131727e-05,
      "loss": 0.3759,
      "step": 51240
    },
    {
      "epoch": 1004.9,
      "learning_rate": 1.0581328156931559e-05,
      "loss": 0.3701,
      "step": 51250
    },
    {
      "epoch": 1005.0,
      "eval_loss": 0.3804880380630493,
      "eval_runtime": 2.256,
      "eval_samples_per_second": 1010.217,
      "eval_steps_per_second": 3.989,
      "step": 51255
    },
    {
      "epoch": 1005.1,
      "learning_rate": 1.0560583390546923e-05,
      "loss": 0.3763,
      "step": 51260
    },
    {
      "epoch": 1005.29,
      "learning_rate": 1.053985743903477e-05,
      "loss": 0.3766,
      "step": 51270
    },
    {
      "epoch": 1005.49,
      "learning_rate": 1.0519150308446655e-05,
      "loss": 0.3795,
      "step": 51280
    },
    {
      "epoch": 1005.69,
      "learning_rate": 1.0498462004828598e-05,
      "loss": 0.3769,
      "step": 51290
    },
    {
      "epoch": 1005.88,
      "learning_rate": 1.04777925342211e-05,
      "loss": 0.3738,
      "step": 51300
    },
    {
      "epoch": 1006.0,
      "eval_loss": 0.3825666904449463,
      "eval_runtime": 2.2233,
      "eval_samples_per_second": 1025.034,
      "eval_steps_per_second": 4.048,
      "step": 51306
    },
    {
      "epoch": 1006.08,
      "learning_rate": 1.0457141902659208e-05,
      "loss": 0.373,
      "step": 51310
    },
    {
      "epoch": 1006.27,
      "learning_rate": 1.0436510116172425e-05,
      "loss": 0.374,
      "step": 51320
    },
    {
      "epoch": 1006.47,
      "learning_rate": 1.0415897180784774e-05,
      "loss": 0.375,
      "step": 51330
    },
    {
      "epoch": 1006.67,
      "learning_rate": 1.0395303102514807e-05,
      "loss": 0.3782,
      "step": 51340
    },
    {
      "epoch": 1006.86,
      "learning_rate": 1.0374727887375481e-05,
      "loss": 0.3729,
      "step": 51350
    },
    {
      "epoch": 1007.0,
      "eval_loss": 0.3792899549007416,
      "eval_runtime": 2.2748,
      "eval_samples_per_second": 1001.838,
      "eval_steps_per_second": 3.956,
      "step": 51357
    },
    {
      "epoch": 1007.06,
      "learning_rate": 1.0354171541374356e-05,
      "loss": 0.3748,
      "step": 51360
    },
    {
      "epoch": 1007.25,
      "learning_rate": 1.0333634070513375e-05,
      "loss": 0.3737,
      "step": 51370
    },
    {
      "epoch": 1007.45,
      "learning_rate": 1.0313115480789047e-05,
      "loss": 0.3785,
      "step": 51380
    },
    {
      "epoch": 1007.65,
      "learning_rate": 1.0292615778192348e-05,
      "loss": 0.3722,
      "step": 51390
    },
    {
      "epoch": 1007.84,
      "learning_rate": 1.027213496870874e-05,
      "loss": 0.3765,
      "step": 51400
    },
    {
      "epoch": 1008.0,
      "eval_loss": 0.38250917196273804,
      "eval_runtime": 2.4031,
      "eval_samples_per_second": 948.347,
      "eval_steps_per_second": 3.745,
      "step": 51408
    },
    {
      "epoch": 1008.04,
      "learning_rate": 1.0251673058318147e-05,
      "loss": 0.3738,
      "step": 51410
    },
    {
      "epoch": 1008.24,
      "learning_rate": 1.0231230052994974e-05,
      "loss": 0.3751,
      "step": 51420
    },
    {
      "epoch": 1008.43,
      "learning_rate": 1.0210805958708145e-05,
      "loss": 0.3736,
      "step": 51430
    },
    {
      "epoch": 1008.63,
      "learning_rate": 1.0190400781421035e-05,
      "loss": 0.3752,
      "step": 51440
    },
    {
      "epoch": 1008.82,
      "learning_rate": 1.0170014527091524e-05,
      "loss": 0.3725,
      "step": 51450
    },
    {
      "epoch": 1009.0,
      "eval_loss": 0.38174739480018616,
      "eval_runtime": 2.3742,
      "eval_samples_per_second": 959.913,
      "eval_steps_per_second": 3.791,
      "step": 51459
    },
    {
      "epoch": 1009.02,
      "learning_rate": 1.0149647201671904e-05,
      "loss": 0.3754,
      "step": 51460
    },
    {
      "epoch": 1009.22,
      "learning_rate": 1.0129298811109015e-05,
      "loss": 0.3773,
      "step": 51470
    },
    {
      "epoch": 1009.41,
      "learning_rate": 1.0108969361344099e-05,
      "loss": 0.3749,
      "step": 51480
    },
    {
      "epoch": 1009.61,
      "learning_rate": 1.0088658858312914e-05,
      "loss": 0.3774,
      "step": 51490
    },
    {
      "epoch": 1009.8,
      "learning_rate": 1.0068367307945702e-05,
      "loss": 0.3746,
      "step": 51500
    },
    {
      "epoch": 1010.0,
      "learning_rate": 1.0048094716167095e-05,
      "loss": 0.3766,
      "step": 51510
    },
    {
      "epoch": 1010.0,
      "eval_loss": 0.38128504157066345,
      "eval_runtime": 2.2597,
      "eval_samples_per_second": 1008.534,
      "eval_steps_per_second": 3.983,
      "step": 51510
    },
    {
      "epoch": 1010.2,
      "learning_rate": 1.0027841088896289e-05,
      "loss": 0.3742,
      "step": 51520
    },
    {
      "epoch": 1010.39,
      "learning_rate": 1.0007606432046846e-05,
      "loss": 0.3758,
      "step": 51530
    },
    {
      "epoch": 1010.59,
      "learning_rate": 9.987390751526855e-06,
      "loss": 0.3777,
      "step": 51540
    },
    {
      "epoch": 1010.78,
      "learning_rate": 9.96719405323885e-06,
      "loss": 0.3797,
      "step": 51550
    },
    {
      "epoch": 1010.98,
      "learning_rate": 9.947016343079806e-06,
      "loss": 0.3736,
      "step": 51560
    },
    {
      "epoch": 1011.0,
      "eval_loss": 0.38342854380607605,
      "eval_runtime": 2.256,
      "eval_samples_per_second": 1010.174,
      "eval_steps_per_second": 3.989,
      "step": 51561
    },
    {
      "epoch": 1011.18,
      "learning_rate": 9.926857626941176e-06,
      "loss": 0.3724,
      "step": 51570
    },
    {
      "epoch": 1011.37,
      "learning_rate": 9.906717910708828e-06,
      "loss": 0.3753,
      "step": 51580
    },
    {
      "epoch": 1011.57,
      "learning_rate": 9.886597200263132e-06,
      "loss": 0.3776,
      "step": 51590
    },
    {
      "epoch": 1011.76,
      "learning_rate": 9.866495501478891e-06,
      "loss": 0.3789,
      "step": 51600
    },
    {
      "epoch": 1011.96,
      "learning_rate": 9.846412820225358e-06,
      "loss": 0.3747,
      "step": 51610
    },
    {
      "epoch": 1012.0,
      "eval_loss": 0.38004985451698303,
      "eval_runtime": 2.2958,
      "eval_samples_per_second": 992.701,
      "eval_steps_per_second": 3.92,
      "step": 51612
    },
    {
      "epoch": 1012.16,
      "learning_rate": 9.82634916236621e-06,
      "loss": 0.375,
      "step": 51620
    },
    {
      "epoch": 1012.35,
      "learning_rate": 9.806304533759576e-06,
      "loss": 0.3746,
      "step": 51630
    },
    {
      "epoch": 1012.55,
      "learning_rate": 9.78627894025806e-06,
      "loss": 0.3714,
      "step": 51640
    },
    {
      "epoch": 1012.75,
      "learning_rate": 9.766272387708693e-06,
      "loss": 0.3699,
      "step": 51650
    },
    {
      "epoch": 1012.94,
      "learning_rate": 9.746284881952942e-06,
      "loss": 0.3726,
      "step": 51660
    },
    {
      "epoch": 1013.0,
      "eval_loss": 0.381724089384079,
      "eval_runtime": 2.2926,
      "eval_samples_per_second": 994.086,
      "eval_steps_per_second": 3.926,
      "step": 51663
    },
    {
      "epoch": 1013.14,
      "learning_rate": 9.726316428826717e-06,
      "loss": 0.3761,
      "step": 51670
    },
    {
      "epoch": 1013.33,
      "learning_rate": 9.706367034160326e-06,
      "loss": 0.3737,
      "step": 51680
    },
    {
      "epoch": 1013.53,
      "learning_rate": 9.686436703778577e-06,
      "loss": 0.3765,
      "step": 51690
    },
    {
      "epoch": 1013.73,
      "learning_rate": 9.666525443500667e-06,
      "loss": 0.3723,
      "step": 51700
    },
    {
      "epoch": 1013.92,
      "learning_rate": 9.646633259140276e-06,
      "loss": 0.3819,
      "step": 51710
    },
    {
      "epoch": 1014.0,
      "eval_loss": 0.3839859068393707,
      "eval_runtime": 2.2503,
      "eval_samples_per_second": 1012.774,
      "eval_steps_per_second": 4.0,
      "step": 51714
    },
    {
      "epoch": 1014.12,
      "learning_rate": 9.626760156505429e-06,
      "loss": 0.3707,
      "step": 51720
    },
    {
      "epoch": 1014.31,
      "learning_rate": 9.60690614139867e-06,
      "loss": 0.3738,
      "step": 51730
    },
    {
      "epoch": 1014.51,
      "learning_rate": 9.587071219616918e-06,
      "loss": 0.3731,
      "step": 51740
    },
    {
      "epoch": 1014.71,
      "learning_rate": 9.567255396951478e-06,
      "loss": 0.3739,
      "step": 51750
    },
    {
      "epoch": 1014.9,
      "learning_rate": 9.5474586791882e-06,
      "loss": 0.3799,
      "step": 51760
    },
    {
      "epoch": 1015.0,
      "eval_loss": 0.38338810205459595,
      "eval_runtime": 2.2465,
      "eval_samples_per_second": 1014.485,
      "eval_steps_per_second": 4.006,
      "step": 51765
    },
    {
      "epoch": 1015.1,
      "learning_rate": 9.527681072107249e-06,
      "loss": 0.379,
      "step": 51770
    },
    {
      "epoch": 1015.29,
      "learning_rate": 9.507922581483257e-06,
      "loss": 0.3778,
      "step": 51780
    },
    {
      "epoch": 1015.49,
      "learning_rate": 9.488183213085243e-06,
      "loss": 0.3747,
      "step": 51790
    },
    {
      "epoch": 1015.69,
      "learning_rate": 9.46846297267668e-06,
      "loss": 0.3726,
      "step": 51800
    },
    {
      "epoch": 1015.88,
      "learning_rate": 9.448761866015445e-06,
      "loss": 0.3754,
      "step": 51810
    },
    {
      "epoch": 1016.0,
      "eval_loss": 0.3817760944366455,
      "eval_runtime": 2.3863,
      "eval_samples_per_second": 955.027,
      "eval_steps_per_second": 3.771,
      "step": 51816
    },
    {
      "epoch": 1016.08,
      "learning_rate": 9.429079898853795e-06,
      "loss": 0.3722,
      "step": 51820
    },
    {
      "epoch": 1016.27,
      "learning_rate": 9.409417076938457e-06,
      "loss": 0.3708,
      "step": 51830
    },
    {
      "epoch": 1016.47,
      "learning_rate": 9.389773406010509e-06,
      "loss": 0.37,
      "step": 51840
    },
    {
      "epoch": 1016.67,
      "learning_rate": 9.370148891805467e-06,
      "loss": 0.373,
      "step": 51850
    },
    {
      "epoch": 1016.86,
      "learning_rate": 9.350543540053268e-06,
      "loss": 0.3762,
      "step": 51860
    },
    {
      "epoch": 1017.0,
      "eval_loss": 0.37691184878349304,
      "eval_runtime": 2.2427,
      "eval_samples_per_second": 1016.193,
      "eval_steps_per_second": 4.013,
      "step": 51867
    },
    {
      "epoch": 1017.06,
      "learning_rate": 9.330957356478248e-06,
      "loss": 0.3805,
      "step": 51870
    },
    {
      "epoch": 1017.25,
      "learning_rate": 9.311390346799114e-06,
      "loss": 0.3737,
      "step": 51880
    },
    {
      "epoch": 1017.45,
      "learning_rate": 9.29184251672899e-06,
      "loss": 0.3775,
      "step": 51890
    },
    {
      "epoch": 1017.65,
      "learning_rate": 9.27231387197541e-06,
      "loss": 0.3714,
      "step": 51900
    },
    {
      "epoch": 1017.84,
      "learning_rate": 9.252804418240312e-06,
      "loss": 0.3718,
      "step": 51910
    },
    {
      "epoch": 1018.0,
      "eval_loss": 0.3794402480125427,
      "eval_runtime": 2.2234,
      "eval_samples_per_second": 1025.004,
      "eval_steps_per_second": 4.048,
      "step": 51918
    },
    {
      "epoch": 1018.04,
      "learning_rate": 9.23331416122004e-06,
      "loss": 0.3731,
      "step": 51920
    },
    {
      "epoch": 1018.24,
      "learning_rate": 9.213843106605267e-06,
      "loss": 0.3782,
      "step": 51930
    },
    {
      "epoch": 1018.43,
      "learning_rate": 9.194391260081163e-06,
      "loss": 0.3725,
      "step": 51940
    },
    {
      "epoch": 1018.63,
      "learning_rate": 9.174958627327191e-06,
      "loss": 0.3746,
      "step": 51950
    },
    {
      "epoch": 1018.82,
      "learning_rate": 9.155545214017232e-06,
      "loss": 0.3785,
      "step": 51960
    },
    {
      "epoch": 1019.0,
      "eval_loss": 0.3825004994869232,
      "eval_runtime": 2.2245,
      "eval_samples_per_second": 1024.505,
      "eval_steps_per_second": 4.046,
      "step": 51969
    },
    {
      "epoch": 1019.02,
      "learning_rate": 9.136151025819633e-06,
      "loss": 0.3729,
      "step": 51970
    },
    {
      "epoch": 1019.22,
      "learning_rate": 9.116776068397006e-06,
      "loss": 0.3754,
      "step": 51980
    },
    {
      "epoch": 1019.41,
      "learning_rate": 9.097420347406442e-06,
      "loss": 0.3786,
      "step": 51990
    },
    {
      "epoch": 1019.61,
      "learning_rate": 9.078083868499356e-06,
      "loss": 0.3759,
      "step": 52000
    },
    {
      "epoch": 1019.8,
      "learning_rate": 9.05876663732158e-06,
      "loss": 0.3697,
      "step": 52010
    },
    {
      "epoch": 1020.0,
      "learning_rate": 9.039468659513327e-06,
      "loss": 0.3754,
      "step": 52020
    },
    {
      "epoch": 1020.0,
      "eval_loss": 0.38265079259872437,
      "eval_runtime": 2.199,
      "eval_samples_per_second": 1036.381,
      "eval_steps_per_second": 4.093,
      "step": 52020
    },
    {
      "epoch": 1020.2,
      "learning_rate": 9.02018994070914e-06,
      "loss": 0.376,
      "step": 52030
    },
    {
      "epoch": 1020.39,
      "learning_rate": 9.000930486538026e-06,
      "loss": 0.3739,
      "step": 52040
    },
    {
      "epoch": 1020.59,
      "learning_rate": 8.981690302623263e-06,
      "loss": 0.3717,
      "step": 52050
    },
    {
      "epoch": 1020.78,
      "learning_rate": 8.962469394582587e-06,
      "loss": 0.3768,
      "step": 52060
    },
    {
      "epoch": 1020.98,
      "learning_rate": 8.943267768028068e-06,
      "loss": 0.374,
      "step": 52070
    },
    {
      "epoch": 1021.0,
      "eval_loss": 0.3817632496356964,
      "eval_runtime": 2.293,
      "eval_samples_per_second": 993.877,
      "eval_steps_per_second": 3.925,
      "step": 52071
    },
    {
      "epoch": 1021.18,
      "learning_rate": 8.924085428566163e-06,
      "loss": 0.3702,
      "step": 52080
    },
    {
      "epoch": 1021.37,
      "learning_rate": 8.904922381797677e-06,
      "loss": 0.3725,
      "step": 52090
    },
    {
      "epoch": 1021.57,
      "learning_rate": 8.885778633317783e-06,
      "loss": 0.3782,
      "step": 52100
    },
    {
      "epoch": 1021.76,
      "learning_rate": 8.866654188716035e-06,
      "loss": 0.3683,
      "step": 52110
    },
    {
      "epoch": 1021.96,
      "learning_rate": 8.847549053576342e-06,
      "loss": 0.3785,
      "step": 52120
    },
    {
      "epoch": 1022.0,
      "eval_loss": 0.3780389428138733,
      "eval_runtime": 2.2927,
      "eval_samples_per_second": 994.038,
      "eval_steps_per_second": 3.926,
      "step": 52122
    },
    {
      "epoch": 1022.16,
      "learning_rate": 8.828463233477e-06,
      "loss": 0.3754,
      "step": 52130
    },
    {
      "epoch": 1022.35,
      "learning_rate": 8.809396733990615e-06,
      "loss": 0.3757,
      "step": 52140
    },
    {
      "epoch": 1022.55,
      "learning_rate": 8.790349560684203e-06,
      "loss": 0.3749,
      "step": 52150
    },
    {
      "epoch": 1022.75,
      "learning_rate": 8.771321719119101e-06,
      "loss": 0.3733,
      "step": 52160
    },
    {
      "epoch": 1022.94,
      "learning_rate": 8.75231321485098e-06,
      "loss": 0.3735,
      "step": 52170
    },
    {
      "epoch": 1023.0,
      "eval_loss": 0.3814985752105713,
      "eval_runtime": 2.374,
      "eval_samples_per_second": 959.969,
      "eval_steps_per_second": 3.791,
      "step": 52173
    },
    {
      "epoch": 1023.14,
      "learning_rate": 8.733324053429963e-06,
      "loss": 0.3719,
      "step": 52180
    },
    {
      "epoch": 1023.33,
      "learning_rate": 8.71435424040042e-06,
      "loss": 0.3746,
      "step": 52190
    },
    {
      "epoch": 1023.53,
      "learning_rate": 8.695403781301144e-06,
      "loss": 0.3718,
      "step": 52200
    },
    {
      "epoch": 1023.73,
      "learning_rate": 8.676472681665208e-06,
      "loss": 0.3755,
      "step": 52210
    },
    {
      "epoch": 1023.92,
      "learning_rate": 8.657560947020093e-06,
      "loss": 0.3726,
      "step": 52220
    },
    {
      "epoch": 1024.0,
      "eval_loss": 0.3794108033180237,
      "eval_runtime": 2.2464,
      "eval_samples_per_second": 1014.494,
      "eval_steps_per_second": 4.006,
      "step": 52224
    },
    {
      "epoch": 1024.12,
      "learning_rate": 8.63866858288762e-06,
      "loss": 0.3789,
      "step": 52230
    },
    {
      "epoch": 1024.31,
      "learning_rate": 8.619795594783896e-06,
      "loss": 0.3744,
      "step": 52240
    },
    {
      "epoch": 1024.51,
      "learning_rate": 8.600941988219453e-06,
      "loss": 0.375,
      "step": 52250
    },
    {
      "epoch": 1024.71,
      "learning_rate": 8.582107768699098e-06,
      "loss": 0.3722,
      "step": 52260
    },
    {
      "epoch": 1024.9,
      "learning_rate": 8.563292941722004e-06,
      "loss": 0.3798,
      "step": 52270
    },
    {
      "epoch": 1025.0,
      "eval_loss": 0.378730446100235,
      "eval_runtime": 2.3701,
      "eval_samples_per_second": 961.574,
      "eval_steps_per_second": 3.797,
      "step": 52275
    },
    {
      "epoch": 1025.1,
      "learning_rate": 8.544497512781697e-06,
      "loss": 0.3745,
      "step": 52280
    },
    {
      "epoch": 1025.29,
      "learning_rate": 8.525721487366027e-06,
      "loss": 0.3725,
      "step": 52290
    },
    {
      "epoch": 1025.49,
      "learning_rate": 8.506964870957159e-06,
      "loss": 0.3762,
      "step": 52300
    },
    {
      "epoch": 1025.69,
      "learning_rate": 8.488227669031594e-06,
      "loss": 0.3732,
      "step": 52310
    },
    {
      "epoch": 1025.88,
      "learning_rate": 8.4695098870602e-06,
      "loss": 0.3714,
      "step": 52320
    },
    {
      "epoch": 1026.0,
      "eval_loss": 0.3809713125228882,
      "eval_runtime": 2.3518,
      "eval_samples_per_second": 969.036,
      "eval_steps_per_second": 3.827,
      "step": 52326
    },
    {
      "epoch": 1026.08,
      "learning_rate": 8.450811530508136e-06,
      "loss": 0.3731,
      "step": 52330
    },
    {
      "epoch": 1026.27,
      "learning_rate": 8.432132604834938e-06,
      "loss": 0.3736,
      "step": 52340
    },
    {
      "epoch": 1026.47,
      "learning_rate": 8.413473115494407e-06,
      "loss": 0.3721,
      "step": 52350
    },
    {
      "epoch": 1026.67,
      "learning_rate": 8.394833067934687e-06,
      "loss": 0.378,
      "step": 52360
    },
    {
      "epoch": 1026.86,
      "learning_rate": 8.37621246759829e-06,
      "loss": 0.3776,
      "step": 52370
    },
    {
      "epoch": 1027.0,
      "eval_loss": 0.3787022829055786,
      "eval_runtime": 2.2896,
      "eval_samples_per_second": 995.38,
      "eval_steps_per_second": 3.931,
      "step": 52377
    },
    {
      "epoch": 1027.06,
      "learning_rate": 8.357611319921967e-06,
      "loss": 0.3712,
      "step": 52380
    },
    {
      "epoch": 1027.25,
      "learning_rate": 8.3390296303369e-06,
      "loss": 0.3721,
      "step": 52390
    },
    {
      "epoch": 1027.45,
      "learning_rate": 8.320467404268479e-06,
      "loss": 0.3758,
      "step": 52400
    },
    {
      "epoch": 1027.65,
      "learning_rate": 8.301924647136499e-06,
      "loss": 0.3751,
      "step": 52410
    },
    {
      "epoch": 1027.84,
      "learning_rate": 8.283401364354999e-06,
      "loss": 0.3688,
      "step": 52420
    },
    {
      "epoch": 1028.0,
      "eval_loss": 0.37706291675567627,
      "eval_runtime": 2.2642,
      "eval_samples_per_second": 1006.53,
      "eval_steps_per_second": 3.975,
      "step": 52428
    },
    {
      "epoch": 1028.04,
      "learning_rate": 8.264897561332357e-06,
      "loss": 0.3715,
      "step": 52430
    },
    {
      "epoch": 1028.24,
      "learning_rate": 8.246413243471315e-06,
      "loss": 0.3757,
      "step": 52440
    },
    {
      "epoch": 1028.43,
      "learning_rate": 8.22794841616884e-06,
      "loss": 0.3712,
      "step": 52450
    },
    {
      "epoch": 1028.63,
      "learning_rate": 8.209503084816285e-06,
      "loss": 0.3777,
      "step": 52460
    },
    {
      "epoch": 1028.82,
      "learning_rate": 8.191077254799244e-06,
      "loss": 0.375,
      "step": 52470
    },
    {
      "epoch": 1029.0,
      "eval_loss": 0.3775680661201477,
      "eval_runtime": 2.3853,
      "eval_samples_per_second": 955.43,
      "eval_steps_per_second": 3.773,
      "step": 52479
    },
    {
      "epoch": 1029.02,
      "learning_rate": 8.172670931497655e-06,
      "loss": 0.3781,
      "step": 52480
    },
    {
      "epoch": 1029.22,
      "learning_rate": 8.154284120285775e-06,
      "loss": 0.3723,
      "step": 52490
    },
    {
      "epoch": 1029.41,
      "learning_rate": 8.135916826532112e-06,
      "loss": 0.3737,
      "step": 52500
    },
    {
      "epoch": 1029.61,
      "learning_rate": 8.117569055599543e-06,
      "loss": 0.3723,
      "step": 52510
    },
    {
      "epoch": 1029.8,
      "learning_rate": 8.099240812845173e-06,
      "loss": 0.3709,
      "step": 52520
    },
    {
      "epoch": 1030.0,
      "learning_rate": 8.080932103620446e-06,
      "loss": 0.372,
      "step": 52530
    },
    {
      "epoch": 1030.0,
      "eval_loss": 0.3795132339000702,
      "eval_runtime": 2.3155,
      "eval_samples_per_second": 984.231,
      "eval_steps_per_second": 3.887,
      "step": 52530
    },
    {
      "epoch": 1030.2,
      "learning_rate": 8.062642933271104e-06,
      "loss": 0.3769,
      "step": 52540
    },
    {
      "epoch": 1030.39,
      "learning_rate": 8.044373307137201e-06,
      "loss": 0.3697,
      "step": 52550
    },
    {
      "epoch": 1030.59,
      "learning_rate": 8.026123230553033e-06,
      "loss": 0.3753,
      "step": 52560
    },
    {
      "epoch": 1030.78,
      "learning_rate": 8.0078927088472e-06,
      "loss": 0.3695,
      "step": 52570
    },
    {
      "epoch": 1030.98,
      "learning_rate": 7.98968174734265e-06,
      "loss": 0.3736,
      "step": 52580
    },
    {
      "epoch": 1031.0,
      "eval_loss": 0.3780902624130249,
      "eval_runtime": 2.2445,
      "eval_samples_per_second": 1015.369,
      "eval_steps_per_second": 4.01,
      "step": 52581
    },
    {
      "epoch": 1031.18,
      "learning_rate": 7.971490351356521e-06,
      "loss": 0.3718,
      "step": 52590
    },
    {
      "epoch": 1031.37,
      "learning_rate": 7.953318526200358e-06,
      "loss": 0.3723,
      "step": 52600
    },
    {
      "epoch": 1031.57,
      "learning_rate": 7.935166277179884e-06,
      "loss": 0.3737,
      "step": 52610
    },
    {
      "epoch": 1031.76,
      "learning_rate": 7.91703360959518e-06,
      "loss": 0.3744,
      "step": 52620
    },
    {
      "epoch": 1031.96,
      "learning_rate": 7.898920528740566e-06,
      "loss": 0.3713,
      "step": 52630
    },
    {
      "epoch": 1032.0,
      "eval_loss": 0.3815433084964752,
      "eval_runtime": 2.225,
      "eval_samples_per_second": 1024.291,
      "eval_steps_per_second": 4.045,
      "step": 52632
    },
    {
      "epoch": 1032.16,
      "learning_rate": 7.880827039904633e-06,
      "loss": 0.3725,
      "step": 52640
    },
    {
      "epoch": 1032.35,
      "learning_rate": 7.862753148370331e-06,
      "loss": 0.3678,
      "step": 52650
    },
    {
      "epoch": 1032.55,
      "learning_rate": 7.844698859414783e-06,
      "loss": 0.3763,
      "step": 52660
    },
    {
      "epoch": 1032.75,
      "learning_rate": 7.826664178309477e-06,
      "loss": 0.3692,
      "step": 52670
    },
    {
      "epoch": 1032.94,
      "learning_rate": 7.808649110320111e-06,
      "loss": 0.3772,
      "step": 52680
    },
    {
      "epoch": 1033.0,
      "eval_loss": 0.38015732169151306,
      "eval_runtime": 2.2304,
      "eval_samples_per_second": 1021.789,
      "eval_steps_per_second": 4.035,
      "step": 52683
    },
    {
      "epoch": 1033.14,
      "learning_rate": 7.790653660706686e-06,
      "loss": 0.3714,
      "step": 52690
    },
    {
      "epoch": 1033.33,
      "learning_rate": 7.772677834723498e-06,
      "loss": 0.3774,
      "step": 52700
    },
    {
      "epoch": 1033.53,
      "learning_rate": 7.75472163761905e-06,
      "loss": 0.3751,
      "step": 52710
    },
    {
      "epoch": 1033.73,
      "learning_rate": 7.736785074636179e-06,
      "loss": 0.3657,
      "step": 52720
    },
    {
      "epoch": 1033.92,
      "learning_rate": 7.71886815101194e-06,
      "loss": 0.375,
      "step": 52730
    },
    {
      "epoch": 1034.0,
      "eval_loss": 0.37879452109336853,
      "eval_runtime": 2.2594,
      "eval_samples_per_second": 1008.66,
      "eval_steps_per_second": 3.983,
      "step": 52734
    },
    {
      "epoch": 1034.12,
      "learning_rate": 7.700970871977687e-06,
      "loss": 0.3721,
      "step": 52740
    },
    {
      "epoch": 1034.31,
      "learning_rate": 7.68309324275902e-06,
      "loss": 0.375,
      "step": 52750
    },
    {
      "epoch": 1034.51,
      "learning_rate": 7.665235268575835e-06,
      "loss": 0.3738,
      "step": 52760
    },
    {
      "epoch": 1034.71,
      "learning_rate": 7.647396954642235e-06,
      "loss": 0.3723,
      "step": 52770
    },
    {
      "epoch": 1034.9,
      "learning_rate": 7.629578306166607e-06,
      "loss": 0.3725,
      "step": 52780
    },
    {
      "epoch": 1035.0,
      "eval_loss": 0.3818568289279938,
      "eval_runtime": 2.272,
      "eval_samples_per_second": 1003.103,
      "eval_steps_per_second": 3.961,
      "step": 52785
    },
    {
      "epoch": 1035.1,
      "learning_rate": 7.6117793283516196e-06,
      "loss": 0.3697,
      "step": 52790
    },
    {
      "epoch": 1035.29,
      "learning_rate": 7.594000026394134e-06,
      "loss": 0.3768,
      "step": 52800
    },
    {
      "epoch": 1035.49,
      "learning_rate": 7.576240405485373e-06,
      "loss": 0.3731,
      "step": 52810
    },
    {
      "epoch": 1035.69,
      "learning_rate": 7.558500470810697e-06,
      "loss": 0.3749,
      "step": 52820
    },
    {
      "epoch": 1035.88,
      "learning_rate": 7.540780227549811e-06,
      "loss": 0.3696,
      "step": 52830
    },
    {
      "epoch": 1036.0,
      "eval_loss": 0.38364723324775696,
      "eval_runtime": 2.3835,
      "eval_samples_per_second": 956.169,
      "eval_steps_per_second": 3.776,
      "step": 52836
    },
    {
      "epoch": 1036.08,
      "learning_rate": 7.523079680876612e-06,
      "loss": 0.372,
      "step": 52840
    },
    {
      "epoch": 1036.27,
      "learning_rate": 7.50539883595924e-06,
      "loss": 0.3726,
      "step": 52850
    },
    {
      "epoch": 1036.47,
      "learning_rate": 7.487737697960155e-06,
      "loss": 0.3733,
      "step": 52860
    },
    {
      "epoch": 1036.67,
      "learning_rate": 7.470096272035978e-06,
      "loss": 0.3738,
      "step": 52870
    },
    {
      "epoch": 1036.86,
      "learning_rate": 7.452474563337643e-06,
      "loss": 0.3741,
      "step": 52880
    },
    {
      "epoch": 1037.0,
      "eval_loss": 0.3813818693161011,
      "eval_runtime": 2.2919,
      "eval_samples_per_second": 994.355,
      "eval_steps_per_second": 3.927,
      "step": 52887
    },
    {
      "epoch": 1037.06,
      "learning_rate": 7.43487257701027e-06,
      "loss": 0.3728,
      "step": 52890
    },
    {
      "epoch": 1037.25,
      "learning_rate": 7.417290318193247e-06,
      "loss": 0.3696,
      "step": 52900
    },
    {
      "epoch": 1037.45,
      "learning_rate": 7.399727792020235e-06,
      "loss": 0.3743,
      "step": 52910
    },
    {
      "epoch": 1037.65,
      "learning_rate": 7.382185003619048e-06,
      "loss": 0.3764,
      "step": 52920
    },
    {
      "epoch": 1037.84,
      "learning_rate": 7.364661958111839e-06,
      "loss": 0.3734,
      "step": 52930
    },
    {
      "epoch": 1038.0,
      "eval_loss": 0.37986841797828674,
      "eval_runtime": 2.3307,
      "eval_samples_per_second": 977.807,
      "eval_steps_per_second": 3.861,
      "step": 52938
    },
    {
      "epoch": 1038.04,
      "learning_rate": 7.347158660614907e-06,
      "loss": 0.3711,
      "step": 52940
    },
    {
      "epoch": 1038.24,
      "learning_rate": 7.3296751162388475e-06,
      "loss": 0.3734,
      "step": 52950
    },
    {
      "epoch": 1038.43,
      "learning_rate": 7.3122113300884525e-06,
      "loss": 0.3741,
      "step": 52960
    },
    {
      "epoch": 1038.63,
      "learning_rate": 7.294767307262784e-06,
      "loss": 0.373,
      "step": 52970
    },
    {
      "epoch": 1038.82,
      "learning_rate": 7.277343052855084e-06,
      "loss": 0.3759,
      "step": 52980
    },
    {
      "epoch": 1039.0,
      "eval_loss": 0.3788532614707947,
      "eval_runtime": 2.3042,
      "eval_samples_per_second": 989.052,
      "eval_steps_per_second": 3.906,
      "step": 52989
    },
    {
      "epoch": 1039.02,
      "learning_rate": 7.259938571952833e-06,
      "loss": 0.3736,
      "step": 52990
    },
    {
      "epoch": 1039.22,
      "learning_rate": 7.242553869637793e-06,
      "loss": 0.3782,
      "step": 53000
    },
    {
      "epoch": 1039.41,
      "learning_rate": 7.225188950985852e-06,
      "loss": 0.3711,
      "step": 53010
    },
    {
      "epoch": 1039.61,
      "learning_rate": 7.207843821067239e-06,
      "loss": 0.3719,
      "step": 53020
    },
    {
      "epoch": 1039.8,
      "learning_rate": 7.190518484946309e-06,
      "loss": 0.376,
      "step": 53030
    },
    {
      "epoch": 1040.0,
      "learning_rate": 7.173212947681692e-06,
      "loss": 0.3726,
      "step": 53040
    },
    {
      "epoch": 1040.0,
      "eval_loss": 0.38017430901527405,
      "eval_runtime": 2.2059,
      "eval_samples_per_second": 1033.148,
      "eval_steps_per_second": 4.08,
      "step": 53040
    },
    {
      "epoch": 1040.2,
      "learning_rate": 7.155927214326213e-06,
      "loss": 0.3687,
      "step": 53050
    },
    {
      "epoch": 1040.39,
      "learning_rate": 7.138661289926892e-06,
      "loss": 0.3779,
      "step": 53060
    },
    {
      "epoch": 1040.59,
      "learning_rate": 7.121415179525039e-06,
      "loss": 0.3764,
      "step": 53070
    },
    {
      "epoch": 1040.78,
      "learning_rate": 7.104188888156109e-06,
      "loss": 0.3772,
      "step": 53080
    },
    {
      "epoch": 1040.98,
      "learning_rate": 7.086982420849812e-06,
      "loss": 0.3693,
      "step": 53090
    },
    {
      "epoch": 1041.0,
      "eval_loss": 0.37691381573677063,
      "eval_runtime": 2.2297,
      "eval_samples_per_second": 1022.133,
      "eval_steps_per_second": 4.037,
      "step": 53091
    },
    {
      "epoch": 1041.18,
      "learning_rate": 7.069795782630039e-06,
      "loss": 0.3744,
      "step": 53100
    },
    {
      "epoch": 1041.37,
      "learning_rate": 7.0526289785148824e-06,
      "loss": 0.3716,
      "step": 53110
    },
    {
      "epoch": 1041.57,
      "learning_rate": 7.035482013516716e-06,
      "loss": 0.3705,
      "step": 53120
    },
    {
      "epoch": 1041.76,
      "learning_rate": 7.018354892642028e-06,
      "loss": 0.3755,
      "step": 53130
    },
    {
      "epoch": 1041.96,
      "learning_rate": 7.001247620891592e-06,
      "loss": 0.3705,
      "step": 53140
    },
    {
      "epoch": 1042.0,
      "eval_loss": 0.3811741769313812,
      "eval_runtime": 2.3416,
      "eval_samples_per_second": 973.249,
      "eval_steps_per_second": 3.843,
      "step": 53142
    },
    {
      "epoch": 1042.16,
      "learning_rate": 6.984160203260323e-06,
      "loss": 0.3728,
      "step": 53150
    },
    {
      "epoch": 1042.35,
      "learning_rate": 6.967092644737368e-06,
      "loss": 0.3718,
      "step": 53160
    },
    {
      "epoch": 1042.55,
      "learning_rate": 6.950044950306094e-06,
      "loss": 0.3709,
      "step": 53170
    },
    {
      "epoch": 1042.75,
      "learning_rate": 6.9330171249440184e-06,
      "loss": 0.374,
      "step": 53180
    },
    {
      "epoch": 1042.94,
      "learning_rate": 6.916009173622914e-06,
      "loss": 0.3691,
      "step": 53190
    },
    {
      "epoch": 1043.0,
      "eval_loss": 0.3806150257587433,
      "eval_runtime": 2.3941,
      "eval_samples_per_second": 951.93,
      "eval_steps_per_second": 3.759,
      "step": 53193
    },
    {
      "epoch": 1043.14,
      "learning_rate": 6.899021101308699e-06,
      "loss": 0.3748,
      "step": 53200
    },
    {
      "epoch": 1043.33,
      "learning_rate": 6.882052912961533e-06,
      "loss": 0.3745,
      "step": 53210
    },
    {
      "epoch": 1043.53,
      "learning_rate": 6.865104613535718e-06,
      "loss": 0.3736,
      "step": 53220
    },
    {
      "epoch": 1043.73,
      "learning_rate": 6.848176207979822e-06,
      "loss": 0.3703,
      "step": 53230
    },
    {
      "epoch": 1043.92,
      "learning_rate": 6.83126770123654e-06,
      "loss": 0.3736,
      "step": 53240
    },
    {
      "epoch": 1044.0,
      "eval_loss": 0.3796224892139435,
      "eval_runtime": 2.3263,
      "eval_samples_per_second": 979.664,
      "eval_steps_per_second": 3.869,
      "step": 53244
    },
    {
      "epoch": 1044.12,
      "learning_rate": 6.814379098242773e-06,
      "loss": 0.3684,
      "step": 53250
    },
    {
      "epoch": 1044.31,
      "learning_rate": 6.7975104039296266e-06,
      "loss": 0.372,
      "step": 53260
    },
    {
      "epoch": 1044.51,
      "learning_rate": 6.780661623222361e-06,
      "loss": 0.3715,
      "step": 53270
    },
    {
      "epoch": 1044.71,
      "learning_rate": 6.763832761040483e-06,
      "loss": 0.3704,
      "step": 53280
    },
    {
      "epoch": 1044.9,
      "learning_rate": 6.747023822297612e-06,
      "loss": 0.3707,
      "step": 53290
    },
    {
      "epoch": 1045.0,
      "eval_loss": 0.3784136474132538,
      "eval_runtime": 2.3444,
      "eval_samples_per_second": 972.094,
      "eval_steps_per_second": 3.839,
      "step": 53295
    },
    {
      "epoch": 1045.1,
      "learning_rate": 6.730234811901614e-06,
      "loss": 0.3733,
      "step": 53300
    },
    {
      "epoch": 1045.29,
      "learning_rate": 6.713465734754475e-06,
      "loss": 0.3748,
      "step": 53310
    },
    {
      "epoch": 1045.49,
      "learning_rate": 6.696716595752388e-06,
      "loss": 0.3723,
      "step": 53320
    },
    {
      "epoch": 1045.69,
      "learning_rate": 6.679987399785766e-06,
      "loss": 0.3714,
      "step": 53330
    },
    {
      "epoch": 1045.88,
      "learning_rate": 6.663278151739135e-06,
      "loss": 0.3735,
      "step": 53340
    },
    {
      "epoch": 1046.0,
      "eval_loss": 0.3752482831478119,
      "eval_runtime": 2.3265,
      "eval_samples_per_second": 979.576,
      "eval_steps_per_second": 3.868,
      "step": 53346
    },
    {
      "epoch": 1046.08,
      "learning_rate": 6.646588856491234e-06,
      "loss": 0.3691,
      "step": 53350
    },
    {
      "epoch": 1046.27,
      "learning_rate": 6.629919518914939e-06,
      "loss": 0.3676,
      "step": 53360
    },
    {
      "epoch": 1046.47,
      "learning_rate": 6.61327014387735e-06,
      "loss": 0.3704,
      "step": 53370
    },
    {
      "epoch": 1046.67,
      "learning_rate": 6.59664073623972e-06,
      "loss": 0.3789,
      "step": 53380
    },
    {
      "epoch": 1046.86,
      "learning_rate": 6.580031300857438e-06,
      "loss": 0.3773,
      "step": 53390
    },
    {
      "epoch": 1047.0,
      "eval_loss": 0.38012462854385376,
      "eval_runtime": 2.3216,
      "eval_samples_per_second": 981.637,
      "eval_steps_per_second": 3.877,
      "step": 53397
    },
    {
      "epoch": 1047.06,
      "learning_rate": 6.563441842580111e-06,
      "loss": 0.3798,
      "step": 53400
    },
    {
      "epoch": 1047.25,
      "learning_rate": 6.54687236625148e-06,
      "loss": 0.3741,
      "step": 53410
    },
    {
      "epoch": 1047.45,
      "learning_rate": 6.530322876709465e-06,
      "loss": 0.3705,
      "step": 53420
    },
    {
      "epoch": 1047.65,
      "learning_rate": 6.513793378786136e-06,
      "loss": 0.3742,
      "step": 53430
    },
    {
      "epoch": 1047.84,
      "learning_rate": 6.4972838773077655e-06,
      "loss": 0.3714,
      "step": 53440
    },
    {
      "epoch": 1048.0,
      "eval_loss": 0.38000649213790894,
      "eval_runtime": 2.2751,
      "eval_samples_per_second": 1001.725,
      "eval_steps_per_second": 3.956,
      "step": 53448
    },
    {
      "epoch": 1048.04,
      "learning_rate": 6.4807943770947475e-06,
      "loss": 0.3758,
      "step": 53450
    },
    {
      "epoch": 1048.24,
      "learning_rate": 6.46432488296163e-06,
      "loss": 0.3754,
      "step": 53460
    },
    {
      "epoch": 1048.43,
      "learning_rate": 6.4478753997171675e-06,
      "loss": 0.3754,
      "step": 53470
    },
    {
      "epoch": 1048.63,
      "learning_rate": 6.4314459321642e-06,
      "loss": 0.3703,
      "step": 53480
    },
    {
      "epoch": 1048.82,
      "learning_rate": 6.415036485099825e-06,
      "loss": 0.3747,
      "step": 53490
    },
    {
      "epoch": 1049.0,
      "eval_loss": 0.3787485957145691,
      "eval_runtime": 2.204,
      "eval_samples_per_second": 1034.047,
      "eval_steps_per_second": 4.084,
      "step": 53499
    },
    {
      "epoch": 1049.02,
      "learning_rate": 6.3986470633151845e-06,
      "loss": 0.3682,
      "step": 53500
    },
    {
      "epoch": 1049.22,
      "learning_rate": 6.382277671595659e-06,
      "loss": 0.368,
      "step": 53510
    },
    {
      "epoch": 1049.41,
      "learning_rate": 6.365928314720725e-06,
      "loss": 0.3749,
      "step": 53520
    },
    {
      "epoch": 1049.61,
      "learning_rate": 6.349598997464015e-06,
      "loss": 0.3713,
      "step": 53530
    },
    {
      "epoch": 1049.8,
      "learning_rate": 6.333289724593363e-06,
      "loss": 0.3732,
      "step": 53540
    },
    {
      "epoch": 1050.0,
      "learning_rate": 6.317000500870687e-06,
      "loss": 0.3735,
      "step": 53550
    },
    {
      "epoch": 1050.0,
      "eval_loss": 0.3775447905063629,
      "eval_runtime": 2.2154,
      "eval_samples_per_second": 1028.709,
      "eval_steps_per_second": 4.062,
      "step": 53550
    },
    {
      "epoch": 1050.2,
      "learning_rate": 6.3007313310520975e-06,
      "loss": 0.367,
      "step": 53560
    },
    {
      "epoch": 1050.39,
      "learning_rate": 6.2844822198878046e-06,
      "loss": 0.3703,
      "step": 53570
    },
    {
      "epoch": 1050.59,
      "learning_rate": 6.268253172122204e-06,
      "loss": 0.3666,
      "step": 53580
    },
    {
      "epoch": 1050.78,
      "learning_rate": 6.252044192493813e-06,
      "loss": 0.3735,
      "step": 53590
    },
    {
      "epoch": 1050.98,
      "learning_rate": 6.235855285735289e-06,
      "loss": 0.3727,
      "step": 53600
    },
    {
      "epoch": 1051.0,
      "eval_loss": 0.37708601355552673,
      "eval_runtime": 2.3593,
      "eval_samples_per_second": 965.956,
      "eval_steps_per_second": 3.815,
      "step": 53601
    },
    {
      "epoch": 1051.18,
      "learning_rate": 6.219686456573434e-06,
      "loss": 0.374,
      "step": 53610
    },
    {
      "epoch": 1051.37,
      "learning_rate": 6.203537709729178e-06,
      "loss": 0.3726,
      "step": 53620
    },
    {
      "epoch": 1051.57,
      "learning_rate": 6.187409049917611e-06,
      "loss": 0.3717,
      "step": 53630
    },
    {
      "epoch": 1051.76,
      "learning_rate": 6.171300481847905e-06,
      "loss": 0.3703,
      "step": 53640
    },
    {
      "epoch": 1051.96,
      "learning_rate": 6.155212010223457e-06,
      "loss": 0.3736,
      "step": 53650
    },
    {
      "epoch": 1052.0,
      "eval_loss": 0.38328659534454346,
      "eval_runtime": 2.4265,
      "eval_samples_per_second": 939.22,
      "eval_steps_per_second": 3.709,
      "step": 53652
    },
    {
      "epoch": 1052.16,
      "learning_rate": 6.1391436397417084e-06,
      "loss": 0.3724,
      "step": 53660
    },
    {
      "epoch": 1052.35,
      "learning_rate": 6.123095375094267e-06,
      "loss": 0.3723,
      "step": 53670
    },
    {
      "epoch": 1052.55,
      "learning_rate": 6.107067220966874e-06,
      "loss": 0.3691,
      "step": 53680
    },
    {
      "epoch": 1052.75,
      "learning_rate": 6.0910591820393705e-06,
      "loss": 0.3719,
      "step": 53690
    },
    {
      "epoch": 1052.94,
      "learning_rate": 6.0750712629858005e-06,
      "loss": 0.3676,
      "step": 53700
    },
    {
      "epoch": 1053.0,
      "eval_loss": 0.37962618470191956,
      "eval_runtime": 2.3919,
      "eval_samples_per_second": 952.79,
      "eval_steps_per_second": 3.763,
      "step": 53703
    },
    {
      "epoch": 1053.14,
      "learning_rate": 6.059103468474222e-06,
      "loss": 0.372,
      "step": 53710
    },
    {
      "epoch": 1053.33,
      "learning_rate": 6.043155803166921e-06,
      "loss": 0.3712,
      "step": 53720
    },
    {
      "epoch": 1053.53,
      "learning_rate": 6.027228271720233e-06,
      "loss": 0.3705,
      "step": 53730
    },
    {
      "epoch": 1053.73,
      "learning_rate": 6.011320878784629e-06,
      "loss": 0.3735,
      "step": 53740
    },
    {
      "epoch": 1053.92,
      "learning_rate": 5.99543362900475e-06,
      "loss": 0.3688,
      "step": 53750
    },
    {
      "epoch": 1054.0,
      "eval_loss": 0.3757660686969757,
      "eval_runtime": 2.255,
      "eval_samples_per_second": 1010.632,
      "eval_steps_per_second": 3.991,
      "step": 53754
    },
    {
      "epoch": 1054.12,
      "learning_rate": 5.979566527019289e-06,
      "loss": 0.3707,
      "step": 53760
    },
    {
      "epoch": 1054.31,
      "learning_rate": 5.963719577461112e-06,
      "loss": 0.3738,
      "step": 53770
    },
    {
      "epoch": 1054.51,
      "learning_rate": 5.947892784957162e-06,
      "loss": 0.3766,
      "step": 53780
    },
    {
      "epoch": 1054.71,
      "learning_rate": 5.932086154128474e-06,
      "loss": 0.3759,
      "step": 53790
    },
    {
      "epoch": 1054.9,
      "learning_rate": 5.916299689590298e-06,
      "loss": 0.369,
      "step": 53800
    },
    {
      "epoch": 1055.0,
      "eval_loss": 0.3774784207344055,
      "eval_runtime": 2.2073,
      "eval_samples_per_second": 1032.485,
      "eval_steps_per_second": 4.077,
      "step": 53805
    },
    {
      "epoch": 1055.1,
      "learning_rate": 5.900533395951881e-06,
      "loss": 0.3718,
      "step": 53810
    },
    {
      "epoch": 1055.29,
      "learning_rate": 5.884787277816649e-06,
      "loss": 0.3693,
      "step": 53820
    },
    {
      "epoch": 1055.49,
      "learning_rate": 5.869061339782116e-06,
      "loss": 0.372,
      "step": 53830
    },
    {
      "epoch": 1055.69,
      "learning_rate": 5.853355586439901e-06,
      "loss": 0.374,
      "step": 53840
    },
    {
      "epoch": 1055.88,
      "learning_rate": 5.837670022375734e-06,
      "loss": 0.3696,
      "step": 53850
    },
    {
      "epoch": 1056.0,
      "eval_loss": 0.38110822439193726,
      "eval_runtime": 2.2544,
      "eval_samples_per_second": 1010.892,
      "eval_steps_per_second": 3.992,
      "step": 53856
    },
    {
      "epoch": 1056.08,
      "learning_rate": 5.822004652169445e-06,
      "loss": 0.3728,
      "step": 53860
    },
    {
      "epoch": 1056.27,
      "learning_rate": 5.806359480394992e-06,
      "loss": 0.3676,
      "step": 53870
    },
    {
      "epoch": 1056.47,
      "learning_rate": 5.790734511620387e-06,
      "loss": 0.3764,
      "step": 53880
    },
    {
      "epoch": 1056.67,
      "learning_rate": 5.775129750407806e-06,
      "loss": 0.3732,
      "step": 53890
    },
    {
      "epoch": 1056.86,
      "learning_rate": 5.759545201313445e-06,
      "loss": 0.3707,
      "step": 53900
    },
    {
      "epoch": 1057.0,
      "eval_loss": 0.3776305615901947,
      "eval_runtime": 2.2002,
      "eval_samples_per_second": 1035.8,
      "eval_steps_per_second": 4.09,
      "step": 53907
    },
    {
      "epoch": 1057.06,
      "learning_rate": 5.743980868887699e-06,
      "loss": 0.3742,
      "step": 53910
    },
    {
      "epoch": 1057.25,
      "learning_rate": 5.728436757674981e-06,
      "loss": 0.3709,
      "step": 53920
    },
    {
      "epoch": 1057.45,
      "learning_rate": 5.712912872213812e-06,
      "loss": 0.3692,
      "step": 53930
    },
    {
      "epoch": 1057.65,
      "learning_rate": 5.6974092170368414e-06,
      "loss": 0.3766,
      "step": 53940
    },
    {
      "epoch": 1057.84,
      "learning_rate": 5.681925796670756e-06,
      "loss": 0.3765,
      "step": 53950
    },
    {
      "epoch": 1058.0,
      "eval_loss": 0.3803638219833374,
      "eval_runtime": 2.3012,
      "eval_samples_per_second": 990.343,
      "eval_steps_per_second": 3.911,
      "step": 53958
    },
    {
      "epoch": 1058.04,
      "learning_rate": 5.666462615636422e-06,
      "loss": 0.3715,
      "step": 53960
    },
    {
      "epoch": 1058.24,
      "learning_rate": 5.6510196784487125e-06,
      "loss": 0.3725,
      "step": 53970
    },
    {
      "epoch": 1058.43,
      "learning_rate": 5.635596989616628e-06,
      "loss": 0.3727,
      "step": 53980
    },
    {
      "epoch": 1058.63,
      "learning_rate": 5.620194553643243e-06,
      "loss": 0.372,
      "step": 53990
    },
    {
      "epoch": 1058.82,
      "learning_rate": 5.604812375025708e-06,
      "loss": 0.3697,
      "step": 54000
    },
    {
      "epoch": 1059.0,
      "eval_loss": 0.3813176155090332,
      "eval_runtime": 2.2044,
      "eval_samples_per_second": 1033.843,
      "eval_steps_per_second": 4.083,
      "step": 54009
    },
    {
      "epoch": 1059.02,
      "learning_rate": 5.589450458255324e-06,
      "loss": 0.3749,
      "step": 54010
    },
    {
      "epoch": 1059.22,
      "learning_rate": 5.574108807817384e-06,
      "loss": 0.373,
      "step": 54020
    },
    {
      "epoch": 1059.41,
      "learning_rate": 5.558787428191341e-06,
      "loss": 0.3729,
      "step": 54030
    },
    {
      "epoch": 1059.61,
      "learning_rate": 5.543486323850666e-06,
      "loss": 0.3722,
      "step": 54040
    },
    {
      "epoch": 1059.8,
      "learning_rate": 5.528205499262958e-06,
      "loss": 0.3719,
      "step": 54050
    },
    {
      "epoch": 1060.0,
      "learning_rate": 5.512944958889867e-06,
      "loss": 0.3718,
      "step": 54060
    },
    {
      "epoch": 1060.0,
      "eval_loss": 0.3722068667411804,
      "eval_runtime": 2.3645,
      "eval_samples_per_second": 963.858,
      "eval_steps_per_second": 3.806,
      "step": 54060
    },
    {
      "epoch": 1060.2,
      "learning_rate": 5.497704707187137e-06,
      "loss": 0.3722,
      "step": 54070
    },
    {
      "epoch": 1060.39,
      "learning_rate": 5.482484748604598e-06,
      "loss": 0.3718,
      "step": 54080
    },
    {
      "epoch": 1060.59,
      "learning_rate": 5.467285087586107e-06,
      "loss": 0.3773,
      "step": 54090
    },
    {
      "epoch": 1060.78,
      "learning_rate": 5.452105728569644e-06,
      "loss": 0.3672,
      "step": 54100
    },
    {
      "epoch": 1060.98,
      "learning_rate": 5.436946675987225e-06,
      "loss": 0.3699,
      "step": 54110
    },
    {
      "epoch": 1061.0,
      "eval_loss": 0.37705689668655396,
      "eval_runtime": 2.2209,
      "eval_samples_per_second": 1026.164,
      "eval_steps_per_second": 4.052,
      "step": 54111
    },
    {
      "epoch": 1061.18,
      "learning_rate": 5.4218079342649906e-06,
      "loss": 0.3643,
      "step": 54120
    },
    {
      "epoch": 1061.37,
      "learning_rate": 5.4066895078230894e-06,
      "loss": 0.3655,
      "step": 54130
    },
    {
      "epoch": 1061.57,
      "learning_rate": 5.391591401075765e-06,
      "loss": 0.3724,
      "step": 54140
    },
    {
      "epoch": 1061.76,
      "learning_rate": 5.376513618431349e-06,
      "loss": 0.3729,
      "step": 54150
    },
    {
      "epoch": 1061.96,
      "learning_rate": 5.361456164292171e-06,
      "loss": 0.3725,
      "step": 54160
    },
    {
      "epoch": 1062.0,
      "eval_loss": 0.3779694437980652,
      "eval_runtime": 2.3417,
      "eval_samples_per_second": 973.217,
      "eval_steps_per_second": 3.843,
      "step": 54162
    },
    {
      "epoch": 1062.16,
      "learning_rate": 5.346419043054731e-06,
      "loss": 0.3711,
      "step": 54170
    },
    {
      "epoch": 1062.35,
      "learning_rate": 5.331402259109491e-06,
      "loss": 0.3718,
      "step": 54180
    },
    {
      "epoch": 1062.55,
      "learning_rate": 5.316405816841035e-06,
      "loss": 0.375,
      "step": 54190
    },
    {
      "epoch": 1062.75,
      "learning_rate": 5.3014297206279945e-06,
      "loss": 0.375,
      "step": 54200
    },
    {
      "epoch": 1062.94,
      "learning_rate": 5.286473974843022e-06,
      "loss": 0.3705,
      "step": 54210
    },
    {
      "epoch": 1063.0,
      "eval_loss": 0.37669458985328674,
      "eval_runtime": 2.2851,
      "eval_samples_per_second": 997.336,
      "eval_steps_per_second": 3.939,
      "step": 54213
    },
    {
      "epoch": 1063.14,
      "learning_rate": 5.271538583852908e-06,
      "loss": 0.3732,
      "step": 54220
    },
    {
      "epoch": 1063.33,
      "learning_rate": 5.256623552018421e-06,
      "loss": 0.3708,
      "step": 54230
    },
    {
      "epoch": 1063.53,
      "learning_rate": 5.241728883694446e-06,
      "loss": 0.3735,
      "step": 54240
    },
    {
      "epoch": 1063.73,
      "learning_rate": 5.226854583229853e-06,
      "loss": 0.3736,
      "step": 54250
    },
    {
      "epoch": 1063.92,
      "learning_rate": 5.2120006549676516e-06,
      "loss": 0.3698,
      "step": 54260
    },
    {
      "epoch": 1064.0,
      "eval_loss": 0.3782898783683777,
      "eval_runtime": 2.2588,
      "eval_samples_per_second": 1008.939,
      "eval_steps_per_second": 3.984,
      "step": 54264
    },
    {
      "epoch": 1064.12,
      "learning_rate": 5.197167103244823e-06,
      "loss": 0.375,
      "step": 54270
    },
    {
      "epoch": 1064.31,
      "learning_rate": 5.182353932392435e-06,
      "loss": 0.3668,
      "step": 54280
    },
    {
      "epoch": 1064.51,
      "learning_rate": 5.1675611467356385e-06,
      "loss": 0.3702,
      "step": 54290
    },
    {
      "epoch": 1064.71,
      "learning_rate": 5.152788750593559e-06,
      "loss": 0.3717,
      "step": 54300
    },
    {
      "epoch": 1064.9,
      "learning_rate": 5.138036748279431e-06,
      "loss": 0.374,
      "step": 54310
    },
    {
      "epoch": 1065.0,
      "eval_loss": 0.3775031268596649,
      "eval_runtime": 2.3721,
      "eval_samples_per_second": 960.751,
      "eval_steps_per_second": 3.794,
      "step": 54315
    },
    {
      "epoch": 1065.1,
      "learning_rate": 5.123305144100467e-06,
      "loss": 0.3726,
      "step": 54320
    },
    {
      "epoch": 1065.29,
      "learning_rate": 5.108593942358036e-06,
      "loss": 0.3703,
      "step": 54330
    },
    {
      "epoch": 1065.49,
      "learning_rate": 5.0939031473474336e-06,
      "loss": 0.3685,
      "step": 54340
    },
    {
      "epoch": 1065.69,
      "learning_rate": 5.079232763358046e-06,
      "loss": 0.3701,
      "step": 54350
    },
    {
      "epoch": 1065.88,
      "learning_rate": 5.0645827946733215e-06,
      "loss": 0.3665,
      "step": 54360
    },
    {
      "epoch": 1066.0,
      "eval_loss": 0.3812878131866455,
      "eval_runtime": 2.3196,
      "eval_samples_per_second": 982.514,
      "eval_steps_per_second": 3.88,
      "step": 54366
    },
    {
      "epoch": 1066.08,
      "learning_rate": 5.04995324557069e-06,
      "loss": 0.3756,
      "step": 54370
    },
    {
      "epoch": 1066.27,
      "learning_rate": 5.035344120321691e-06,
      "loss": 0.3716,
      "step": 54380
    },
    {
      "epoch": 1066.47,
      "learning_rate": 5.020755423191839e-06,
      "loss": 0.3706,
      "step": 54390
    },
    {
      "epoch": 1066.67,
      "learning_rate": 5.006187158440716e-06,
      "loss": 0.371,
      "step": 54400
    },
    {
      "epoch": 1066.86,
      "learning_rate": 4.991639330321939e-06,
      "loss": 0.3695,
      "step": 54410
    },
    {
      "epoch": 1067.0,
      "eval_loss": 0.38005512952804565,
      "eval_runtime": 2.33,
      "eval_samples_per_second": 978.108,
      "eval_steps_per_second": 3.863,
      "step": 54417
    },
    {
      "epoch": 1067.06,
      "learning_rate": 4.977111943083118e-06,
      "loss": 0.3717,
      "step": 54420
    },
    {
      "epoch": 1067.25,
      "learning_rate": 4.962605000965958e-06,
      "loss": 0.3732,
      "step": 54430
    },
    {
      "epoch": 1067.45,
      "learning_rate": 4.948118508206156e-06,
      "loss": 0.3696,
      "step": 54440
    },
    {
      "epoch": 1067.65,
      "learning_rate": 4.933652469033444e-06,
      "loss": 0.3717,
      "step": 54450
    },
    {
      "epoch": 1067.84,
      "learning_rate": 4.9192068876715704e-06,
      "loss": 0.3705,
      "step": 54460
    },
    {
      "epoch": 1068.0,
      "eval_loss": 0.38045910000801086,
      "eval_runtime": 2.2201,
      "eval_samples_per_second": 1026.519,
      "eval_steps_per_second": 4.054,
      "step": 54468
    },
    {
      "epoch": 1068.04,
      "learning_rate": 4.904781768338342e-06,
      "loss": 0.3715,
      "step": 54470
    },
    {
      "epoch": 1068.24,
      "learning_rate": 4.8903771152455505e-06,
      "loss": 0.3755,
      "step": 54480
    },
    {
      "epoch": 1068.43,
      "learning_rate": 4.875992932599046e-06,
      "loss": 0.3715,
      "step": 54490
    },
    {
      "epoch": 1068.63,
      "learning_rate": 4.861629224598695e-06,
      "loss": 0.3718,
      "step": 54500
    },
    {
      "epoch": 1068.82,
      "learning_rate": 4.847285995438369e-06,
      "loss": 0.3709,
      "step": 54510
    },
    {
      "epoch": 1069.0,
      "eval_loss": 0.3779762387275696,
      "eval_runtime": 2.3441,
      "eval_samples_per_second": 972.235,
      "eval_steps_per_second": 3.839,
      "step": 54519
    },
    {
      "epoch": 1069.02,
      "learning_rate": 4.832963249305982e-06,
      "loss": 0.3705,
      "step": 54520
    },
    {
      "epoch": 1069.22,
      "learning_rate": 4.818660990383441e-06,
      "loss": 0.3656,
      "step": 54530
    },
    {
      "epoch": 1069.41,
      "learning_rate": 4.804379222846696e-06,
      "loss": 0.3681,
      "step": 54540
    },
    {
      "epoch": 1069.61,
      "learning_rate": 4.790117950865713e-06,
      "loss": 0.3762,
      "step": 54550
    },
    {
      "epoch": 1069.8,
      "learning_rate": 4.775877178604442e-06,
      "loss": 0.3734,
      "step": 54560
    },
    {
      "epoch": 1070.0,
      "learning_rate": 4.761656910220901e-06,
      "loss": 0.3762,
      "step": 54570
    },
    {
      "epoch": 1070.0,
      "eval_loss": 0.37581372261047363,
      "eval_runtime": 2.3052,
      "eval_samples_per_second": 988.632,
      "eval_steps_per_second": 3.904,
      "step": 54570
    },
    {
      "epoch": 1070.2,
      "learning_rate": 4.747457149867051e-06,
      "loss": 0.3741,
      "step": 54580
    },
    {
      "epoch": 1070.39,
      "learning_rate": 4.733277901688951e-06,
      "loss": 0.3705,
      "step": 54590
    },
    {
      "epoch": 1070.59,
      "learning_rate": 4.719119169826605e-06,
      "loss": 0.3679,
      "step": 54600
    },
    {
      "epoch": 1070.78,
      "learning_rate": 4.704980958414031e-06,
      "loss": 0.3715,
      "step": 54610
    },
    {
      "epoch": 1070.98,
      "learning_rate": 4.690863271579304e-06,
      "loss": 0.3718,
      "step": 54620
    },
    {
      "epoch": 1071.0,
      "eval_loss": 0.38009241223335266,
      "eval_runtime": 2.2507,
      "eval_samples_per_second": 1012.56,
      "eval_steps_per_second": 3.999,
      "step": 54621
    },
    {
      "epoch": 1071.18,
      "learning_rate": 4.676766113444425e-06,
      "loss": 0.3686,
      "step": 54630
    },
    {
      "epoch": 1071.37,
      "learning_rate": 4.662689488125509e-06,
      "loss": 0.3716,
      "step": 54640
    },
    {
      "epoch": 1071.57,
      "learning_rate": 4.648633399732571e-06,
      "loss": 0.37,
      "step": 54650
    },
    {
      "epoch": 1071.76,
      "learning_rate": 4.6345978523697094e-06,
      "loss": 0.3754,
      "step": 54660
    },
    {
      "epoch": 1071.96,
      "learning_rate": 4.620582850134971e-06,
      "loss": 0.3736,
      "step": 54670
    },
    {
      "epoch": 1072.0,
      "eval_loss": 0.3768666684627533,
      "eval_runtime": 2.3236,
      "eval_samples_per_second": 980.799,
      "eval_steps_per_second": 3.873,
      "step": 54672
    },
    {
      "epoch": 1072.16,
      "learning_rate": 4.606588397120417e-06,
      "loss": 0.3676,
      "step": 54680
    },
    {
      "epoch": 1072.35,
      "learning_rate": 4.592614497412128e-06,
      "loss": 0.3706,
      "step": 54690
    },
    {
      "epoch": 1072.55,
      "learning_rate": 4.5786611550901655e-06,
      "loss": 0.373,
      "step": 54700
    },
    {
      "epoch": 1072.75,
      "learning_rate": 4.564728374228613e-06,
      "loss": 0.3732,
      "step": 54710
    },
    {
      "epoch": 1072.94,
      "learning_rate": 4.5508161588954986e-06,
      "loss": 0.3702,
      "step": 54720
    },
    {
      "epoch": 1073.0,
      "eval_loss": 0.37629246711730957,
      "eval_runtime": 2.2337,
      "eval_samples_per_second": 1020.259,
      "eval_steps_per_second": 4.029,
      "step": 54723
    },
    {
      "epoch": 1073.14,
      "learning_rate": 4.536924513152915e-06,
      "loss": 0.371,
      "step": 54730
    },
    {
      "epoch": 1073.33,
      "learning_rate": 4.523053441056876e-06,
      "loss": 0.3752,
      "step": 54740
    },
    {
      "epoch": 1073.53,
      "learning_rate": 4.509202946657442e-06,
      "loss": 0.3692,
      "step": 54750
    },
    {
      "epoch": 1073.73,
      "learning_rate": 4.49537303399867e-06,
      "loss": 0.3694,
      "step": 54760
    },
    {
      "epoch": 1073.92,
      "learning_rate": 4.481563707118554e-06,
      "loss": 0.3716,
      "step": 54770
    },
    {
      "epoch": 1074.0,
      "eval_loss": 0.3790897727012634,
      "eval_runtime": 2.3133,
      "eval_samples_per_second": 985.167,
      "eval_steps_per_second": 3.891,
      "step": 54774
    },
    {
      "epoch": 1074.12,
      "learning_rate": 4.467774970049129e-06,
      "loss": 0.3717,
      "step": 54780
    },
    {
      "epoch": 1074.31,
      "learning_rate": 4.454006826816373e-06,
      "loss": 0.3748,
      "step": 54790
    },
    {
      "epoch": 1074.51,
      "learning_rate": 4.440259281440311e-06,
      "loss": 0.3725,
      "step": 54800
    },
    {
      "epoch": 1074.71,
      "learning_rate": 4.42653233793491e-06,
      "loss": 0.3704,
      "step": 54810
    },
    {
      "epoch": 1074.9,
      "learning_rate": 4.412826000308111e-06,
      "loss": 0.3684,
      "step": 54820
    },
    {
      "epoch": 1075.0,
      "eval_loss": 0.37449750304222107,
      "eval_runtime": 2.2223,
      "eval_samples_per_second": 1025.497,
      "eval_steps_per_second": 4.05,
      "step": 54825
    },
    {
      "epoch": 1075.1,
      "learning_rate": 4.399140272561882e-06,
      "loss": 0.3727,
      "step": 54830
    },
    {
      "epoch": 1075.29,
      "learning_rate": 4.3854751586921255e-06,
      "loss": 0.37,
      "step": 54840
    },
    {
      "epoch": 1075.49,
      "learning_rate": 4.3718306626887825e-06,
      "loss": 0.367,
      "step": 54850
    },
    {
      "epoch": 1075.69,
      "learning_rate": 4.3582067885357175e-06,
      "loss": 0.3697,
      "step": 54860
    },
    {
      "epoch": 1075.88,
      "learning_rate": 4.344603540210814e-06,
      "loss": 0.3682,
      "step": 54870
    },
    {
      "epoch": 1076.0,
      "eval_loss": 0.3796183168888092,
      "eval_runtime": 2.2676,
      "eval_samples_per_second": 1005.038,
      "eval_steps_per_second": 3.969,
      "step": 54876
    },
    {
      "epoch": 1076.08,
      "learning_rate": 4.3310209216859126e-06,
      "loss": 0.3734,
      "step": 54880
    },
    {
      "epoch": 1076.27,
      "learning_rate": 4.317458936926816e-06,
      "loss": 0.3704,
      "step": 54890
    },
    {
      "epoch": 1076.47,
      "learning_rate": 4.303917589893338e-06,
      "loss": 0.3739,
      "step": 54900
    },
    {
      "epoch": 1076.67,
      "learning_rate": 4.290396884539243e-06,
      "loss": 0.3692,
      "step": 54910
    },
    {
      "epoch": 1076.86,
      "learning_rate": 4.276896824812298e-06,
      "loss": 0.3699,
      "step": 54920
    },
    {
      "epoch": 1077.0,
      "eval_loss": 0.37840622663497925,
      "eval_runtime": 2.2821,
      "eval_samples_per_second": 998.656,
      "eval_steps_per_second": 3.944,
      "step": 54927
    },
    {
      "epoch": 1077.06,
      "learning_rate": 4.263417414654191e-06,
      "loss": 0.369,
      "step": 54930
    },
    {
      "epoch": 1077.25,
      "learning_rate": 4.2499586580006324e-06,
      "loss": 0.3675,
      "step": 54940
    },
    {
      "epoch": 1077.45,
      "learning_rate": 4.236520558781245e-06,
      "loss": 0.3737,
      "step": 54950
    },
    {
      "epoch": 1077.65,
      "learning_rate": 4.223103120919683e-06,
      "loss": 0.3716,
      "step": 54960
    },
    {
      "epoch": 1077.84,
      "learning_rate": 4.209706348333544e-06,
      "loss": 0.3745,
      "step": 54970
    },
    {
      "epoch": 1078.0,
      "eval_loss": 0.3793691396713257,
      "eval_runtime": 2.2701,
      "eval_samples_per_second": 1003.93,
      "eval_steps_per_second": 3.965,
      "step": 54978
    },
    {
      "epoch": 1078.04,
      "learning_rate": 4.1963302449343595e-06,
      "loss": 0.3693,
      "step": 54980
    },
    {
      "epoch": 1078.24,
      "learning_rate": 4.182974814627688e-06,
      "loss": 0.3722,
      "step": 54990
    },
    {
      "epoch": 1078.43,
      "learning_rate": 4.169640061312968e-06,
      "loss": 0.3692,
      "step": 55000
    },
    {
      "epoch": 1078.63,
      "learning_rate": 4.156325988883702e-06,
      "loss": 0.371,
      "step": 55010
    },
    {
      "epoch": 1078.82,
      "learning_rate": 4.143032601227281e-06,
      "loss": 0.3721,
      "step": 55020
    },
    {
      "epoch": 1079.0,
      "eval_loss": 0.37800872325897217,
      "eval_runtime": 2.2342,
      "eval_samples_per_second": 1020.035,
      "eval_steps_per_second": 4.028,
      "step": 55029
    },
    {
      "epoch": 1079.02,
      "learning_rate": 4.129759902225066e-06,
      "loss": 0.3687,
      "step": 55030
    },
    {
      "epoch": 1079.22,
      "learning_rate": 4.116507895752408e-06,
      "loss": 0.3647,
      "step": 55040
    },
    {
      "epoch": 1079.41,
      "learning_rate": 4.103276585678578e-06,
      "loss": 0.3695,
      "step": 55050
    },
    {
      "epoch": 1079.61,
      "learning_rate": 4.090065975866843e-06,
      "loss": 0.371,
      "step": 55060
    },
    {
      "epoch": 1079.8,
      "learning_rate": 4.076876070174395e-06,
      "loss": 0.3698,
      "step": 55070
    },
    {
      "epoch": 1080.0,
      "learning_rate": 4.063706872452402e-06,
      "loss": 0.3758,
      "step": 55080
    },
    {
      "epoch": 1080.0,
      "eval_loss": 0.3792489469051361,
      "eval_runtime": 2.2691,
      "eval_samples_per_second": 1004.359,
      "eval_steps_per_second": 3.966,
      "step": 55080
    },
    {
      "epoch": 1080.2,
      "learning_rate": 4.0505583865459714e-06,
      "loss": 0.3715,
      "step": 55090
    },
    {
      "epoch": 1080.39,
      "learning_rate": 4.037430616294157e-06,
      "loss": 0.3664,
      "step": 55100
    },
    {
      "epoch": 1080.59,
      "learning_rate": 4.024323565529977e-06,
      "loss": 0.3658,
      "step": 55110
    },
    {
      "epoch": 1080.78,
      "learning_rate": 4.011237238080412e-06,
      "loss": 0.371,
      "step": 55120
    },
    {
      "epoch": 1080.98,
      "learning_rate": 3.998171637766379e-06,
      "loss": 0.3742,
      "step": 55130
    },
    {
      "epoch": 1081.0,
      "eval_loss": 0.37813621759414673,
      "eval_runtime": 2.3613,
      "eval_samples_per_second": 965.161,
      "eval_steps_per_second": 3.812,
      "step": 55131
    },
    {
      "epoch": 1081.18,
      "learning_rate": 3.985126768402719e-06,
      "loss": 0.3805,
      "step": 55140
    },
    {
      "epoch": 1081.37,
      "learning_rate": 3.972102633798277e-06,
      "loss": 0.3703,
      "step": 55150
    },
    {
      "epoch": 1081.57,
      "learning_rate": 3.95909923775577e-06,
      "loss": 0.3729,
      "step": 55160
    },
    {
      "epoch": 1081.76,
      "learning_rate": 3.946116584071926e-06,
      "loss": 0.3742,
      "step": 55170
    },
    {
      "epoch": 1081.96,
      "learning_rate": 3.933154676537389e-06,
      "loss": 0.3693,
      "step": 55180
    },
    {
      "epoch": 1082.0,
      "eval_loss": 0.38186749815940857,
      "eval_runtime": 2.2165,
      "eval_samples_per_second": 1028.2,
      "eval_steps_per_second": 4.06,
      "step": 55182
    },
    {
      "epoch": 1082.16,
      "learning_rate": 3.920213518936732e-06,
      "loss": 0.3734,
      "step": 55190
    },
    {
      "epoch": 1082.35,
      "learning_rate": 3.907293115048507e-06,
      "loss": 0.3682,
      "step": 55200
    },
    {
      "epoch": 1082.55,
      "learning_rate": 3.894393468645163e-06,
      "loss": 0.3734,
      "step": 55210
    },
    {
      "epoch": 1082.75,
      "learning_rate": 3.881514583493111e-06,
      "loss": 0.3684,
      "step": 55220
    },
    {
      "epoch": 1082.94,
      "learning_rate": 3.868656463352721e-06,
      "loss": 0.3676,
      "step": 55230
    },
    {
      "epoch": 1083.0,
      "eval_loss": 0.37459880113601685,
      "eval_runtime": 2.3079,
      "eval_samples_per_second": 987.465,
      "eval_steps_per_second": 3.9,
      "step": 55233
    },
    {
      "epoch": 1083.14,
      "learning_rate": 3.8558191119782536e-06,
      "loss": 0.3701,
      "step": 55240
    },
    {
      "epoch": 1083.33,
      "learning_rate": 3.843002533117937e-06,
      "loss": 0.3731,
      "step": 55250
    },
    {
      "epoch": 1083.53,
      "learning_rate": 3.83020673051391e-06,
      "loss": 0.3737,
      "step": 55260
    },
    {
      "epoch": 1083.73,
      "learning_rate": 3.817431707902293e-06,
      "loss": 0.3684,
      "step": 55270
    },
    {
      "epoch": 1083.92,
      "learning_rate": 3.8046774690131037e-06,
      "loss": 0.3684,
      "step": 55280
    },
    {
      "epoch": 1084.0,
      "eval_loss": 0.3811744451522827,
      "eval_runtime": 2.351,
      "eval_samples_per_second": 969.387,
      "eval_steps_per_second": 3.828,
      "step": 55284
    },
    {
      "epoch": 1084.12,
      "learning_rate": 3.7919440175702615e-06,
      "loss": 0.3702,
      "step": 55290
    },
    {
      "epoch": 1084.31,
      "learning_rate": 3.779231357291684e-06,
      "loss": 0.371,
      "step": 55300
    },
    {
      "epoch": 1084.51,
      "learning_rate": 3.76653949188917e-06,
      "loss": 0.3724,
      "step": 55310
    },
    {
      "epoch": 1084.71,
      "learning_rate": 3.7538684250684626e-06,
      "loss": 0.3679,
      "step": 55320
    },
    {
      "epoch": 1084.9,
      "learning_rate": 3.7412181605292275e-06,
      "loss": 0.3727,
      "step": 55330
    },
    {
      "epoch": 1085.0,
      "eval_loss": 0.3744555711746216,
      "eval_runtime": 2.2572,
      "eval_samples_per_second": 1009.673,
      "eval_steps_per_second": 3.987,
      "step": 55335
    },
    {
      "epoch": 1085.1,
      "learning_rate": 3.728588701965077e-06,
      "loss": 0.3642,
      "step": 55340
    },
    {
      "epoch": 1085.29,
      "learning_rate": 3.715980053063519e-06,
      "loss": 0.3697,
      "step": 55350
    },
    {
      "epoch": 1085.49,
      "learning_rate": 3.703392217505985e-06,
      "loss": 0.3695,
      "step": 55360
    },
    {
      "epoch": 1085.69,
      "learning_rate": 3.6908251989678504e-06,
      "loss": 0.3724,
      "step": 55370
    },
    {
      "epoch": 1085.88,
      "learning_rate": 3.6782790011184228e-06,
      "loss": 0.3689,
      "step": 55380
    },
    {
      "epoch": 1086.0,
      "eval_loss": 0.3743017315864563,
      "eval_runtime": 2.3114,
      "eval_samples_per_second": 985.971,
      "eval_steps_per_second": 3.894,
      "step": 55386
    },
    {
      "epoch": 1086.08,
      "learning_rate": 3.665753627620896e-06,
      "loss": 0.3701,
      "step": 55390
    },
    {
      "epoch": 1086.27,
      "learning_rate": 3.653249082132395e-06,
      "loss": 0.3729,
      "step": 55400
    },
    {
      "epoch": 1086.47,
      "learning_rate": 3.6407653683039913e-06,
      "loss": 0.3704,
      "step": 55410
    },
    {
      "epoch": 1086.67,
      "learning_rate": 3.6283024897806185e-06,
      "loss": 0.375,
      "step": 55420
    },
    {
      "epoch": 1086.86,
      "learning_rate": 3.6158604502011744e-06,
      "loss": 0.3704,
      "step": 55430
    },
    {
      "epoch": 1087.0,
      "eval_loss": 0.37848153710365295,
      "eval_runtime": 2.2484,
      "eval_samples_per_second": 1013.59,
      "eval_steps_per_second": 4.003,
      "step": 55437
    },
    {
      "epoch": 1087.06,
      "learning_rate": 3.60343925319847e-06,
      "loss": 0.3661,
      "step": 55440
    },
    {
      "epoch": 1087.25,
      "learning_rate": 3.591038902399196e-06,
      "loss": 0.3673,
      "step": 55450
    },
    {
      "epoch": 1087.45,
      "learning_rate": 3.5786594014239973e-06,
      "loss": 0.3714,
      "step": 55460
    },
    {
      "epoch": 1087.65,
      "learning_rate": 3.5663007538873828e-06,
      "loss": 0.3684,
      "step": 55470
    },
    {
      "epoch": 1087.84,
      "learning_rate": 3.553962963397841e-06,
      "loss": 0.3664,
      "step": 55480
    },
    {
      "epoch": 1088.0,
      "eval_loss": 0.3773548901081085,
      "eval_runtime": 2.3896,
      "eval_samples_per_second": 953.703,
      "eval_steps_per_second": 3.766,
      "step": 55488
    },
    {
      "epoch": 1088.04,
      "learning_rate": 3.541646033557716e-06,
      "loss": 0.3713,
      "step": 55490
    },
    {
      "epoch": 1088.24,
      "learning_rate": 3.529349967963263e-06,
      "loss": 0.3721,
      "step": 55500
    },
    {
      "epoch": 1088.43,
      "learning_rate": 3.5170747702046782e-06,
      "loss": 0.3678,
      "step": 55510
    },
    {
      "epoch": 1088.63,
      "learning_rate": 3.5048204438660273e-06,
      "loss": 0.3711,
      "step": 55520
    },
    {
      "epoch": 1088.82,
      "learning_rate": 3.492586992525306e-06,
      "loss": 0.3704,
      "step": 55530
    },
    {
      "epoch": 1089.0,
      "eval_loss": 0.3757428526878357,
      "eval_runtime": 2.3436,
      "eval_samples_per_second": 972.42,
      "eval_steps_per_second": 3.84,
      "step": 55539
    },
    {
      "epoch": 1089.02,
      "learning_rate": 3.480374419754417e-06,
      "loss": 0.3732,
      "step": 55540
    },
    {
      "epoch": 1089.22,
      "learning_rate": 3.468182729119157e-06,
      "loss": 0.3694,
      "step": 55550
    },
    {
      "epoch": 1089.41,
      "learning_rate": 3.456011924179236e-06,
      "loss": 0.3751,
      "step": 55560
    },
    {
      "epoch": 1089.61,
      "learning_rate": 3.4438620084882294e-06,
      "loss": 0.3696,
      "step": 55570
    },
    {
      "epoch": 1089.8,
      "learning_rate": 3.431732985593666e-06,
      "loss": 0.3698,
      "step": 55580
    },
    {
      "epoch": 1090.0,
      "learning_rate": 3.4196248590369373e-06,
      "loss": 0.3702,
      "step": 55590
    },
    {
      "epoch": 1090.0,
      "eval_loss": 0.3789558708667755,
      "eval_runtime": 2.3648,
      "eval_samples_per_second": 963.724,
      "eval_steps_per_second": 3.806,
      "step": 55590
    },
    {
      "epoch": 1090.2,
      "learning_rate": 3.407537632353366e-06,
      "loss": 0.3698,
      "step": 55600
    },
    {
      "epoch": 1090.39,
      "learning_rate": 3.395471309072137e-06,
      "loss": 0.3665,
      "step": 55610
    },
    {
      "epoch": 1090.59,
      "learning_rate": 3.383425892716349e-06,
      "loss": 0.3658,
      "step": 55620
    },
    {
      "epoch": 1090.78,
      "learning_rate": 3.3714013868029883e-06,
      "loss": 0.3726,
      "step": 55630
    },
    {
      "epoch": 1090.98,
      "learning_rate": 3.3593977948429467e-06,
      "loss": 0.3747,
      "step": 55640
    },
    {
      "epoch": 1091.0,
      "eval_loss": 0.37976905703544617,
      "eval_runtime": 2.348,
      "eval_samples_per_second": 970.598,
      "eval_steps_per_second": 3.833,
      "step": 55641
    },
    {
      "epoch": 1091.18,
      "learning_rate": 3.347415120341029e-06,
      "loss": 0.3697,
      "step": 55650
    },
    {
      "epoch": 1091.37,
      "learning_rate": 3.3354533667958706e-06,
      "loss": 0.3685,
      "step": 55660
    },
    {
      "epoch": 1091.57,
      "learning_rate": 3.3235125377000597e-06,
      "loss": 0.3715,
      "step": 55670
    },
    {
      "epoch": 1091.76,
      "learning_rate": 3.3115926365400336e-06,
      "loss": 0.3706,
      "step": 55680
    },
    {
      "epoch": 1091.96,
      "learning_rate": 3.299693666796174e-06,
      "loss": 0.3704,
      "step": 55690
    },
    {
      "epoch": 1092.0,
      "eval_loss": 0.37564924359321594,
      "eval_runtime": 2.3319,
      "eval_samples_per_second": 977.321,
      "eval_steps_per_second": 3.86,
      "step": 55692
    },
    {
      "epoch": 1092.16,
      "learning_rate": 3.2878156319426864e-06,
      "loss": 0.3706,
      "step": 55700
    },
    {
      "epoch": 1092.35,
      "learning_rate": 3.275958535447687e-06,
      "loss": 0.3666,
      "step": 55710
    },
    {
      "epoch": 1092.55,
      "learning_rate": 3.264122380773207e-06,
      "loss": 0.3663,
      "step": 55720
    },
    {
      "epoch": 1092.75,
      "learning_rate": 3.2523071713751154e-06,
      "loss": 0.3703,
      "step": 55730
    },
    {
      "epoch": 1092.94,
      "learning_rate": 3.2405129107032023e-06,
      "loss": 0.3749,
      "step": 55740
    },
    {
      "epoch": 1093.0,
      "eval_loss": 0.3782815933227539,
      "eval_runtime": 2.2261,
      "eval_samples_per_second": 1023.743,
      "eval_steps_per_second": 4.043,
      "step": 55743
    },
    {
      "epoch": 1093.14,
      "learning_rate": 3.228739602201122e-06,
      "loss": 0.3711,
      "step": 55750
    },
    {
      "epoch": 1093.33,
      "learning_rate": 3.216987249306441e-06,
      "loss": 0.3737,
      "step": 55760
    },
    {
      "epoch": 1093.53,
      "learning_rate": 3.205255855450564e-06,
      "loss": 0.3723,
      "step": 55770
    },
    {
      "epoch": 1093.73,
      "learning_rate": 3.1935454240587854e-06,
      "loss": 0.3728,
      "step": 55780
    },
    {
      "epoch": 1093.92,
      "learning_rate": 3.181855958550311e-06,
      "loss": 0.3686,
      "step": 55790
    },
    {
      "epoch": 1094.0,
      "eval_loss": 0.37587156891822815,
      "eval_runtime": 2.2492,
      "eval_samples_per_second": 1013.239,
      "eval_steps_per_second": 4.001,
      "step": 55794
    },
    {
      "epoch": 1094.12,
      "learning_rate": 3.170187462338186e-06,
      "loss": 0.3728,
      "step": 55800
    },
    {
      "epoch": 1094.31,
      "learning_rate": 3.158539938829377e-06,
      "loss": 0.3706,
      "step": 55810
    },
    {
      "epoch": 1094.51,
      "learning_rate": 3.1469133914246797e-06,
      "loss": 0.3695,
      "step": 55820
    },
    {
      "epoch": 1094.71,
      "learning_rate": 3.135307823518796e-06,
      "loss": 0.3723,
      "step": 55830
    },
    {
      "epoch": 1094.9,
      "learning_rate": 3.123723238500289e-06,
      "loss": 0.369,
      "step": 55840
    },
    {
      "epoch": 1095.0,
      "eval_loss": 0.3761863708496094,
      "eval_runtime": 2.3314,
      "eval_samples_per_second": 977.508,
      "eval_steps_per_second": 3.86,
      "step": 55845
    },
    {
      "epoch": 1095.1,
      "learning_rate": 3.112159639751588e-06,
      "loss": 0.3698,
      "step": 55850
    },
    {
      "epoch": 1095.29,
      "learning_rate": 3.100617030649033e-06,
      "loss": 0.3705,
      "step": 55860
    },
    {
      "epoch": 1095.49,
      "learning_rate": 3.0890954145627868e-06,
      "loss": 0.3729,
      "step": 55870
    },
    {
      "epoch": 1095.69,
      "learning_rate": 3.0775947948569165e-06,
      "loss": 0.366,
      "step": 55880
    },
    {
      "epoch": 1095.88,
      "learning_rate": 3.066115174889336e-06,
      "loss": 0.3671,
      "step": 55890
    },
    {
      "epoch": 1096.0,
      "eval_loss": 0.3782743811607361,
      "eval_runtime": 2.3706,
      "eval_samples_per_second": 961.358,
      "eval_steps_per_second": 3.796,
      "step": 55896
    },
    {
      "epoch": 1096.08,
      "learning_rate": 3.0546565580118393e-06,
      "loss": 0.3672,
      "step": 55900
    },
    {
      "epoch": 1096.27,
      "learning_rate": 3.0432189475701003e-06,
      "loss": 0.3673,
      "step": 55910
    },
    {
      "epoch": 1096.47,
      "learning_rate": 3.0318023469036225e-06,
      "loss": 0.3749,
      "step": 55920
    },
    {
      "epoch": 1096.67,
      "learning_rate": 3.020406759345831e-06,
      "loss": 0.3692,
      "step": 55930
    },
    {
      "epoch": 1096.86,
      "learning_rate": 3.0090321882239477e-06,
      "loss": 0.3686,
      "step": 55940
    },
    {
      "epoch": 1097.0,
      "eval_loss": 0.3780481815338135,
      "eval_runtime": 2.4515,
      "eval_samples_per_second": 929.638,
      "eval_steps_per_second": 3.671,
      "step": 55947
    },
    {
      "epoch": 1097.06,
      "learning_rate": 2.997678636859116e-06,
      "loss": 0.3673,
      "step": 55950
    },
    {
      "epoch": 1097.25,
      "learning_rate": 2.986346108566326e-06,
      "loss": 0.3729,
      "step": 55960
    },
    {
      "epoch": 1097.45,
      "learning_rate": 2.975034606654397e-06,
      "loss": 0.3734,
      "step": 55970
    },
    {
      "epoch": 1097.65,
      "learning_rate": 2.963744134426063e-06,
      "loss": 0.3739,
      "step": 55980
    },
    {
      "epoch": 1097.84,
      "learning_rate": 2.95247469517787e-06,
      "loss": 0.3693,
      "step": 55990
    },
    {
      "epoch": 1098.0,
      "eval_loss": 0.3777942657470703,
      "eval_runtime": 2.3668,
      "eval_samples_per_second": 962.905,
      "eval_steps_per_second": 3.803,
      "step": 55998
    },
    {
      "epoch": 1098.04,
      "learning_rate": 2.941226292200244e-06,
      "loss": 0.3665,
      "step": 56000
    },
    {
      "epoch": 1098.24,
      "learning_rate": 2.929998928777483e-06,
      "loss": 0.374,
      "step": 56010
    },
    {
      "epoch": 1098.43,
      "learning_rate": 2.9187926081877146e-06,
      "loss": 0.3745,
      "step": 56020
    },
    {
      "epoch": 1098.63,
      "learning_rate": 2.9076073337029464e-06,
      "loss": 0.3685,
      "step": 56030
    },
    {
      "epoch": 1098.82,
      "learning_rate": 2.896443108589008e-06,
      "loss": 0.3728,
      "step": 56040
    },
    {
      "epoch": 1099.0,
      "eval_loss": 0.375933438539505,
      "eval_runtime": 2.4335,
      "eval_samples_per_second": 936.505,
      "eval_steps_per_second": 3.698,
      "step": 56049
    },
    {
      "epoch": 1099.02,
      "learning_rate": 2.8852999361056173e-06,
      "loss": 0.3733,
      "step": 56050
    },
    {
      "epoch": 1099.22,
      "learning_rate": 2.8741778195063377e-06,
      "loss": 0.3732,
      "step": 56060
    },
    {
      "epoch": 1099.41,
      "learning_rate": 2.8630767620385713e-06,
      "loss": 0.3675,
      "step": 56070
    },
    {
      "epoch": 1099.61,
      "learning_rate": 2.851996766943576e-06,
      "loss": 0.3739,
      "step": 56080
    },
    {
      "epoch": 1099.8,
      "learning_rate": 2.8409378374564806e-06,
      "loss": 0.3705,
      "step": 56090
    },
    {
      "epoch": 1100.0,
      "learning_rate": 2.829899976806219e-06,
      "loss": 0.3715,
      "step": 56100
    },
    {
      "epoch": 1100.0,
      "eval_loss": 0.3777158260345459,
      "eval_runtime": 2.2906,
      "eval_samples_per_second": 994.948,
      "eval_steps_per_second": 3.929,
      "step": 56100
    },
    {
      "epoch": 1100.2,
      "learning_rate": 2.8188831882156205e-06,
      "loss": 0.3721,
      "step": 56110
    },
    {
      "epoch": 1100.39,
      "learning_rate": 2.8078874749013463e-06,
      "loss": 0.367,
      "step": 56120
    },
    {
      "epoch": 1100.59,
      "learning_rate": 2.79691284007387e-06,
      "loss": 0.3694,
      "step": 56130
    },
    {
      "epoch": 1100.78,
      "learning_rate": 2.785959286937578e-06,
      "loss": 0.3682,
      "step": 56140
    },
    {
      "epoch": 1100.98,
      "learning_rate": 2.775026818690629e-06,
      "loss": 0.3712,
      "step": 56150
    },
    {
      "epoch": 1101.0,
      "eval_loss": 0.37754717469215393,
      "eval_runtime": 2.2472,
      "eval_samples_per_second": 1014.149,
      "eval_steps_per_second": 4.005,
      "step": 56151
    },
    {
      "epoch": 1101.18,
      "learning_rate": 2.7641154385250772e-06,
      "loss": 0.3703,
      "step": 56160
    },
    {
      "epoch": 1101.37,
      "learning_rate": 2.753225149626809e-06,
      "loss": 0.3712,
      "step": 56170
    },
    {
      "epoch": 1101.57,
      "learning_rate": 2.7423559551755376e-06,
      "loss": 0.3735,
      "step": 56180
    },
    {
      "epoch": 1101.76,
      "learning_rate": 2.7315078583448254e-06,
      "loss": 0.368,
      "step": 56190
    },
    {
      "epoch": 1101.96,
      "learning_rate": 2.7206808623020633e-06,
      "loss": 0.3695,
      "step": 56200
    },
    {
      "epoch": 1102.0,
      "eval_loss": 0.3767015337944031,
      "eval_runtime": 2.277,
      "eval_samples_per_second": 1000.886,
      "eval_steps_per_second": 3.953,
      "step": 56202
    },
    {
      "epoch": 1102.16,
      "learning_rate": 2.7098749702085142e-06,
      "loss": 0.3718,
      "step": 56210
    },
    {
      "epoch": 1102.35,
      "learning_rate": 2.699090185219238e-06,
      "loss": 0.3709,
      "step": 56220
    },
    {
      "epoch": 1102.55,
      "learning_rate": 2.6883265104831743e-06,
      "loss": 0.3696,
      "step": 56230
    },
    {
      "epoch": 1102.75,
      "learning_rate": 2.677583949143067e-06,
      "loss": 0.3741,
      "step": 56240
    },
    {
      "epoch": 1102.94,
      "learning_rate": 2.666862504335482e-06,
      "loss": 0.3715,
      "step": 56250
    },
    {
      "epoch": 1103.0,
      "eval_loss": 0.37621647119522095,
      "eval_runtime": 2.3576,
      "eval_samples_per_second": 966.651,
      "eval_steps_per_second": 3.817,
      "step": 56253
    },
    {
      "epoch": 1103.14,
      "learning_rate": 2.6561621791908655e-06,
      "loss": 0.3712,
      "step": 56260
    },
    {
      "epoch": 1103.33,
      "learning_rate": 2.6454829768334686e-06,
      "loss": 0.3662,
      "step": 56270
    },
    {
      "epoch": 1103.53,
      "learning_rate": 2.6348249003813883e-06,
      "loss": 0.3704,
      "step": 56280
    },
    {
      "epoch": 1103.73,
      "learning_rate": 2.6241879529465273e-06,
      "loss": 0.3718,
      "step": 56290
    },
    {
      "epoch": 1103.92,
      "learning_rate": 2.6135721376346592e-06,
      "loss": 0.3728,
      "step": 56300
    },
    {
      "epoch": 1104.0,
      "eval_loss": 0.3774849474430084,
      "eval_runtime": 2.2419,
      "eval_samples_per_second": 1016.552,
      "eval_steps_per_second": 4.014,
      "step": 56304
    },
    {
      "epoch": 1104.12,
      "learning_rate": 2.602977457545338e-06,
      "loss": 0.3664,
      "step": 56310
    },
    {
      "epoch": 1104.31,
      "learning_rate": 2.59240391577199e-06,
      "loss": 0.3665,
      "step": 56320
    },
    {
      "epoch": 1104.51,
      "learning_rate": 2.58185151540187e-06,
      "loss": 0.3712,
      "step": 56330
    },
    {
      "epoch": 1104.71,
      "learning_rate": 2.571320259516005e-06,
      "loss": 0.3702,
      "step": 56340
    },
    {
      "epoch": 1104.9,
      "learning_rate": 2.560810151189327e-06,
      "loss": 0.368,
      "step": 56350
    },
    {
      "epoch": 1105.0,
      "eval_loss": 0.37828439474105835,
      "eval_runtime": 2.2755,
      "eval_samples_per_second": 1001.518,
      "eval_steps_per_second": 3.955,
      "step": 56355
    },
    {
      "epoch": 1105.1,
      "learning_rate": 2.550321193490523e-06,
      "loss": 0.3763,
      "step": 56360
    },
    {
      "epoch": 1105.29,
      "learning_rate": 2.5398533894821437e-06,
      "loss": 0.3696,
      "step": 56370
    },
    {
      "epoch": 1105.49,
      "learning_rate": 2.5294067422205606e-06,
      "loss": 0.366,
      "step": 56380
    },
    {
      "epoch": 1105.69,
      "learning_rate": 2.5189812547559586e-06,
      "loss": 0.3672,
      "step": 56390
    },
    {
      "epoch": 1105.88,
      "learning_rate": 2.508576930132344e-06,
      "loss": 0.3705,
      "step": 56400
    },
    {
      "epoch": 1106.0,
      "eval_loss": 0.37971001863479614,
      "eval_runtime": 2.2636,
      "eval_samples_per_second": 1006.793,
      "eval_steps_per_second": 3.976,
      "step": 56406
    },
    {
      "epoch": 1106.08,
      "learning_rate": 2.498193771387547e-06,
      "loss": 0.3741,
      "step": 56410
    },
    {
      "epoch": 1106.27,
      "learning_rate": 2.487831781553223e-06,
      "loss": 0.3693,
      "step": 56420
    },
    {
      "epoch": 1106.47,
      "learning_rate": 2.477490963654846e-06,
      "loss": 0.3726,
      "step": 56430
    },
    {
      "epoch": 1106.67,
      "learning_rate": 2.4671713207117e-06,
      "loss": 0.3714,
      "step": 56440
    },
    {
      "epoch": 1106.86,
      "learning_rate": 2.456872855736891e-06,
      "loss": 0.3705,
      "step": 56450
    },
    {
      "epoch": 1107.0,
      "eval_loss": 0.37706848978996277,
      "eval_runtime": 2.2675,
      "eval_samples_per_second": 1005.061,
      "eval_steps_per_second": 3.969,
      "step": 56457
    },
    {
      "epoch": 1107.06,
      "learning_rate": 2.446595571737331e-06,
      "loss": 0.3651,
      "step": 56460
    },
    {
      "epoch": 1107.25,
      "learning_rate": 2.4363394717137608e-06,
      "loss": 0.3696,
      "step": 56470
    },
    {
      "epoch": 1107.45,
      "learning_rate": 2.4261045586607435e-06,
      "loss": 0.3731,
      "step": 56480
    },
    {
      "epoch": 1107.65,
      "learning_rate": 2.415890835566647e-06,
      "loss": 0.3712,
      "step": 56490
    },
    {
      "epoch": 1107.84,
      "learning_rate": 2.4056983054136365e-06,
      "loss": 0.3734,
      "step": 56500
    },
    {
      "epoch": 1108.0,
      "eval_loss": 0.375370591878891,
      "eval_runtime": 2.2889,
      "eval_samples_per_second": 995.683,
      "eval_steps_per_second": 3.932,
      "step": 56508
    },
    {
      "epoch": 1108.04,
      "learning_rate": 2.3955269711777218e-06,
      "loss": 0.3741,
      "step": 56510
    },
    {
      "epoch": 1108.24,
      "learning_rate": 2.3853768358286786e-06,
      "loss": 0.3698,
      "step": 56520
    },
    {
      "epoch": 1108.43,
      "learning_rate": 2.3752479023301434e-06,
      "loss": 0.3717,
      "step": 56530
    },
    {
      "epoch": 1108.63,
      "learning_rate": 2.365140173639535e-06,
      "loss": 0.3698,
      "step": 56540
    },
    {
      "epoch": 1108.82,
      "learning_rate": 2.3550536527080748e-06,
      "loss": 0.3701,
      "step": 56550
    },
    {
      "epoch": 1109.0,
      "eval_loss": 0.37934526801109314,
      "eval_runtime": 2.3521,
      "eval_samples_per_second": 968.928,
      "eval_steps_per_second": 3.826,
      "step": 56559
    },
    {
      "epoch": 1109.02,
      "learning_rate": 2.344988342480825e-06,
      "loss": 0.3704,
      "step": 56560
    },
    {
      "epoch": 1109.22,
      "learning_rate": 2.3349442458965917e-06,
      "loss": 0.3732,
      "step": 56570
    },
    {
      "epoch": 1109.41,
      "learning_rate": 2.3249213658880635e-06,
      "loss": 0.3692,
      "step": 56580
    },
    {
      "epoch": 1109.61,
      "learning_rate": 2.3149197053816822e-06,
      "loss": 0.3661,
      "step": 56590
    },
    {
      "epoch": 1109.8,
      "learning_rate": 2.3049392672977117e-06,
      "loss": 0.3711,
      "step": 56600
    },
    {
      "epoch": 1110.0,
      "learning_rate": 2.294980054550222e-06,
      "loss": 0.3707,
      "step": 56610
    },
    {
      "epoch": 1110.0,
      "eval_loss": 0.3728983700275421,
      "eval_runtime": 2.3629,
      "eval_samples_per_second": 964.494,
      "eval_steps_per_second": 3.809,
      "step": 56610
    },
    {
      "epoch": 1110.2,
      "learning_rate": 2.2850420700470773e-06,
      "loss": 0.3716,
      "step": 56620
    },
    {
      "epoch": 1110.39,
      "learning_rate": 2.275125316689941e-06,
      "loss": 0.3699,
      "step": 56630
    },
    {
      "epoch": 1110.59,
      "learning_rate": 2.265229797374296e-06,
      "loss": 0.367,
      "step": 56640
    },
    {
      "epoch": 1110.78,
      "learning_rate": 2.2553555149893987e-06,
      "loss": 0.3701,
      "step": 56650
    },
    {
      "epoch": 1110.98,
      "learning_rate": 2.2455024724183424e-06,
      "loss": 0.3677,
      "step": 56660
    },
    {
      "epoch": 1111.0,
      "eval_loss": 0.376329243183136,
      "eval_runtime": 2.3664,
      "eval_samples_per_second": 963.065,
      "eval_steps_per_second": 3.803,
      "step": 56661
    },
    {
      "epoch": 1111.18,
      "learning_rate": 2.2356706725379675e-06,
      "loss": 0.366,
      "step": 56670
    },
    {
      "epoch": 1111.37,
      "learning_rate": 2.2258601182189526e-06,
      "loss": 0.3732,
      "step": 56680
    },
    {
      "epoch": 1111.57,
      "learning_rate": 2.216070812325774e-06,
      "loss": 0.3684,
      "step": 56690
    },
    {
      "epoch": 1111.76,
      "learning_rate": 2.206302757716677e-06,
      "loss": 0.3669,
      "step": 56700
    },
    {
      "epoch": 1111.96,
      "learning_rate": 2.1965559572437147e-06,
      "loss": 0.3734,
      "step": 56710
    },
    {
      "epoch": 1112.0,
      "eval_loss": 0.3813353478908539,
      "eval_runtime": 2.431,
      "eval_samples_per_second": 937.488,
      "eval_steps_per_second": 3.702,
      "step": 56712
    },
    {
      "epoch": 1112.16,
      "learning_rate": 2.1868304137527354e-06,
      "loss": 0.3718,
      "step": 56720
    },
    {
      "epoch": 1112.35,
      "learning_rate": 2.177126130083384e-06,
      "loss": 0.3694,
      "step": 56730
    },
    {
      "epoch": 1112.55,
      "learning_rate": 2.167443109069103e-06,
      "loss": 0.3718,
      "step": 56740
    },
    {
      "epoch": 1112.75,
      "learning_rate": 2.157781353537105e-06,
      "loss": 0.3679,
      "step": 56750
    },
    {
      "epoch": 1112.94,
      "learning_rate": 2.1481408663084094e-06,
      "loss": 0.3714,
      "step": 56760
    },
    {
      "epoch": 1113.0,
      "eval_loss": 0.3772488236427307,
      "eval_runtime": 2.3362,
      "eval_samples_per_second": 975.496,
      "eval_steps_per_second": 3.852,
      "step": 56763
    },
    {
      "epoch": 1113.14,
      "learning_rate": 2.1385216501978384e-06,
      "loss": 0.3687,
      "step": 56770
    },
    {
      "epoch": 1113.33,
      "learning_rate": 2.128923708013963e-06,
      "loss": 0.3669,
      "step": 56780
    },
    {
      "epoch": 1113.53,
      "learning_rate": 2.119347042559191e-06,
      "loss": 0.3702,
      "step": 56790
    },
    {
      "epoch": 1113.73,
      "learning_rate": 2.1097916566296863e-06,
      "loss": 0.369,
      "step": 56800
    },
    {
      "epoch": 1113.92,
      "learning_rate": 2.1002575530153996e-06,
      "loss": 0.3654,
      "step": 56810
    },
    {
      "epoch": 1114.0,
      "eval_loss": 0.3765362501144409,
      "eval_runtime": 2.2523,
      "eval_samples_per_second": 1011.853,
      "eval_steps_per_second": 3.996,
      "step": 56814
    },
    {
      "epoch": 1114.12,
      "learning_rate": 2.0907447345000967e-06,
      "loss": 0.3689,
      "step": 56820
    },
    {
      "epoch": 1114.31,
      "learning_rate": 2.081253203861288e-06,
      "loss": 0.3746,
      "step": 56830
    },
    {
      "epoch": 1114.51,
      "learning_rate": 2.0717829638703e-06,
      "loss": 0.3751,
      "step": 56840
    },
    {
      "epoch": 1114.71,
      "learning_rate": 2.062334017292236e-06,
      "loss": 0.3689,
      "step": 56850
    },
    {
      "epoch": 1114.9,
      "learning_rate": 2.0529063668859646e-06,
      "loss": 0.3692,
      "step": 56860
    },
    {
      "epoch": 1115.0,
      "eval_loss": 0.3756592273712158,
      "eval_runtime": 2.3455,
      "eval_samples_per_second": 971.645,
      "eval_steps_per_second": 3.837,
      "step": 56865
    },
    {
      "epoch": 1115.1,
      "learning_rate": 2.0435000154041674e-06,
      "loss": 0.3747,
      "step": 56870
    },
    {
      "epoch": 1115.29,
      "learning_rate": 2.034114965593264e-06,
      "loss": 0.3657,
      "step": 56880
    },
    {
      "epoch": 1115.49,
      "learning_rate": 2.0247512201934964e-06,
      "loss": 0.3661,
      "step": 56890
    },
    {
      "epoch": 1115.69,
      "learning_rate": 2.01540878193886e-06,
      "loss": 0.3702,
      "step": 56900
    },
    {
      "epoch": 1115.88,
      "learning_rate": 2.0060876535571564e-06,
      "loss": 0.3721,
      "step": 56910
    },
    {
      "epoch": 1116.0,
      "eval_loss": 0.37494155764579773,
      "eval_runtime": 2.2377,
      "eval_samples_per_second": 1018.439,
      "eval_steps_per_second": 4.022,
      "step": 56916
    },
    {
      "epoch": 1116.08,
      "learning_rate": 1.996787837769942e-06,
      "loss": 0.3612,
      "step": 56920
    },
    {
      "epoch": 1116.27,
      "learning_rate": 1.9875093372925367e-06,
      "loss": 0.3668,
      "step": 56930
    },
    {
      "epoch": 1116.47,
      "learning_rate": 1.9782521548340645e-06,
      "loss": 0.3695,
      "step": 56940
    },
    {
      "epoch": 1116.67,
      "learning_rate": 1.969016293097422e-06,
      "loss": 0.3713,
      "step": 56950
    },
    {
      "epoch": 1116.86,
      "learning_rate": 1.959801754779286e-06,
      "loss": 0.3741,
      "step": 56960
    },
    {
      "epoch": 1117.0,
      "eval_loss": 0.3769468665122986,
      "eval_runtime": 2.3568,
      "eval_samples_per_second": 966.997,
      "eval_steps_per_second": 3.819,
      "step": 56967
    },
    {
      "epoch": 1117.06,
      "learning_rate": 1.95060854257007e-06,
      "loss": 0.3681,
      "step": 56970
    },
    {
      "epoch": 1117.25,
      "learning_rate": 1.9414366591540108e-06,
      "loss": 0.3726,
      "step": 56980
    },
    {
      "epoch": 1117.45,
      "learning_rate": 1.9322861072090746e-06,
      "loss": 0.3707,
      "step": 56990
    },
    {
      "epoch": 1117.65,
      "learning_rate": 1.9231568894070238e-06,
      "loss": 0.3666,
      "step": 57000
    },
    {
      "epoch": 1117.84,
      "learning_rate": 1.9140490084134013e-06,
      "loss": 0.3649,
      "step": 57010
    },
    {
      "epoch": 1118.0,
      "eval_loss": 0.3805931508541107,
      "eval_runtime": 2.2501,
      "eval_samples_per_second": 1012.856,
      "eval_steps_per_second": 4.0,
      "step": 57018
    },
    {
      "epoch": 1118.04,
      "learning_rate": 1.9049624668874885e-06,
      "loss": 0.3691,
      "step": 57020
    },
    {
      "epoch": 1118.24,
      "learning_rate": 1.8958972674823546e-06,
      "loss": 0.3667,
      "step": 57030
    },
    {
      "epoch": 1118.43,
      "learning_rate": 1.886853412844841e-06,
      "loss": 0.3674,
      "step": 57040
    },
    {
      "epoch": 1118.63,
      "learning_rate": 1.8778309056155433e-06,
      "loss": 0.368,
      "step": 57050
    },
    {
      "epoch": 1118.82,
      "learning_rate": 1.8688297484288544e-06,
      "loss": 0.3709,
      "step": 57060
    },
    {
      "epoch": 1119.0,
      "eval_loss": 0.37201598286628723,
      "eval_runtime": 2.3445,
      "eval_samples_per_second": 972.048,
      "eval_steps_per_second": 3.839,
      "step": 57069
    },
    {
      "epoch": 1119.02,
      "learning_rate": 1.8598499439128806e-06,
      "loss": 0.3719,
      "step": 57070
    },
    {
      "epoch": 1119.22,
      "learning_rate": 1.8508914946895492e-06,
      "loss": 0.3698,
      "step": 57080
    },
    {
      "epoch": 1119.41,
      "learning_rate": 1.8419544033745099e-06,
      "loss": 0.3725,
      "step": 57090
    },
    {
      "epoch": 1119.61,
      "learning_rate": 1.8330386725772e-06,
      "loss": 0.3702,
      "step": 57100
    },
    {
      "epoch": 1119.8,
      "learning_rate": 1.8241443049008208e-06,
      "loss": 0.3702,
      "step": 57110
    },
    {
      "epoch": 1120.0,
      "learning_rate": 1.8152713029423283e-06,
      "loss": 0.3721,
      "step": 57120
    },
    {
      "epoch": 1120.0,
      "eval_loss": 0.37935277819633484,
      "eval_runtime": 2.3207,
      "eval_samples_per_second": 982.051,
      "eval_steps_per_second": 3.878,
      "step": 57120
    },
    {
      "epoch": 1120.2,
      "learning_rate": 1.8064196692924416e-06,
      "loss": 0.3701,
      "step": 57130
    },
    {
      "epoch": 1120.39,
      "learning_rate": 1.7975894065356266e-06,
      "loss": 0.3746,
      "step": 57140
    },
    {
      "epoch": 1120.59,
      "learning_rate": 1.7887805172501295e-06,
      "loss": 0.3694,
      "step": 57150
    },
    {
      "epoch": 1120.78,
      "learning_rate": 1.7799930040079597e-06,
      "loss": 0.3692,
      "step": 57160
    },
    {
      "epoch": 1120.98,
      "learning_rate": 1.7712268693748727e-06,
      "loss": 0.3701,
      "step": 57170
    },
    {
      "epoch": 1121.0,
      "eval_loss": 0.3747633099555969,
      "eval_runtime": 2.2596,
      "eval_samples_per_second": 1008.585,
      "eval_steps_per_second": 3.983,
      "step": 57171
    },
    {
      "epoch": 1121.18,
      "learning_rate": 1.7624821159103714e-06,
      "loss": 0.3697,
      "step": 57180
    },
    {
      "epoch": 1121.37,
      "learning_rate": 1.7537587461677383e-06,
      "loss": 0.3703,
      "step": 57190
    },
    {
      "epoch": 1121.57,
      "learning_rate": 1.7450567626940026e-06,
      "loss": 0.3674,
      "step": 57200
    },
    {
      "epoch": 1121.76,
      "learning_rate": 1.7363761680299487e-06,
      "loss": 0.3717,
      "step": 57210
    },
    {
      "epoch": 1121.96,
      "learning_rate": 1.7277169647101157e-06,
      "loss": 0.3674,
      "step": 57220
    },
    {
      "epoch": 1122.0,
      "eval_loss": 0.3787176012992859,
      "eval_runtime": 2.2673,
      "eval_samples_per_second": 1005.16,
      "eval_steps_per_second": 3.969,
      "step": 57222
    },
    {
      "epoch": 1122.16,
      "learning_rate": 1.719079155262798e-06,
      "loss": 0.3674,
      "step": 57230
    },
    {
      "epoch": 1122.35,
      "learning_rate": 1.710462742210053e-06,
      "loss": 0.3702,
      "step": 57240
    },
    {
      "epoch": 1122.55,
      "learning_rate": 1.7018677280676601e-06,
      "loss": 0.3698,
      "step": 57250
    },
    {
      "epoch": 1122.75,
      "learning_rate": 1.6932941153451785e-06,
      "loss": 0.3665,
      "step": 57260
    },
    {
      "epoch": 1122.94,
      "learning_rate": 1.6847419065459306e-06,
      "loss": 0.3669,
      "step": 57270
    },
    {
      "epoch": 1123.0,
      "eval_loss": 0.37363022565841675,
      "eval_runtime": 2.3303,
      "eval_samples_per_second": 977.968,
      "eval_steps_per_second": 3.862,
      "step": 57273
    },
    {
      "epoch": 1123.14,
      "learning_rate": 1.6762111041669523e-06,
      "loss": 0.3675,
      "step": 57280
    },
    {
      "epoch": 1123.33,
      "learning_rate": 1.6677017106990597e-06,
      "loss": 0.3688,
      "step": 57290
    },
    {
      "epoch": 1123.53,
      "learning_rate": 1.6592137286267904e-06,
      "loss": 0.3718,
      "step": 57300
    },
    {
      "epoch": 1123.73,
      "learning_rate": 1.650747160428445e-06,
      "loss": 0.3675,
      "step": 57310
    },
    {
      "epoch": 1123.92,
      "learning_rate": 1.6423020085760963e-06,
      "loss": 0.3726,
      "step": 57320
    },
    {
      "epoch": 1124.0,
      "eval_loss": 0.37890663743019104,
      "eval_runtime": 2.2695,
      "eval_samples_per_second": 1004.198,
      "eval_steps_per_second": 3.966,
      "step": 57324
    },
    {
      "epoch": 1124.12,
      "learning_rate": 1.6338782755355218e-06,
      "loss": 0.3729,
      "step": 57330
    },
    {
      "epoch": 1124.31,
      "learning_rate": 1.6254759637662706e-06,
      "loss": 0.3732,
      "step": 57340
    },
    {
      "epoch": 1124.51,
      "learning_rate": 1.6170950757216223e-06,
      "loss": 0.3684,
      "step": 57350
    },
    {
      "epoch": 1124.71,
      "learning_rate": 1.6087356138486106e-06,
      "loss": 0.3683,
      "step": 57360
    },
    {
      "epoch": 1124.9,
      "learning_rate": 1.6003975805880171e-06,
      "loss": 0.3672,
      "step": 57370
    },
    {
      "epoch": 1125.0,
      "eval_loss": 0.3774057626724243,
      "eval_runtime": 2.3395,
      "eval_samples_per_second": 974.139,
      "eval_steps_per_second": 3.847,
      "step": 57375
    },
    {
      "epoch": 1125.1,
      "learning_rate": 1.5920809783743689e-06,
      "loss": 0.3688,
      "step": 57380
    },
    {
      "epoch": 1125.29,
      "learning_rate": 1.5837858096359151e-06,
      "loss": 0.3712,
      "step": 57390
    },
    {
      "epoch": 1125.49,
      "learning_rate": 1.5755120767946604e-06,
      "loss": 0.3693,
      "step": 57400
    },
    {
      "epoch": 1125.69,
      "learning_rate": 1.5672597822663557e-06,
      "loss": 0.37,
      "step": 57410
    },
    {
      "epoch": 1125.88,
      "learning_rate": 1.55902892846049e-06,
      "loss": 0.3674,
      "step": 57420
    },
    {
      "epoch": 1126.0,
      "eval_loss": 0.3777696490287781,
      "eval_runtime": 2.2811,
      "eval_samples_per_second": 999.061,
      "eval_steps_per_second": 3.945,
      "step": 57426
    },
    {
      "epoch": 1126.08,
      "learning_rate": 1.550819517780283e-06,
      "loss": 0.3695,
      "step": 57430
    },
    {
      "epoch": 1126.27,
      "learning_rate": 1.5426315526227e-06,
      "loss": 0.3663,
      "step": 57440
    },
    {
      "epoch": 1126.47,
      "learning_rate": 1.534465035378446e-06,
      "loss": 0.3745,
      "step": 57450
    },
    {
      "epoch": 1126.67,
      "learning_rate": 1.526319968431955e-06,
      "loss": 0.3704,
      "step": 57460
    },
    {
      "epoch": 1126.86,
      "learning_rate": 1.5181963541614161e-06,
      "loss": 0.3702,
      "step": 57470
    },
    {
      "epoch": 1127.0,
      "eval_loss": 0.37724199891090393,
      "eval_runtime": 2.2933,
      "eval_samples_per_second": 993.78,
      "eval_steps_per_second": 3.925,
      "step": 57477
    },
    {
      "epoch": 1127.06,
      "learning_rate": 1.5100941949387406e-06,
      "loss": 0.3692,
      "step": 57480
    },
    {
      "epoch": 1127.25,
      "learning_rate": 1.502013493129578e-06,
      "loss": 0.3721,
      "step": 57490
    },
    {
      "epoch": 1127.45,
      "learning_rate": 1.4939542510933072e-06,
      "loss": 0.3684,
      "step": 57500
    },
    {
      "epoch": 1127.65,
      "learning_rate": 1.4859164711830546e-06,
      "loss": 0.3699,
      "step": 57510
    },
    {
      "epoch": 1127.84,
      "learning_rate": 1.4779001557456593e-06,
      "loss": 0.3717,
      "step": 57520
    },
    {
      "epoch": 1128.0,
      "eval_loss": 0.376617968082428,
      "eval_runtime": 2.3749,
      "eval_samples_per_second": 959.606,
      "eval_steps_per_second": 3.79,
      "step": 57528
    },
    {
      "epoch": 1128.04,
      "learning_rate": 1.4699053071217326e-06,
      "loss": 0.3666,
      "step": 57530
    },
    {
      "epoch": 1128.24,
      "learning_rate": 1.461931927645557e-06,
      "loss": 0.3652,
      "step": 57540
    },
    {
      "epoch": 1128.43,
      "learning_rate": 1.4539800196452206e-06,
      "loss": 0.3693,
      "step": 57550
    },
    {
      "epoch": 1128.63,
      "learning_rate": 1.4460495854424659e-06,
      "loss": 0.366,
      "step": 57560
    },
    {
      "epoch": 1128.82,
      "learning_rate": 1.4381406273528239e-06,
      "loss": 0.3703,
      "step": 57570
    },
    {
      "epoch": 1129.0,
      "eval_loss": 0.3757016360759735,
      "eval_runtime": 2.2478,
      "eval_samples_per_second": 1013.876,
      "eval_steps_per_second": 4.004,
      "step": 57579
    },
    {
      "epoch": 1129.02,
      "learning_rate": 1.4302531476855312e-06,
      "loss": 0.3674,
      "step": 57580
    },
    {
      "epoch": 1129.22,
      "learning_rate": 1.4223871487435618e-06,
      "loss": 0.3746,
      "step": 57590
    },
    {
      "epoch": 1129.41,
      "learning_rate": 1.4145426328236036e-06,
      "loss": 0.3699,
      "step": 57600
    },
    {
      "epoch": 1129.61,
      "learning_rate": 1.406719602216075e-06,
      "loss": 0.3729,
      "step": 57610
    },
    {
      "epoch": 1129.8,
      "learning_rate": 1.3989180592051313e-06,
      "loss": 0.3675,
      "step": 57620
    },
    {
      "epoch": 1130.0,
      "learning_rate": 1.3911380060686593e-06,
      "loss": 0.3695,
      "step": 57630
    },
    {
      "epoch": 1130.0,
      "eval_loss": 0.3807949423789978,
      "eval_runtime": 2.3206,
      "eval_samples_per_second": 982.078,
      "eval_steps_per_second": 3.878,
      "step": 57630
    },
    {
      "epoch": 1130.2,
      "learning_rate": 1.3833794450782504e-06,
      "loss": 0.3742,
      "step": 57640
    },
    {
      "epoch": 1130.39,
      "learning_rate": 1.3756423784992253e-06,
      "loss": 0.369,
      "step": 57650
    },
    {
      "epoch": 1130.59,
      "learning_rate": 1.3679268085906608e-06,
      "loss": 0.3698,
      "step": 57660
    },
    {
      "epoch": 1130.78,
      "learning_rate": 1.3602327376052963e-06,
      "loss": 0.3692,
      "step": 57670
    },
    {
      "epoch": 1130.98,
      "learning_rate": 1.3525601677896513e-06,
      "loss": 0.3729,
      "step": 57680
    },
    {
      "epoch": 1131.0,
      "eval_loss": 0.37210267782211304,
      "eval_runtime": 2.3446,
      "eval_samples_per_second": 972.041,
      "eval_steps_per_second": 3.839,
      "step": 57681
    },
    {
      "epoch": 1131.18,
      "learning_rate": 1.3449091013839426e-06,
      "loss": 0.3687,
      "step": 57690
    },
    {
      "epoch": 1131.37,
      "learning_rate": 1.3372795406221076e-06,
      "loss": 0.3689,
      "step": 57700
    },
    {
      "epoch": 1131.57,
      "learning_rate": 1.3296714877318148e-06,
      "loss": 0.3752,
      "step": 57710
    },
    {
      "epoch": 1131.76,
      "learning_rate": 1.322084944934429e-06,
      "loss": 0.3695,
      "step": 57720
    },
    {
      "epoch": 1131.96,
      "learning_rate": 1.3145199144450613e-06,
      "loss": 0.3657,
      "step": 57730
    },
    {
      "epoch": 1132.0,
      "eval_loss": 0.37843912839889526,
      "eval_runtime": 2.2806,
      "eval_samples_per_second": 999.309,
      "eval_steps_per_second": 3.946,
      "step": 57732
    },
    {
      "epoch": 1132.16,
      "learning_rate": 1.3069763984725452e-06,
      "loss": 0.3704,
      "step": 57740
    },
    {
      "epoch": 1132.35,
      "learning_rate": 1.2994543992193935e-06,
      "loss": 0.3709,
      "step": 57750
    },
    {
      "epoch": 1132.55,
      "learning_rate": 1.2919539188818828e-06,
      "loss": 0.3705,
      "step": 57760
    },
    {
      "epoch": 1132.75,
      "learning_rate": 1.2844749596499782e-06,
      "loss": 0.3691,
      "step": 57770
    },
    {
      "epoch": 1132.94,
      "learning_rate": 1.277017523707366e-06,
      "loss": 0.3676,
      "step": 57780
    },
    {
      "epoch": 1133.0,
      "eval_loss": 0.3793400228023529,
      "eval_runtime": 2.3746,
      "eval_samples_per_second": 959.724,
      "eval_steps_per_second": 3.79,
      "step": 57783
    },
    {
      "epoch": 1133.14,
      "learning_rate": 1.2695816132314545e-06,
      "loss": 0.3724,
      "step": 57790
    },
    {
      "epoch": 1133.33,
      "learning_rate": 1.2621672303933738e-06,
      "loss": 0.3746,
      "step": 57800
    },
    {
      "epoch": 1133.53,
      "learning_rate": 1.254774377357942e-06,
      "loss": 0.3699,
      "step": 57810
    },
    {
      "epoch": 1133.73,
      "learning_rate": 1.2474030562837162e-06,
      "loss": 0.3683,
      "step": 57820
    },
    {
      "epoch": 1133.92,
      "learning_rate": 1.2400532693229493e-06,
      "loss": 0.3684,
      "step": 57830
    },
    {
      "epoch": 1134.0,
      "eval_loss": 0.37969231605529785,
      "eval_runtime": 2.3069,
      "eval_samples_per_second": 987.914,
      "eval_steps_per_second": 3.901,
      "step": 57834
    },
    {
      "epoch": 1134.12,
      "learning_rate": 1.2327250186216248e-06,
      "loss": 0.3688,
      "step": 57840
    },
    {
      "epoch": 1134.31,
      "learning_rate": 1.2254183063194312e-06,
      "loss": 0.3696,
      "step": 57850
    },
    {
      "epoch": 1134.51,
      "learning_rate": 1.2181331345497453e-06,
      "loss": 0.3682,
      "step": 57860
    },
    {
      "epoch": 1134.71,
      "learning_rate": 1.2108695054396988e-06,
      "loss": 0.3666,
      "step": 57870
    },
    {
      "epoch": 1134.9,
      "learning_rate": 1.2036274211100955e-06,
      "loss": 0.3703,
      "step": 57880
    },
    {
      "epoch": 1135.0,
      "eval_loss": 0.3771282136440277,
      "eval_runtime": 2.257,
      "eval_samples_per_second": 1009.765,
      "eval_steps_per_second": 3.988,
      "step": 57885
    },
    {
      "epoch": 1135.1,
      "learning_rate": 1.1964068836754687e-06,
      "loss": 0.3722,
      "step": 57890
    },
    {
      "epoch": 1135.29,
      "learning_rate": 1.189207895244057e-06,
      "loss": 0.3746,
      "step": 57900
    },
    {
      "epoch": 1135.49,
      "learning_rate": 1.182030457917796e-06,
      "loss": 0.3681,
      "step": 57910
    },
    {
      "epoch": 1135.69,
      "learning_rate": 1.174874573792342e-06,
      "loss": 0.3683,
      "step": 57920
    },
    {
      "epoch": 1135.88,
      "learning_rate": 1.167740244957041e-06,
      "loss": 0.3705,
      "step": 57930
    },
    {
      "epoch": 1136.0,
      "eval_loss": 0.37516215443611145,
      "eval_runtime": 2.2628,
      "eval_samples_per_second": 1007.181,
      "eval_steps_per_second": 3.977,
      "step": 57936
    },
    {
      "epoch": 1136.08,
      "learning_rate": 1.1606274734949766e-06,
      "loss": 0.3713,
      "step": 57940
    },
    {
      "epoch": 1136.27,
      "learning_rate": 1.1535362614829208e-06,
      "loss": 0.3704,
      "step": 57950
    },
    {
      "epoch": 1136.47,
      "learning_rate": 1.1464666109913256e-06,
      "loss": 0.3653,
      "step": 57960
    },
    {
      "epoch": 1136.67,
      "learning_rate": 1.1394185240843983e-06,
      "loss": 0.3673,
      "step": 57970
    },
    {
      "epoch": 1136.86,
      "learning_rate": 1.1323920028200096e-06,
      "loss": 0.3691,
      "step": 57980
    },
    {
      "epoch": 1137.0,
      "eval_loss": 0.3772904872894287,
      "eval_runtime": 2.2617,
      "eval_samples_per_second": 1007.636,
      "eval_steps_per_second": 3.979,
      "step": 57987
    },
    {
      "epoch": 1137.06,
      "learning_rate": 1.125387049249743e-06,
      "loss": 0.3706,
      "step": 57990
    },
    {
      "epoch": 1137.25,
      "learning_rate": 1.1184036654188877e-06,
      "loss": 0.3736,
      "step": 58000
    },
    {
      "epoch": 1137.45,
      "learning_rate": 1.1114418533664626e-06,
      "loss": 0.3705,
      "step": 58010
    },
    {
      "epoch": 1137.65,
      "learning_rate": 1.1045016151251335e-06,
      "loss": 0.3681,
      "step": 58020
    },
    {
      "epoch": 1137.84,
      "learning_rate": 1.0975829527212959e-06,
      "loss": 0.3673,
      "step": 58030
    },
    {
      "epoch": 1138.0,
      "eval_loss": 0.3766086995601654,
      "eval_runtime": 2.3006,
      "eval_samples_per_second": 990.6,
      "eval_steps_per_second": 3.912,
      "step": 58038
    },
    {
      "epoch": 1138.04,
      "learning_rate": 1.0906858681750508e-06,
      "loss": 0.3686,
      "step": 58040
    },
    {
      "epoch": 1138.24,
      "learning_rate": 1.0838103635002038e-06,
      "loss": 0.3697,
      "step": 58050
    },
    {
      "epoch": 1138.43,
      "learning_rate": 1.0769564407042407e-06,
      "loss": 0.3697,
      "step": 58060
    },
    {
      "epoch": 1138.63,
      "learning_rate": 1.0701241017883526e-06,
      "loss": 0.3656,
      "step": 58070
    },
    {
      "epoch": 1138.82,
      "learning_rate": 1.0633133487474189e-06,
      "loss": 0.3715,
      "step": 58080
    },
    {
      "epoch": 1139.0,
      "eval_loss": 0.3779025971889496,
      "eval_runtime": 2.3816,
      "eval_samples_per_second": 956.928,
      "eval_steps_per_second": 3.779,
      "step": 58089
    },
    {
      "epoch": 1139.02,
      "learning_rate": 1.0565241835700482e-06,
      "loss": 0.3668,
      "step": 58090
    },
    {
      "epoch": 1139.22,
      "learning_rate": 1.049756608238514e-06,
      "loss": 0.3665,
      "step": 58100
    },
    {
      "epoch": 1139.41,
      "learning_rate": 1.0430106247288018e-06,
      "loss": 0.3684,
      "step": 58110
    },
    {
      "epoch": 1139.61,
      "learning_rate": 1.036286235010586e-06,
      "loss": 0.3738,
      "step": 58120
    },
    {
      "epoch": 1139.8,
      "learning_rate": 1.0295834410472382e-06,
      "loss": 0.3737,
      "step": 58130
    },
    {
      "epoch": 1140.0,
      "learning_rate": 1.0229022447958256e-06,
      "loss": 0.37,
      "step": 58140
    },
    {
      "epoch": 1140.0,
      "eval_loss": 0.37501007318496704,
      "eval_runtime": 2.2685,
      "eval_samples_per_second": 1004.642,
      "eval_steps_per_second": 3.967,
      "step": 58140
    },
    {
      "epoch": 1140.2,
      "learning_rate": 1.016242648207105e-06,
      "loss": 0.3705,
      "step": 58150
    },
    {
      "epoch": 1140.39,
      "learning_rate": 1.0096046532255374e-06,
      "loss": 0.3679,
      "step": 58160
    },
    {
      "epoch": 1140.59,
      "learning_rate": 1.0029882617892643e-06,
      "loss": 0.3662,
      "step": 58170
    },
    {
      "epoch": 1140.78,
      "learning_rate": 9.963934758301235e-07,
      "loss": 0.3689,
      "step": 58180
    },
    {
      "epoch": 1140.98,
      "learning_rate": 9.898202972736497e-07,
      "loss": 0.3709,
      "step": 58190
    },
    {
      "epoch": 1141.0,
      "eval_loss": 0.37856853008270264,
      "eval_runtime": 2.2632,
      "eval_samples_per_second": 1006.96,
      "eval_steps_per_second": 3.977,
      "step": 58191
    },
    {
      "epoch": 1141.18,
      "learning_rate": 9.832687280390578e-07,
      "loss": 0.3671,
      "step": 58200
    },
    {
      "epoch": 1141.37,
      "learning_rate": 9.767387700392675e-07,
      "loss": 0.3687,
      "step": 58210
    },
    {
      "epoch": 1141.57,
      "learning_rate": 9.702304251808707e-07,
      "loss": 0.3715,
      "step": 58220
    },
    {
      "epoch": 1141.76,
      "learning_rate": 9.637436953641803e-07,
      "loss": 0.3679,
      "step": 58230
    },
    {
      "epoch": 1141.96,
      "learning_rate": 9.57278582483148e-07,
      "loss": 0.3696,
      "step": 58240
    },
    {
      "epoch": 1142.0,
      "eval_loss": 0.37759509682655334,
      "eval_runtime": 2.2953,
      "eval_samples_per_second": 992.889,
      "eval_steps_per_second": 3.921,
      "step": 58242
    },
    {
      "epoch": 1142.16,
      "learning_rate": 9.50835088425464e-07,
      "loss": 0.3672,
      "step": 58250
    },
    {
      "epoch": 1142.35,
      "learning_rate": 9.444132150724732e-07,
      "loss": 0.3663,
      "step": 58260
    },
    {
      "epoch": 1142.55,
      "learning_rate": 9.380129642992257e-07,
      "loss": 0.367,
      "step": 58270
    },
    {
      "epoch": 1142.75,
      "learning_rate": 9.316343379744517e-07,
      "loss": 0.3706,
      "step": 58280
    },
    {
      "epoch": 1142.94,
      "learning_rate": 9.252773379605616e-07,
      "loss": 0.3752,
      "step": 58290
    },
    {
      "epoch": 1143.0,
      "eval_loss": 0.3757573366165161,
      "eval_runtime": 2.3475,
      "eval_samples_per_second": 970.804,
      "eval_steps_per_second": 3.834,
      "step": 58293
    },
    {
      "epoch": 1143.14,
      "learning_rate": 9.189419661136621e-07,
      "loss": 0.3684,
      "step": 58300
    },
    {
      "epoch": 1143.33,
      "learning_rate": 9.126282242835487e-07,
      "loss": 0.3688,
      "step": 58310
    },
    {
      "epoch": 1143.53,
      "learning_rate": 9.0633611431368e-07,
      "loss": 0.3681,
      "step": 58320
    },
    {
      "epoch": 1143.73,
      "learning_rate": 9.000656380412114e-07,
      "loss": 0.3728,
      "step": 58330
    },
    {
      "epoch": 1143.92,
      "learning_rate": 8.93816797296995e-07,
      "loss": 0.3675,
      "step": 58340
    },
    {
      "epoch": 1144.0,
      "eval_loss": 0.37619441747665405,
      "eval_runtime": 2.2518,
      "eval_samples_per_second": 1012.06,
      "eval_steps_per_second": 3.997,
      "step": 58344
    },
    {
      "epoch": 1144.12,
      "learning_rate": 8.875895939055466e-07,
      "loss": 0.3683,
      "step": 58350
    },
    {
      "epoch": 1144.31,
      "learning_rate": 8.813840296850616e-07,
      "loss": 0.3677,
      "step": 58360
    },
    {
      "epoch": 1144.51,
      "learning_rate": 8.752001064474407e-07,
      "loss": 0.3693,
      "step": 58370
    },
    {
      "epoch": 1144.71,
      "learning_rate": 8.690378259982478e-07,
      "loss": 0.3662,
      "step": 58380
    },
    {
      "epoch": 1144.9,
      "learning_rate": 8.628971901367271e-07,
      "loss": 0.3681,
      "step": 58390
    },
    {
      "epoch": 1145.0,
      "eval_loss": 0.3740864396095276,
      "eval_runtime": 2.2362,
      "eval_samples_per_second": 1019.118,
      "eval_steps_per_second": 4.025,
      "step": 58395
    },
    {
      "epoch": 1145.1,
      "learning_rate": 8.567782006558027e-07,
      "loss": 0.3709,
      "step": 58400
    },
    {
      "epoch": 1145.29,
      "learning_rate": 8.506808593420955e-07,
      "loss": 0.3683,
      "step": 58410
    },
    {
      "epoch": 1145.49,
      "learning_rate": 8.446051679758814e-07,
      "loss": 0.3729,
      "step": 58420
    },
    {
      "epoch": 1145.69,
      "learning_rate": 8.38551128331133e-07,
      "loss": 0.3716,
      "step": 58430
    },
    {
      "epoch": 1145.88,
      "learning_rate": 8.325187421755031e-07,
      "loss": 0.3684,
      "step": 58440
    },
    {
      "epoch": 1146.0,
      "eval_loss": 0.3794369399547577,
      "eval_runtime": 2.2787,
      "eval_samples_per_second": 1000.144,
      "eval_steps_per_second": 3.95,
      "step": 58446
    },
    {
      "epoch": 1146.08,
      "learning_rate": 8.265080112702993e-07,
      "loss": 0.371,
      "step": 58450
    },
    {
      "epoch": 1146.27,
      "learning_rate": 8.205189373705262e-07,
      "loss": 0.3694,
      "step": 58460
    },
    {
      "epoch": 1146.47,
      "learning_rate": 8.145515222248599e-07,
      "loss": 0.3674,
      "step": 58470
    },
    {
      "epoch": 1146.67,
      "learning_rate": 8.086057675756569e-07,
      "loss": 0.3671,
      "step": 58480
    },
    {
      "epoch": 1146.86,
      "learning_rate": 8.026816751589366e-07,
      "loss": 0.3663,
      "step": 58490
    },
    {
      "epoch": 1147.0,
      "eval_loss": 0.3720145523548126,
      "eval_runtime": 2.2643,
      "eval_samples_per_second": 1006.479,
      "eval_steps_per_second": 3.975,
      "step": 58497
    },
    {
      "epoch": 1147.06,
      "learning_rate": 7.96779246704407e-07,
      "loss": 0.3702,
      "step": 58500
    },
    {
      "epoch": 1147.25,
      "learning_rate": 7.908984839354482e-07,
      "loss": 0.3687,
      "step": 58510
    },
    {
      "epoch": 1147.45,
      "learning_rate": 7.850393885691031e-07,
      "loss": 0.3683,
      "step": 58520
    },
    {
      "epoch": 1147.65,
      "learning_rate": 7.792019623161116e-07,
      "loss": 0.3691,
      "step": 58530
    },
    {
      "epoch": 1147.84,
      "learning_rate": 7.733862068808521e-07,
      "loss": 0.3712,
      "step": 58540
    },
    {
      "epoch": 1148.0,
      "eval_loss": 0.3741941452026367,
      "eval_runtime": 2.3347,
      "eval_samples_per_second": 976.132,
      "eval_steps_per_second": 3.855,
      "step": 58548
    },
    {
      "epoch": 1148.04,
      "learning_rate": 7.675921239614164e-07,
      "loss": 0.3694,
      "step": 58550
    },
    {
      "epoch": 1148.24,
      "learning_rate": 7.618197152495258e-07,
      "loss": 0.3693,
      "step": 58560
    },
    {
      "epoch": 1148.43,
      "learning_rate": 7.560689824306076e-07,
      "loss": 0.3691,
      "step": 58570
    },
    {
      "epoch": 1148.63,
      "learning_rate": 7.503399271837518e-07,
      "loss": 0.3709,
      "step": 58580
    },
    {
      "epoch": 1148.82,
      "learning_rate": 7.446325511817119e-07,
      "loss": 0.3672,
      "step": 58590
    },
    {
      "epoch": 1149.0,
      "eval_loss": 0.3786185681819916,
      "eval_runtime": 2.3832,
      "eval_samples_per_second": 956.28,
      "eval_steps_per_second": 3.776,
      "step": 58599
    },
    {
      "epoch": 1149.02,
      "learning_rate": 7.389468560909051e-07,
      "loss": 0.3692,
      "step": 58600
    },
    {
      "epoch": 1149.22,
      "learning_rate": 7.332828435714366e-07,
      "loss": 0.3673,
      "step": 58610
    },
    {
      "epoch": 1149.41,
      "learning_rate": 7.276405152770671e-07,
      "loss": 0.3684,
      "step": 58620
    },
    {
      "epoch": 1149.61,
      "learning_rate": 7.220198728552368e-07,
      "loss": 0.3733,
      "step": 58630
    },
    {
      "epoch": 1149.8,
      "learning_rate": 7.164209179470415e-07,
      "loss": 0.3687,
      "step": 58640
    },
    {
      "epoch": 1150.0,
      "learning_rate": 7.108436521872568e-07,
      "loss": 0.369,
      "step": 58650
    },
    {
      "epoch": 1150.0,
      "eval_loss": 0.37368664145469666,
      "eval_runtime": 2.4044,
      "eval_samples_per_second": 947.86,
      "eval_steps_per_second": 3.743,
      "step": 58650
    },
    {
      "epoch": 1150.2,
      "learning_rate": 7.052880772043134e-07,
      "loss": 0.371,
      "step": 58660
    },
    {
      "epoch": 1150.39,
      "learning_rate": 6.997541946203139e-07,
      "loss": 0.3704,
      "step": 58670
    },
    {
      "epoch": 1150.59,
      "learning_rate": 6.942420060510406e-07,
      "loss": 0.3694,
      "step": 58680
    },
    {
      "epoch": 1150.78,
      "learning_rate": 6.887515131059229e-07,
      "loss": 0.3674,
      "step": 58690
    },
    {
      "epoch": 1150.98,
      "learning_rate": 6.832827173880618e-07,
      "loss": 0.3648,
      "step": 58700
    },
    {
      "epoch": 1151.0,
      "eval_loss": 0.37666937708854675,
      "eval_runtime": 2.4198,
      "eval_samples_per_second": 941.831,
      "eval_steps_per_second": 3.719,
      "step": 58701
    },
    {
      "epoch": 1151.18,
      "learning_rate": 6.778356204942214e-07,
      "loss": 0.3701,
      "step": 58710
    },
    {
      "epoch": 1151.37,
      "learning_rate": 6.724102240148299e-07,
      "loss": 0.3712,
      "step": 58720
    },
    {
      "epoch": 1151.57,
      "learning_rate": 6.670065295339866e-07,
      "loss": 0.3712,
      "step": 58730
    },
    {
      "epoch": 1151.76,
      "learning_rate": 6.616245386294627e-07,
      "loss": 0.3705,
      "step": 58740
    },
    {
      "epoch": 1151.96,
      "learning_rate": 6.562642528726597e-07,
      "loss": 0.3704,
      "step": 58750
    },
    {
      "epoch": 1152.0,
      "eval_loss": 0.37399017810821533,
      "eval_runtime": 2.2859,
      "eval_samples_per_second": 996.982,
      "eval_steps_per_second": 3.937,
      "step": 58752
    },
    {
      "epoch": 1152.16,
      "learning_rate": 6.509256738286672e-07,
      "loss": 0.3687,
      "step": 58760
    },
    {
      "epoch": 1152.35,
      "learning_rate": 6.4560880305623e-07,
      "loss": 0.3616,
      "step": 58770
    },
    {
      "epoch": 1152.55,
      "learning_rate": 6.403136421077565e-07,
      "loss": 0.3695,
      "step": 58780
    },
    {
      "epoch": 1152.75,
      "learning_rate": 6.350401925293264e-07,
      "loss": 0.3713,
      "step": 58790
    },
    {
      "epoch": 1152.94,
      "learning_rate": 6.29788455860658e-07,
      "loss": 0.3695,
      "step": 58800
    },
    {
      "epoch": 1153.0,
      "eval_loss": 0.3780522346496582,
      "eval_runtime": 2.3433,
      "eval_samples_per_second": 972.56,
      "eval_steps_per_second": 3.841,
      "step": 58803
    },
    {
      "epoch": 1153.14,
      "learning_rate": 6.245584336351417e-07,
      "loss": 0.3701,
      "step": 58810
    },
    {
      "epoch": 1153.33,
      "learning_rate": 6.193501273798307e-07,
      "loss": 0.3689,
      "step": 58820
    },
    {
      "epoch": 1153.53,
      "learning_rate": 6.141635386154253e-07,
      "loss": 0.3688,
      "step": 58830
    },
    {
      "epoch": 1153.73,
      "learning_rate": 6.089986688563143e-07,
      "loss": 0.3695,
      "step": 58840
    },
    {
      "epoch": 1153.92,
      "learning_rate": 6.038555196105077e-07,
      "loss": 0.3707,
      "step": 58850
    },
    {
      "epoch": 1154.0,
      "eval_loss": 0.37525415420532227,
      "eval_runtime": 2.319,
      "eval_samples_per_second": 982.731,
      "eval_steps_per_second": 3.881,
      "step": 58854
    },
    {
      "epoch": 1154.12,
      "learning_rate": 5.987340923796879e-07,
      "loss": 0.3646,
      "step": 58860
    },
    {
      "epoch": 1154.31,
      "learning_rate": 5.936343886592087e-07,
      "loss": 0.3709,
      "step": 58870
    },
    {
      "epoch": 1154.51,
      "learning_rate": 5.885564099380624e-07,
      "loss": 0.3701,
      "step": 58880
    },
    {
      "epoch": 1154.71,
      "learning_rate": 5.835001576989129e-07,
      "loss": 0.3689,
      "step": 58890
    },
    {
      "epoch": 1154.9,
      "learning_rate": 5.784656334180709e-07,
      "loss": 0.3661,
      "step": 58900
    },
    {
      "epoch": 1155.0,
      "eval_loss": 0.37740692496299744,
      "eval_runtime": 2.2596,
      "eval_samples_per_second": 1008.586,
      "eval_steps_per_second": 3.983,
      "step": 58905
    },
    {
      "epoch": 1155.1,
      "learning_rate": 5.73452838565494e-07,
      "loss": 0.3704,
      "step": 58910
    },
    {
      "epoch": 1155.29,
      "learning_rate": 5.684617746048198e-07,
      "loss": 0.3677,
      "step": 58920
    },
    {
      "epoch": 1155.49,
      "learning_rate": 5.634924429933241e-07,
      "loss": 0.3684,
      "step": 58930
    },
    {
      "epoch": 1155.69,
      "learning_rate": 5.585448451819296e-07,
      "loss": 0.3633,
      "step": 58940
    },
    {
      "epoch": 1155.88,
      "learning_rate": 5.536189826152476e-07,
      "loss": 0.367,
      "step": 58950
    },
    {
      "epoch": 1156.0,
      "eval_loss": 0.3763006031513214,
      "eval_runtime": 2.2788,
      "eval_samples_per_second": 1000.081,
      "eval_steps_per_second": 3.949,
      "step": 58956
    },
    {
      "epoch": 1156.08,
      "learning_rate": 5.487148567315026e-07,
      "loss": 0.3703,
      "step": 58960
    },
    {
      "epoch": 1156.27,
      "learning_rate": 5.438324689625989e-07,
      "loss": 0.3678,
      "step": 58970
    },
    {
      "epoch": 1156.47,
      "learning_rate": 5.389718207340716e-07,
      "loss": 0.368,
      "step": 58980
    },
    {
      "epoch": 1156.67,
      "learning_rate": 5.341329134651351e-07,
      "loss": 0.3682,
      "step": 58990
    },
    {
      "epoch": 1156.86,
      "learning_rate": 5.293157485686428e-07,
      "loss": 0.3657,
      "step": 59000
    },
    {
      "epoch": 1157.0,
      "eval_loss": 0.3766930103302002,
      "eval_runtime": 2.379,
      "eval_samples_per_second": 957.978,
      "eval_steps_per_second": 3.783,
      "step": 59007
    },
    {
      "epoch": 1157.06,
      "learning_rate": 5.245203274510862e-07,
      "loss": 0.3731,
      "step": 59010
    },
    {
      "epoch": 1157.25,
      "learning_rate": 5.197466515126369e-07,
      "loss": 0.364,
      "step": 59020
    },
    {
      "epoch": 1157.45,
      "learning_rate": 5.149947221470885e-07,
      "loss": 0.3691,
      "step": 59030
    },
    {
      "epoch": 1157.65,
      "learning_rate": 5.102645407419059e-07,
      "loss": 0.3675,
      "step": 59040
    },
    {
      "epoch": 1157.84,
      "learning_rate": 5.055561086781928e-07,
      "loss": 0.3638,
      "step": 59050
    },
    {
      "epoch": 1158.0,
      "eval_loss": 0.37378421425819397,
      "eval_runtime": 2.2244,
      "eval_samples_per_second": 1024.566,
      "eval_steps_per_second": 4.046,
      "step": 59058
    },
    {
      "epoch": 1158.04,
      "learning_rate": 5.008694273307162e-07,
      "loss": 0.3721,
      "step": 59060
    },
    {
      "epoch": 1158.24,
      "learning_rate": 4.962044980678731e-07,
      "loss": 0.3723,
      "step": 59070
    },
    {
      "epoch": 1158.43,
      "learning_rate": 4.915613222517156e-07,
      "loss": 0.3693,
      "step": 59080
    },
    {
      "epoch": 1158.63,
      "learning_rate": 4.86939901237951e-07,
      "loss": 0.3684,
      "step": 59090
    },
    {
      "epoch": 1158.82,
      "learning_rate": 4.823402363759416e-07,
      "loss": 0.3728,
      "step": 59100
    },
    {
      "epoch": 1159.0,
      "eval_loss": 0.373190313577652,
      "eval_runtime": 2.2286,
      "eval_samples_per_second": 1022.623,
      "eval_steps_per_second": 4.038,
      "step": 59109
    },
    {
      "epoch": 1159.02,
      "learning_rate": 4.777623290086713e-07,
      "loss": 0.3714,
      "step": 59110
    },
    {
      "epoch": 1159.22,
      "learning_rate": 4.73206180472796e-07,
      "loss": 0.3674,
      "step": 59120
    },
    {
      "epoch": 1159.41,
      "learning_rate": 4.6867179209860995e-07,
      "loss": 0.3685,
      "step": 59130
    },
    {
      "epoch": 1159.61,
      "learning_rate": 4.641591652100457e-07,
      "loss": 0.3673,
      "step": 59140
    },
    {
      "epoch": 1159.8,
      "learning_rate": 4.59668301124691e-07,
      "loss": 0.3684,
      "step": 59150
    },
    {
      "epoch": 1160.0,
      "learning_rate": 4.551992011537886e-07,
      "loss": 0.3748,
      "step": 59160
    },
    {
      "epoch": 1160.0,
      "eval_loss": 0.37865450978279114,
      "eval_runtime": 2.3374,
      "eval_samples_per_second": 974.999,
      "eval_steps_per_second": 3.85,
      "step": 59160
    },
    {
      "epoch": 1160.2,
      "learning_rate": 4.507518666022114e-07,
      "loss": 0.3704,
      "step": 59170
    },
    {
      "epoch": 1160.39,
      "learning_rate": 4.463262987684707e-07,
      "loss": 0.3662,
      "step": 59180
    },
    {
      "epoch": 1160.59,
      "learning_rate": 4.419224989447495e-07,
      "loss": 0.3682,
      "step": 59190
    },
    {
      "epoch": 1160.78,
      "learning_rate": 4.3754046841685264e-07,
      "loss": 0.3694,
      "step": 59200
    },
    {
      "epoch": 1160.98,
      "learning_rate": 4.3318020846423163e-07,
      "loss": 0.3753,
      "step": 59210
    },
    {
      "epoch": 1161.0,
      "eval_loss": 0.37434232234954834,
      "eval_runtime": 2.3184,
      "eval_samples_per_second": 982.993,
      "eval_steps_per_second": 3.882,
      "step": 59211
    },
    {
      "epoch": 1161.18,
      "learning_rate": 4.288417203599848e-07,
      "loss": 0.3667,
      "step": 59220
    },
    {
      "epoch": 1161.37,
      "learning_rate": 4.245250053708654e-07,
      "loss": 0.3721,
      "step": 59230
    },
    {
      "epoch": 1161.57,
      "learning_rate": 4.2023006475724874e-07,
      "loss": 0.3694,
      "step": 59240
    },
    {
      "epoch": 1161.76,
      "learning_rate": 4.159568997731566e-07,
      "loss": 0.3677,
      "step": 59250
    },
    {
      "epoch": 1161.96,
      "learning_rate": 4.11705511666266e-07,
      "loss": 0.3663,
      "step": 59260
    },
    {
      "epoch": 1162.0,
      "eval_loss": 0.3757706880569458,
      "eval_runtime": 2.2639,
      "eval_samples_per_second": 1006.674,
      "eval_steps_per_second": 3.975,
      "step": 59262
    },
    {
      "epoch": 1162.16,
      "learning_rate": 4.074759016778839e-07,
      "loss": 0.3725,
      "step": 59270
    },
    {
      "epoch": 1162.35,
      "learning_rate": 4.0326807104297255e-07,
      "loss": 0.3687,
      "step": 59280
    },
    {
      "epoch": 1162.55,
      "learning_rate": 3.990820209901074e-07,
      "loss": 0.3672,
      "step": 59290
    },
    {
      "epoch": 1162.75,
      "learning_rate": 3.9491775274153594e-07,
      "loss": 0.3649,
      "step": 59300
    },
    {
      "epoch": 1162.94,
      "learning_rate": 3.9077526751312705e-07,
      "loss": 0.3694,
      "step": 59310
    },
    {
      "epoch": 1163.0,
      "eval_loss": 0.3772204518318176,
      "eval_runtime": 2.2967,
      "eval_samples_per_second": 992.275,
      "eval_steps_per_second": 3.919,
      "step": 59313
    },
    {
      "epoch": 1163.14,
      "learning_rate": 3.866545665143883e-07,
      "loss": 0.3713,
      "step": 59320
    },
    {
      "epoch": 1163.33,
      "learning_rate": 3.8255565094847393e-07,
      "loss": 0.3747,
      "step": 59330
    },
    {
      "epoch": 1163.53,
      "learning_rate": 3.7847852201218496e-07,
      "loss": 0.3671,
      "step": 59340
    },
    {
      "epoch": 1163.73,
      "learning_rate": 3.7442318089594416e-07,
      "loss": 0.3704,
      "step": 59350
    },
    {
      "epoch": 1163.92,
      "learning_rate": 3.7038962878382094e-07,
      "loss": 0.3657,
      "step": 59360
    },
    {
      "epoch": 1164.0,
      "eval_loss": 0.37626099586486816,
      "eval_runtime": 2.2934,
      "eval_samples_per_second": 993.736,
      "eval_steps_per_second": 3.924,
      "step": 59364
    },
    {
      "epoch": 1164.12,
      "learning_rate": 3.663778668535233e-07,
      "loss": 0.3707,
      "step": 59370
    },
    {
      "epoch": 1164.31,
      "learning_rate": 3.6238789627640596e-07,
      "loss": 0.3678,
      "step": 59380
    },
    {
      "epoch": 1164.51,
      "learning_rate": 3.5841971821742863e-07,
      "loss": 0.3652,
      "step": 59390
    },
    {
      "epoch": 1164.71,
      "learning_rate": 3.5447333383523123e-07,
      "loss": 0.3686,
      "step": 59400
    },
    {
      "epoch": 1164.9,
      "learning_rate": 3.50548744282067e-07,
      "loss": 0.3643,
      "step": 59410
    },
    {
      "epoch": 1165.0,
      "eval_loss": 0.3769838213920593,
      "eval_runtime": 2.2497,
      "eval_samples_per_second": 1013.009,
      "eval_steps_per_second": 4.0,
      "step": 59415
    },
    {
      "epoch": 1165.1,
      "learning_rate": 3.466459507038277e-07,
      "loss": 0.3708,
      "step": 59420
    },
    {
      "epoch": 1165.29,
      "learning_rate": 3.427649542400351e-07,
      "loss": 0.3676,
      "step": 59430
    },
    {
      "epoch": 1165.49,
      "learning_rate": 3.389057560238578e-07,
      "loss": 0.3694,
      "step": 59440
    },
    {
      "epoch": 1165.69,
      "learning_rate": 3.3506835718209447e-07,
      "loss": 0.369,
      "step": 59450
    },
    {
      "epoch": 1165.88,
      "learning_rate": 3.312527588351821e-07,
      "loss": 0.3679,
      "step": 59460
    },
    {
      "epoch": 1166.0,
      "eval_loss": 0.3771611452102661,
      "eval_runtime": 2.3268,
      "eval_samples_per_second": 979.474,
      "eval_steps_per_second": 3.868,
      "step": 59466
    },
    {
      "epoch": 1166.08,
      "learning_rate": 3.274589620971879e-07,
      "loss": 0.3707,
      "step": 59470
    },
    {
      "epoch": 1166.27,
      "learning_rate": 3.236869680758175e-07,
      "loss": 0.3632,
      "step": 59480
    },
    {
      "epoch": 1166.47,
      "learning_rate": 3.1993677787241487e-07,
      "loss": 0.3704,
      "step": 59490
    },
    {
      "epoch": 1166.67,
      "learning_rate": 3.162083925819375e-07,
      "loss": 0.3704,
      "step": 59500
    },
    {
      "epoch": 1166.86,
      "learning_rate": 3.1250181329300626e-07,
      "loss": 0.37,
      "step": 59510
    },
    {
      "epoch": 1167.0,
      "eval_loss": 0.37242335081100464,
      "eval_runtime": 2.238,
      "eval_samples_per_second": 1018.333,
      "eval_steps_per_second": 4.022,
      "step": 59517
    },
    {
      "epoch": 1167.06,
      "learning_rate": 3.088170410878471e-07,
      "loss": 0.3691,
      "step": 59520
    },
    {
      "epoch": 1167.25,
      "learning_rate": 3.051540770423411e-07,
      "loss": 0.3692,
      "step": 59530
    },
    {
      "epoch": 1167.45,
      "learning_rate": 3.01512922225991e-07,
      "loss": 0.374,
      "step": 59540
    },
    {
      "epoch": 1167.65,
      "learning_rate": 2.9789357770192147e-07,
      "loss": 0.369,
      "step": 59550
    },
    {
      "epoch": 1167.84,
      "learning_rate": 2.942960445269121e-07,
      "loss": 0.3693,
      "step": 59560
    },
    {
      "epoch": 1168.0,
      "eval_loss": 0.3752315938472748,
      "eval_runtime": 2.3291,
      "eval_samples_per_second": 978.487,
      "eval_steps_per_second": 3.864,
      "step": 59568
    },
    {
      "epoch": 1168.04,
      "learning_rate": 2.9072032375136445e-07,
      "loss": 0.3643,
      "step": 59570
    },
    {
      "epoch": 1168.24,
      "learning_rate": 2.871664164192933e-07,
      "loss": 0.3731,
      "step": 59580
    },
    {
      "epoch": 1168.43,
      "learning_rate": 2.836343235683769e-07,
      "loss": 0.3728,
      "step": 59590
    },
    {
      "epoch": 1168.63,
      "learning_rate": 2.8012404622989873e-07,
      "loss": 0.3686,
      "step": 59600
    },
    {
      "epoch": 1168.82,
      "learning_rate": 2.766355854287888e-07,
      "loss": 0.3705,
      "step": 59610
    },
    {
      "epoch": 1169.0,
      "eval_loss": 0.37323248386383057,
      "eval_runtime": 2.2636,
      "eval_samples_per_second": 1006.791,
      "eval_steps_per_second": 3.976,
      "step": 59619
    },
    {
      "epoch": 1169.02,
      "learning_rate": 2.731689421835909e-07,
      "loss": 0.3702,
      "step": 59620
    },
    {
      "epoch": 1169.22,
      "learning_rate": 2.697241175064868e-07,
      "loss": 0.3682,
      "step": 59630
    },
    {
      "epoch": 1169.41,
      "learning_rate": 2.6630111240330543e-07,
      "loss": 0.3734,
      "step": 59640
    },
    {
      "epoch": 1169.61,
      "learning_rate": 2.6289992787347224e-07,
      "loss": 0.3712,
      "step": 59650
    },
    {
      "epoch": 1169.8,
      "learning_rate": 2.5952056491005126e-07,
      "loss": 0.3656,
      "step": 59660
    },
    {
      "epoch": 1170.0,
      "learning_rate": 2.5616302449976145e-07,
      "loss": 0.3671,
      "step": 59670
    },
    {
      "epoch": 1170.0,
      "eval_loss": 0.37673383951187134,
      "eval_runtime": 2.2475,
      "eval_samples_per_second": 1013.999,
      "eval_steps_per_second": 4.004,
      "step": 59670
    },
    {
      "epoch": 1170.2,
      "learning_rate": 2.528273076229187e-07,
      "loss": 0.3696,
      "step": 59680
    },
    {
      "epoch": 1170.39,
      "learning_rate": 2.495134152534772e-07,
      "loss": 0.3731,
      "step": 59690
    },
    {
      "epoch": 1170.59,
      "learning_rate": 2.4622134835901307e-07,
      "loss": 0.3657,
      "step": 59700
    },
    {
      "epoch": 1170.78,
      "learning_rate": 2.429511079007573e-07,
      "loss": 0.3659,
      "step": 59710
    },
    {
      "epoch": 1170.98,
      "learning_rate": 2.397026948335212e-07,
      "loss": 0.3729,
      "step": 59720
    },
    {
      "epoch": 1171.0,
      "eval_loss": 0.37225037813186646,
      "eval_runtime": 2.3919,
      "eval_samples_per_second": 952.798,
      "eval_steps_per_second": 3.763,
      "step": 59721
    },
    {
      "epoch": 1171.18,
      "learning_rate": 2.364761101057877e-07,
      "loss": 0.3698,
      "step": 59730
    },
    {
      "epoch": 1171.37,
      "learning_rate": 2.3327135465964487e-07,
      "loss": 0.3671,
      "step": 59740
    },
    {
      "epoch": 1171.57,
      "learning_rate": 2.3008842943080253e-07,
      "loss": 0.3752,
      "step": 59750
    },
    {
      "epoch": 1171.76,
      "learning_rate": 2.2692733534860896e-07,
      "loss": 0.371,
      "step": 59760
    },
    {
      "epoch": 1171.96,
      "learning_rate": 2.2378807333603421e-07,
      "loss": 0.3701,
      "step": 59770
    },
    {
      "epoch": 1172.0,
      "eval_loss": 0.3768444359302521,
      "eval_runtime": 2.2603,
      "eval_samples_per_second": 1008.295,
      "eval_steps_per_second": 3.982,
      "step": 59772
    },
    {
      "epoch": 1172.16,
      "learning_rate": 2.2067064430967007e-07,
      "loss": 0.3688,
      "step": 59780
    },
    {
      "epoch": 1172.35,
      "learning_rate": 2.1757504917973013e-07,
      "loss": 0.3652,
      "step": 59790
    },
    {
      "epoch": 1172.55,
      "learning_rate": 2.1450128885007468e-07,
      "loss": 0.3655,
      "step": 59800
    },
    {
      "epoch": 1172.75,
      "learning_rate": 2.1144936421816083e-07,
      "loss": 0.3707,
      "step": 59810
    },
    {
      "epoch": 1172.94,
      "learning_rate": 2.0841927617508415e-07,
      "loss": 0.3717,
      "step": 59820
    },
    {
      "epoch": 1173.0,
      "eval_loss": 0.37819233536720276,
      "eval_runtime": 2.391,
      "eval_samples_per_second": 953.142,
      "eval_steps_per_second": 3.764,
      "step": 59823
    },
    {
      "epoch": 1173.14,
      "learning_rate": 2.0541102560556188e-07,
      "loss": 0.3676,
      "step": 59830
    },
    {
      "epoch": 1173.33,
      "learning_rate": 2.0242461338794979e-07,
      "loss": 0.3685,
      "step": 59840
    },
    {
      "epoch": 1173.53,
      "learning_rate": 1.9946004039420037e-07,
      "loss": 0.3697,
      "step": 59850
    },
    {
      "epoch": 1173.73,
      "learning_rate": 1.9651730748989624e-07,
      "loss": 0.37,
      "step": 59860
    },
    {
      "epoch": 1173.92,
      "learning_rate": 1.9359641553426675e-07,
      "loss": 0.3716,
      "step": 59870
    },
    {
      "epoch": 1174.0,
      "eval_loss": 0.37209558486938477,
      "eval_runtime": 2.2294,
      "eval_samples_per_second": 1022.25,
      "eval_steps_per_second": 4.037,
      "step": 59874
    },
    {
      "epoch": 1174.12,
      "learning_rate": 1.906973653801297e-07,
      "loss": 0.3686,
      "step": 59880
    },
    {
      "epoch": 1174.31,
      "learning_rate": 1.878201578739663e-07,
      "loss": 0.368,
      "step": 59890
    },
    {
      "epoch": 1174.51,
      "learning_rate": 1.8496479385583797e-07,
      "loss": 0.3702,
      "step": 59900
    },
    {
      "epoch": 1174.71,
      "learning_rate": 1.821312741594444e-07,
      "loss": 0.3686,
      "step": 59910
    },
    {
      "epoch": 1174.9,
      "learning_rate": 1.7931959961213215e-07,
      "loss": 0.3723,
      "step": 59920
    },
    {
      "epoch": 1175.0,
      "eval_loss": 0.3712206780910492,
      "eval_runtime": 2.2517,
      "eval_samples_per_second": 1012.146,
      "eval_steps_per_second": 3.997,
      "step": 59925
    },
    {
      "epoch": 1175.1,
      "learning_rate": 1.765297710348196e-07,
      "loss": 0.3677,
      "step": 59930
    },
    {
      "epoch": 1175.29,
      "learning_rate": 1.7376178924209673e-07,
      "loss": 0.3676,
      "step": 59940
    },
    {
      "epoch": 1175.49,
      "learning_rate": 1.710156550421421e-07,
      "loss": 0.3669,
      "step": 59950
    },
    {
      "epoch": 1175.69,
      "learning_rate": 1.6829136923677268e-07,
      "loss": 0.3649,
      "step": 59960
    },
    {
      "epoch": 1175.88,
      "learning_rate": 1.6558893262141048e-07,
      "loss": 0.3674,
      "step": 59970
    },
    {
      "epoch": 1176.0,
      "eval_loss": 0.37456443905830383,
      "eval_runtime": 2.291,
      "eval_samples_per_second": 994.763,
      "eval_steps_per_second": 3.928,
      "step": 59976
    },
    {
      "epoch": 1176.08,
      "learning_rate": 1.629083459851077e-07,
      "loss": 0.3682,
      "step": 59980
    },
    {
      "epoch": 1176.27,
      "learning_rate": 1.602496101105466e-07,
      "loss": 0.3701,
      "step": 59990
    },
    {
      "epoch": 1176.47,
      "learning_rate": 1.576127257740062e-07,
      "loss": 0.3719,
      "step": 60000
    },
    {
      "epoch": 1176.67,
      "learning_rate": 1.5499769374540394e-07,
      "loss": 0.3672,
      "step": 60010
    },
    {
      "epoch": 1176.86,
      "learning_rate": 1.5240451478826244e-07,
      "loss": 0.365,
      "step": 60020
    },
    {
      "epoch": 1177.0,
      "eval_loss": 0.37678277492523193,
      "eval_runtime": 2.2264,
      "eval_samples_per_second": 1023.605,
      "eval_steps_per_second": 4.042,
      "step": 60027
    },
    {
      "epoch": 1177.06,
      "learning_rate": 1.4983318965974267e-07,
      "loss": 0.3681,
      "step": 60030
    },
    {
      "epoch": 1177.25,
      "learning_rate": 1.4728371911061909e-07,
      "loss": 0.3704,
      "step": 60040
    },
    {
      "epoch": 1177.45,
      "learning_rate": 1.4475610388526294e-07,
      "loss": 0.3682,
      "step": 60050
    },
    {
      "epoch": 1177.65,
      "learning_rate": 1.4225034472169216e-07,
      "loss": 0.3694,
      "step": 60060
    },
    {
      "epoch": 1177.84,
      "learning_rate": 1.3976644235153823e-07,
      "loss": 0.3725,
      "step": 60070
    },
    {
      "epoch": 1178.0,
      "eval_loss": 0.3759779632091522,
      "eval_runtime": 2.316,
      "eval_samples_per_second": 984.038,
      "eval_steps_per_second": 3.886,
      "step": 60078
    },
    {
      "epoch": 1178.04,
      "learning_rate": 1.373043975000293e-07,
      "loss": 0.3739,
      "step": 60080
    },
    {
      "epoch": 1178.24,
      "learning_rate": 1.3486421088604038e-07,
      "loss": 0.3693,
      "step": 60090
    },
    {
      "epoch": 1178.43,
      "learning_rate": 1.324458832220432e-07,
      "loss": 0.3683,
      "step": 60100
    },
    {
      "epoch": 1178.63,
      "learning_rate": 1.300494152141396e-07,
      "loss": 0.3689,
      "step": 60110
    },
    {
      "epoch": 1178.82,
      "learning_rate": 1.2767480756205318e-07,
      "loss": 0.3679,
      "step": 60120
    },
    {
      "epoch": 1179.0,
      "eval_loss": 0.37421050667762756,
      "eval_runtime": 2.2922,
      "eval_samples_per_second": 994.254,
      "eval_steps_per_second": 3.926,
      "step": 60129
    },
    {
      "epoch": 1179.02,
      "learning_rate": 1.2532206095909604e-07,
      "loss": 0.3686,
      "step": 60130
    },
    {
      "epoch": 1179.22,
      "learning_rate": 1.229911760922353e-07,
      "loss": 0.3644,
      "step": 60140
    },
    {
      "epoch": 1179.41,
      "learning_rate": 1.2068215364203493e-07,
      "loss": 0.3666,
      "step": 60150
    },
    {
      "epoch": 1179.61,
      "learning_rate": 1.183949942826723e-07,
      "loss": 0.3658,
      "step": 60160
    },
    {
      "epoch": 1179.8,
      "learning_rate": 1.1612969868195488e-07,
      "loss": 0.3681,
      "step": 60170
    },
    {
      "epoch": 1180.0,
      "learning_rate": 1.1388626750128693e-07,
      "loss": 0.3707,
      "step": 60180
    },
    {
      "epoch": 1180.0,
      "eval_loss": 0.37527692317962646,
      "eval_runtime": 2.3791,
      "eval_samples_per_second": 957.916,
      "eval_steps_per_second": 3.783,
      "step": 60180
    },
    {
      "epoch": 1180.2,
      "learning_rate": 1.1166470139570282e-07,
      "loss": 0.3689,
      "step": 60190
    },
    {
      "epoch": 1180.39,
      "learning_rate": 1.0946500101385869e-07,
      "loss": 0.3663,
      "step": 60200
    },
    {
      "epoch": 1180.59,
      "learning_rate": 1.0728716699801576e-07,
      "loss": 0.366,
      "step": 60210
    },
    {
      "epoch": 1180.78,
      "learning_rate": 1.0513119998404873e-07,
      "loss": 0.3691,
      "step": 60220
    },
    {
      "epoch": 1180.98,
      "learning_rate": 1.0299710060144572e-07,
      "loss": 0.3698,
      "step": 60230
    },
    {
      "epoch": 1181.0,
      "eval_loss": 0.373009592294693,
      "eval_runtime": 2.3903,
      "eval_samples_per_second": 953.454,
      "eval_steps_per_second": 3.765,
      "step": 60231
    },
    {
      "epoch": 1181.18,
      "learning_rate": 1.008848694733333e-07,
      "loss": 0.3702,
      "step": 60240
    },
    {
      "epoch": 1181.37,
      "learning_rate": 9.879450721642645e-08,
      "loss": 0.3721,
      "step": 60250
    },
    {
      "epoch": 1181.57,
      "learning_rate": 9.672601444106198e-08,
      "loss": 0.3669,
      "step": 60260
    },
    {
      "epoch": 1181.76,
      "learning_rate": 9.467939175119843e-08,
      "loss": 0.3679,
      "step": 60270
    },
    {
      "epoch": 1181.96,
      "learning_rate": 9.265463974439947e-08,
      "loss": 0.3697,
      "step": 60280
    },
    {
      "epoch": 1182.0,
      "eval_loss": 0.3748382329940796,
      "eval_runtime": 2.359,
      "eval_samples_per_second": 966.069,
      "eval_steps_per_second": 3.815,
      "step": 60282
    },
    {
      "epoch": 1182.16,
      "learning_rate": 9.065175901185052e-08,
      "loss": 0.3702,
      "step": 60290
    },
    {
      "epoch": 1182.35,
      "learning_rate": 8.867075013834213e-08,
      "loss": 0.3686,
      "step": 60300
    },
    {
      "epoch": 1182.55,
      "learning_rate": 8.671161370229496e-08,
      "loss": 0.3706,
      "step": 60310
    },
    {
      "epoch": 1182.75,
      "learning_rate": 8.477435027572643e-08,
      "loss": 0.373,
      "step": 60320
    },
    {
      "epoch": 1182.94,
      "learning_rate": 8.285896042427576e-08,
      "loss": 0.368,
      "step": 60330
    },
    {
      "epoch": 1183.0,
      "eval_loss": 0.37221765518188477,
      "eval_runtime": 2.3579,
      "eval_samples_per_second": 966.524,
      "eval_steps_per_second": 3.817,
      "step": 60333
    },
    {
      "epoch": 1183.14,
      "learning_rate": 8.096544470719557e-08,
      "loss": 0.37,
      "step": 60340
    },
    {
      "epoch": 1183.33,
      "learning_rate": 7.909380367735197e-08,
      "loss": 0.3684,
      "step": 60350
    },
    {
      "epoch": 1183.53,
      "learning_rate": 7.724403788121614e-08,
      "loss": 0.3696,
      "step": 60360
    },
    {
      "epoch": 1183.73,
      "learning_rate": 7.541614785888105e-08,
      "loss": 0.3703,
      "step": 60370
    },
    {
      "epoch": 1183.92,
      "learning_rate": 7.361013414405315e-08,
      "loss": 0.3689,
      "step": 60380
    },
    {
      "epoch": 1184.0,
      "eval_loss": 0.3724251091480255,
      "eval_runtime": 2.2633,
      "eval_samples_per_second": 1006.959,
      "eval_steps_per_second": 3.977,
      "step": 60384
    },
    {
      "epoch": 1184.12,
      "learning_rate": 7.182599726404393e-08,
      "loss": 0.3701,
      "step": 60390
    },
    {
      "epoch": 1184.31,
      "learning_rate": 7.006373773977836e-08,
      "loss": 0.3723,
      "step": 60400
    },
    {
      "epoch": 1184.51,
      "learning_rate": 6.832335608581152e-08,
      "loss": 0.3658,
      "step": 60410
    },
    {
      "epoch": 1184.71,
      "learning_rate": 6.660485281027861e-08,
      "loss": 0.3747,
      "step": 60420
    },
    {
      "epoch": 1184.9,
      "learning_rate": 6.490822841495324e-08,
      "loss": 0.3667,
      "step": 60430
    },
    {
      "epoch": 1185.0,
      "eval_loss": 0.3731216490268707,
      "eval_runtime": 2.4824,
      "eval_samples_per_second": 918.05,
      "eval_steps_per_second": 3.625,
      "step": 60435
    },
    {
      "epoch": 1185.1,
      "learning_rate": 6.323348339521416e-08,
      "loss": 0.366,
      "step": 60440
    },
    {
      "epoch": 1185.29,
      "learning_rate": 6.15806182400369e-08,
      "loss": 0.3657,
      "step": 60450
    },
    {
      "epoch": 1185.49,
      "learning_rate": 5.99496334320354e-08,
      "loss": 0.3673,
      "step": 60460
    },
    {
      "epoch": 1185.69,
      "learning_rate": 5.8340529447420403e-08,
      "loss": 0.3743,
      "step": 60470
    },
    {
      "epoch": 1185.88,
      "learning_rate": 5.675330675600775e-08,
      "loss": 0.3708,
      "step": 60480
    },
    {
      "epoch": 1186.0,
      "eval_loss": 0.3785109519958496,
      "eval_runtime": 2.3042,
      "eval_samples_per_second": 989.051,
      "eval_steps_per_second": 3.906,
      "step": 60486
    },
    {
      "epoch": 1186.08,
      "learning_rate": 5.5187965821226755e-08,
      "loss": 0.3672,
      "step": 60490
    },
    {
      "epoch": 1186.27,
      "learning_rate": 5.3644507100128466e-08,
      "loss": 0.3723,
      "step": 60500
    },
    {
      "epoch": 1186.47,
      "learning_rate": 5.212293104337739e-08,
      "loss": 0.3683,
      "step": 60510
    },
    {
      "epoch": 1186.67,
      "learning_rate": 5.062323809522651e-08,
      "loss": 0.3655,
      "step": 60520
    },
    {
      "epoch": 1186.86,
      "learning_rate": 4.9145428693550536e-08,
      "loss": 0.3684,
      "step": 60530
    },
    {
      "epoch": 1187.0,
      "eval_loss": 0.3754968047142029,
      "eval_runtime": 2.2349,
      "eval_samples_per_second": 1019.716,
      "eval_steps_per_second": 4.027,
      "step": 60537
    },
    {
      "epoch": 1187.06,
      "learning_rate": 4.7689503269846e-08,
      "loss": 0.3687,
      "step": 60540
    },
    {
      "epoch": 1187.25,
      "learning_rate": 4.6255462249214505e-08,
      "loss": 0.3706,
      "step": 60550
    },
    {
      "epoch": 1187.45,
      "learning_rate": 4.484330605034614e-08,
      "loss": 0.3703,
      "step": 60560
    },
    {
      "epoch": 1187.65,
      "learning_rate": 4.345303508557774e-08,
      "loss": 0.3698,
      "step": 60570
    },
    {
      "epoch": 1187.84,
      "learning_rate": 4.208464976082626e-08,
      "loss": 0.3701,
      "step": 60580
    },
    {
      "epoch": 1188.0,
      "eval_loss": 0.3774392902851105,
      "eval_runtime": 2.3768,
      "eval_samples_per_second": 958.862,
      "eval_steps_per_second": 3.787,
      "step": 60588
    },
    {
      "epoch": 1188.04,
      "learning_rate": 4.073815047563878e-08,
      "loss": 0.3723,
      "step": 60590
    },
    {
      "epoch": 1188.24,
      "learning_rate": 3.94135376231508e-08,
      "loss": 0.3624,
      "step": 60600
    },
    {
      "epoch": 1188.43,
      "learning_rate": 3.811081159013629e-08,
      "loss": 0.3694,
      "step": 60610
    },
    {
      "epoch": 1188.63,
      "learning_rate": 3.6829972756941e-08,
      "loss": 0.3766,
      "step": 60620
    },
    {
      "epoch": 1188.82,
      "learning_rate": 3.5571021497557415e-08,
      "loss": 0.3685,
      "step": 60630
    },
    {
      "epoch": 1189.0,
      "eval_loss": 0.3732983469963074,
      "eval_runtime": 2.243,
      "eval_samples_per_second": 1016.052,
      "eval_steps_per_second": 4.012,
      "step": 60639
    },
    {
      "epoch": 1189.02,
      "learning_rate": 3.4333958179566526e-08,
      "loss": 0.3683,
      "step": 60640
    },
    {
      "epoch": 1189.22,
      "learning_rate": 3.311878316416272e-08,
      "loss": 0.3726,
      "step": 60650
    },
    {
      "epoch": 1189.41,
      "learning_rate": 3.192549680615386e-08,
      "loss": 0.3681,
      "step": 60660
    },
    {
      "epoch": 1189.61,
      "learning_rate": 3.075409945394458e-08,
      "loss": 0.3716,
      "step": 60670
    },
    {
      "epoch": 1189.8,
      "learning_rate": 2.9604591449569614e-08,
      "loss": 0.3659,
      "step": 60680
    },
    {
      "epoch": 1190.0,
      "learning_rate": 2.8476973128643832e-08,
      "loss": 0.37,
      "step": 60690
    },
    {
      "epoch": 1190.0,
      "eval_loss": 0.3773120641708374,
      "eval_runtime": 2.3368,
      "eval_samples_per_second": 975.255,
      "eval_steps_per_second": 3.851,
      "step": 60690
    },
    {
      "epoch": 1190.2,
      "learning_rate": 2.7371244820420524e-08,
      "loss": 0.3676,
      "step": 60700
    },
    {
      "epoch": 1190.39,
      "learning_rate": 2.6287406847733115e-08,
      "loss": 0.3668,
      "step": 60710
    },
    {
      "epoch": 1190.59,
      "learning_rate": 2.522545952705346e-08,
      "loss": 0.3667,
      "step": 60720
    },
    {
      "epoch": 1190.78,
      "learning_rate": 2.4185403168441863e-08,
      "loss": 0.372,
      "step": 60730
    },
    {
      "epoch": 1190.98,
      "learning_rate": 2.3167238075563754e-08,
      "loss": 0.372,
      "step": 60740
    },
    {
      "epoch": 1191.0,
      "eval_loss": 0.37607088685035706,
      "eval_runtime": 2.2766,
      "eval_samples_per_second": 1001.046,
      "eval_steps_per_second": 3.953,
      "step": 60741
    },
    {
      "epoch": 1191.18,
      "learning_rate": 2.2170964545714653e-08,
      "loss": 0.3716,
      "step": 60750
    },
    {
      "epoch": 1191.37,
      "learning_rate": 2.1196582869770217e-08,
      "loss": 0.3714,
      "step": 60760
    },
    {
      "epoch": 1191.57,
      "learning_rate": 2.0244093332227874e-08,
      "loss": 0.3682,
      "step": 60770
    },
    {
      "epoch": 1191.76,
      "learning_rate": 1.9313496211206813e-08,
      "loss": 0.3675,
      "step": 60780
    },
    {
      "epoch": 1191.96,
      "learning_rate": 1.8404791778414697e-08,
      "loss": 0.3677,
      "step": 60790
    },
    {
      "epoch": 1192.0,
      "eval_loss": 0.37334564328193665,
      "eval_runtime": 2.2903,
      "eval_samples_per_second": 995.079,
      "eval_steps_per_second": 3.93,
      "step": 60792
    },
    {
      "epoch": 1192.16,
      "learning_rate": 1.7517980299172618e-08,
      "loss": 0.3719,
      "step": 60800
    },
    {
      "epoch": 1192.35,
      "learning_rate": 1.6653062032406796e-08,
      "loss": 0.3668,
      "step": 60810
    },
    {
      "epoch": 1192.55,
      "learning_rate": 1.5810037230648553e-08,
      "loss": 0.3675,
      "step": 60820
    },
    {
      "epoch": 1192.75,
      "learning_rate": 1.498890614005932e-08,
      "loss": 0.3713,
      "step": 60830
    },
    {
      "epoch": 1192.94,
      "learning_rate": 1.4189669000380654e-08,
      "loss": 0.367,
      "step": 60840
    },
    {
      "epoch": 1193.0,
      "eval_loss": 0.37703248858451843,
      "eval_runtime": 2.3099,
      "eval_samples_per_second": 986.616,
      "eval_steps_per_second": 3.896,
      "step": 60843
    },
    {
      "epoch": 1193.14,
      "learning_rate": 1.3412326044967559e-08,
      "loss": 0.3731,
      "step": 60850
    },
    {
      "epoch": 1193.33,
      "learning_rate": 1.2656877500796803e-08,
      "loss": 0.3671,
      "step": 60860
    },
    {
      "epoch": 1193.53,
      "learning_rate": 1.192332358843362e-08,
      "loss": 0.3688,
      "step": 60870
    },
    {
      "epoch": 1193.73,
      "learning_rate": 1.1211664522065012e-08,
      "loss": 0.3713,
      "step": 60880
    },
    {
      "epoch": 1193.92,
      "learning_rate": 1.0521900509474768e-08,
      "loss": 0.3641,
      "step": 60890
    },
    {
      "epoch": 1194.0,
      "eval_loss": 0.3731459081172943,
      "eval_runtime": 2.3405,
      "eval_samples_per_second": 973.728,
      "eval_steps_per_second": 3.845,
      "step": 60894
    },
    {
      "epoch": 1194.12,
      "learning_rate": 9.854031752068447e-09,
      "loss": 0.3639,
      "step": 60900
    },
    {
      "epoch": 1194.31,
      "learning_rate": 9.208058444840072e-09,
      "loss": 0.371,
      "step": 60910
    },
    {
      "epoch": 1194.51,
      "learning_rate": 8.583980776397104e-09,
      "loss": 0.3663,
      "step": 60920
    },
    {
      "epoch": 1194.71,
      "learning_rate": 7.981798928968775e-09,
      "loss": 0.3714,
      "step": 60930
    },
    {
      "epoch": 1194.9,
      "learning_rate": 7.401513078364452e-09,
      "loss": 0.3679,
      "step": 60940
    },
    {
      "epoch": 1195.0,
      "eval_loss": 0.37386608123779297,
      "eval_runtime": 2.2252,
      "eval_samples_per_second": 1024.179,
      "eval_steps_per_second": 4.045,
      "step": 60945
    },
    {
      "epoch": 1195.1,
      "learning_rate": 6.843123394023598e-09,
      "loss": 0.3725,
      "step": 60950
    },
    {
      "epoch": 1195.29,
      "learning_rate": 6.306630038982463e-09,
      "loss": 0.3694,
      "step": 60960
    },
    {
      "epoch": 1195.49,
      "learning_rate": 5.792033169882415e-09,
      "loss": 0.3669,
      "step": 60970
    },
    {
      "epoch": 1195.69,
      "learning_rate": 5.299332936969935e-09,
      "loss": 0.3689,
      "step": 60980
    },
    {
      "epoch": 1195.88,
      "learning_rate": 4.8285294841132745e-09,
      "loss": 0.3709,
      "step": 60990
    },
    {
      "epoch": 1196.0,
      "eval_loss": 0.37305885553359985,
      "eval_runtime": 2.3119,
      "eval_samples_per_second": 985.777,
      "eval_steps_per_second": 3.893,
      "step": 60996
    },
    {
      "epoch": 1196.08,
      "learning_rate": 4.3796229487774725e-09,
      "loss": 0.3687,
      "step": 61000
    },
    {
      "epoch": 1196.27,
      "learning_rate": 3.95261346201603e-09,
      "loss": 0.3692,
      "step": 61010
    },
    {
      "epoch": 1196.47,
      "learning_rate": 3.5475011485208703e-09,
      "loss": 0.3659,
      "step": 61020
    },
    {
      "epoch": 1196.67,
      "learning_rate": 3.1642861265723794e-09,
      "loss": 0.3662,
      "step": 61030
    },
    {
      "epoch": 1196.86,
      "learning_rate": 2.802968508064385e-09,
      "loss": 0.3668,
      "step": 61040
    },
    {
      "epoch": 1197.0,
      "eval_loss": 0.37835466861724854,
      "eval_runtime": 2.3758,
      "eval_samples_per_second": 959.262,
      "eval_steps_per_second": 3.788,
      "step": 61047
    },
    {
      "epoch": 1197.06,
      "learning_rate": 2.4635483984875025e-09,
      "loss": 0.3672,
      "step": 61050
    },
    {
      "epoch": 1197.25,
      "learning_rate": 2.146025896945791e-09,
      "loss": 0.3718,
      "step": 61060
    },
    {
      "epoch": 1197.45,
      "learning_rate": 1.8504010961484238e-09,
      "loss": 0.3628,
      "step": 61070
    },
    {
      "epoch": 1197.65,
      "learning_rate": 1.576674082418017e-09,
      "loss": 0.3723,
      "step": 61080
    },
    {
      "epoch": 1197.84,
      "learning_rate": 1.3248449356739743e-09,
      "loss": 0.3678,
      "step": 61090
    },
    {
      "epoch": 1198.0,
      "eval_loss": 0.37536975741386414,
      "eval_runtime": 2.2755,
      "eval_samples_per_second": 1001.548,
      "eval_steps_per_second": 3.955,
      "step": 61098
    },
    {
      "epoch": 1198.04,
      "learning_rate": 1.0949137294324895e-09,
      "loss": 0.365,
      "step": 61100
    },
    {
      "epoch": 1198.24,
      "learning_rate": 8.868805308481775e-10,
      "loss": 0.3705,
      "step": 61110
    },
    {
      "epoch": 1198.43,
      "learning_rate": 7.007454006474623e-10,
      "loss": 0.3716,
      "step": 61120
    },
    {
      "epoch": 1198.63,
      "learning_rate": 5.365083931785363e-10,
      "loss": 0.3701,
      "step": 61130
    },
    {
      "epoch": 1198.82,
      "learning_rate": 3.9416955640303447e-10,
      "loss": 0.3642,
      "step": 61140
    },
    {
      "epoch": 1199.0,
      "eval_loss": 0.3795470595359802,
      "eval_runtime": 2.3862,
      "eval_samples_per_second": 955.076,
      "eval_steps_per_second": 3.772,
      "step": 61149
    },
    {
      "epoch": 1199.02,
      "learning_rate": 2.7372893187938003e-10,
      "loss": 0.3652,
      "step": 61150
    },
    {
      "epoch": 1199.22,
      "learning_rate": 1.751865547627851e-10,
      "loss": 0.3687,
      "step": 61160
    },
    {
      "epoch": 1199.41,
      "learning_rate": 9.854245383855708e-11,
      "loss": 0.3639,
      "step": 61170
    },
    {
      "epoch": 1199.61,
      "learning_rate": 4.379665148046552e-11,
      "loss": 0.3695,
      "step": 61180
    },
    {
      "epoch": 1199.8,
      "learning_rate": 1.0949163667395289e-11,
      "loss": 0.3652,
      "step": 61190
    },
    {
      "epoch": 1200.0,
      "learning_rate": 0.0,
      "loss": 0.3717,
      "step": 61200
    },
    {
      "epoch": 1200.0,
      "eval_loss": 0.3766399323940277,
      "eval_runtime": 2.4193,
      "eval_samples_per_second": 942.017,
      "eval_steps_per_second": 3.72,
      "step": 61200
    },
    {
      "epoch": 1200.0,
      "step": 61200,
      "total_flos": 1.6045884532435452e+21,
      "train_loss": 0.47761312031667996,
      "train_runtime": 27118.5193,
      "train_samples_per_second": 571.314,
      "train_steps_per_second": 2.257
    }
  ],
  "max_steps": 61200,
  "num_train_epochs": 1200,
  "total_flos": 1.6045884532435452e+21,
  "trial_name": null,
  "trial_params": null
}