{
  "best_metric": 0.40509888529777527,
  "best_model_checkpoint": "mikhail_panzo/ceb_b128_le3_s4000/checkpoint-500",
  "epoch": 277.2277227722772,
  "eval_steps": 500,
  "global_step": 3500,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 3.9603960396039604,
      "grad_norm": 1.6000345945358276,
      "learning_rate": 2.5e-05,
      "loss": 0.7102,
      "step": 50
    },
    {
      "epoch": 7.920792079207921,
      "grad_norm": 1.240767478942871,
      "learning_rate": 5e-05,
      "loss": 0.5129,
      "step": 100
    },
    {
      "epoch": 11.881188118811881,
      "grad_norm": 2.545292377471924,
      "learning_rate": 7.5e-05,
      "loss": 0.4701,
      "step": 150
    },
    {
      "epoch": 15.841584158415841,
      "grad_norm": 3.054067611694336,
      "learning_rate": 0.0001,
      "loss": 0.4502,
      "step": 200
    },
    {
      "epoch": 19.801980198019802,
      "grad_norm": 3.884960889816284,
      "learning_rate": 0.000125,
      "loss": 0.4433,
      "step": 250
    },
    {
      "epoch": 23.762376237623762,
      "grad_norm": 2.102992296218872,
      "learning_rate": 0.00015,
      "loss": 0.4361,
      "step": 300
    },
    {
      "epoch": 27.722772277227723,
      "grad_norm": 3.1947975158691406,
      "learning_rate": 0.000175,
      "loss": 0.4335,
      "step": 350
    },
    {
      "epoch": 31.683168316831683,
      "grad_norm": 4.315099716186523,
      "learning_rate": 0.0002,
      "loss": 0.4322,
      "step": 400
    },
    {
      "epoch": 35.64356435643565,
      "grad_norm": 6.909496784210205,
      "learning_rate": 0.00022500000000000002,
      "loss": 0.4346,
      "step": 450
    },
    {
      "epoch": 39.603960396039604,
      "grad_norm": 2.0800621509552,
      "learning_rate": 0.00025,
      "loss": 0.42,
      "step": 500
    },
    {
      "epoch": 39.603960396039604,
      "eval_loss": 0.40509888529777527,
      "eval_runtime": 8.3422,
      "eval_samples_per_second": 21.577,
      "eval_steps_per_second": 2.757,
      "step": 500
    },
    {
      "epoch": 43.56435643564357,
      "grad_norm": 5.034981727600098,
      "learning_rate": 0.000275,
      "loss": 0.4336,
      "step": 550
    },
    {
      "epoch": 47.524752475247524,
      "grad_norm": 6.329326152801514,
      "learning_rate": 0.0003,
      "loss": 0.4265,
      "step": 600
    },
    {
      "epoch": 51.48514851485149,
      "grad_norm": 2.624539852142334,
      "learning_rate": 0.00032500000000000004,
      "loss": 0.4249,
      "step": 650
    },
    {
      "epoch": 55.445544554455445,
      "grad_norm": 1.945346474647522,
      "learning_rate": 0.00035,
      "loss": 0.4155,
      "step": 700
    },
    {
      "epoch": 59.40594059405941,
      "grad_norm": 3.682614326477051,
      "learning_rate": 0.000375,
      "loss": 0.4117,
      "step": 750
    },
    {
      "epoch": 63.366336633663366,
      "grad_norm": 1.726725459098816,
      "learning_rate": 0.0004,
      "loss": 0.4139,
      "step": 800
    },
    {
      "epoch": 67.32673267326733,
      "grad_norm": 1.665935754776001,
      "learning_rate": 0.000425,
      "loss": 0.4138,
      "step": 850
    },
    {
      "epoch": 71.2871287128713,
      "grad_norm": 2.6523916721343994,
      "learning_rate": 0.00045000000000000004,
      "loss": 0.4098,
      "step": 900
    },
    {
      "epoch": 75.24752475247524,
      "grad_norm": 4.059382915496826,
      "learning_rate": 0.000475,
      "loss": 0.4075,
      "step": 950
    },
    {
      "epoch": 79.20792079207921,
      "grad_norm": 4.141351222991943,
      "learning_rate": 0.0005,
      "loss": 0.4187,
      "step": 1000
    },
    {
      "epoch": 79.20792079207921,
      "eval_loss": 0.44087010622024536,
      "eval_runtime": 7.9097,
      "eval_samples_per_second": 22.757,
      "eval_steps_per_second": 2.908,
      "step": 1000
    },
    {
      "epoch": 83.16831683168317,
      "grad_norm": 4.268443584442139,
      "learning_rate": 0.0005250000000000001,
      "loss": 0.4233,
      "step": 1050
    },
    {
      "epoch": 87.12871287128714,
      "grad_norm": 2.5200088024139404,
      "learning_rate": 0.00055,
      "loss": 0.4165,
      "step": 1100
    },
    {
      "epoch": 91.08910891089108,
      "grad_norm": 1.1965175867080688,
      "learning_rate": 0.000575,
      "loss": 0.4131,
      "step": 1150
    },
    {
      "epoch": 95.04950495049505,
      "grad_norm": 5.397756099700928,
      "learning_rate": 0.0006,
      "loss": 0.4209,
      "step": 1200
    },
    {
      "epoch": 99.00990099009901,
      "grad_norm": 4.361856460571289,
      "learning_rate": 0.000625,
      "loss": 0.4289,
      "step": 1250
    },
    {
      "epoch": 102.97029702970298,
      "grad_norm": 8.962231636047363,
      "learning_rate": 0.0006500000000000001,
      "loss": 0.4418,
      "step": 1300
    },
    {
      "epoch": 106.93069306930693,
      "grad_norm": 5.27103328704834,
      "learning_rate": 0.000675,
      "loss": 0.4297,
      "step": 1350
    },
    {
      "epoch": 110.89108910891089,
      "grad_norm": 5.550845623016357,
      "learning_rate": 0.0007,
      "loss": 0.4394,
      "step": 1400
    },
    {
      "epoch": 114.85148514851485,
      "grad_norm": 1.9186675548553467,
      "learning_rate": 0.000725,
      "loss": 0.436,
      "step": 1450
    },
    {
      "epoch": 118.81188118811882,
      "grad_norm": 2.9912400245666504,
      "learning_rate": 0.00075,
      "loss": 0.4401,
      "step": 1500
    },
    {
      "epoch": 118.81188118811882,
      "eval_loss": 0.4779699444770813,
      "eval_runtime": 7.8042,
      "eval_samples_per_second": 23.065,
      "eval_steps_per_second": 2.947,
      "step": 1500
    },
    {
      "epoch": 122.77227722772277,
      "grad_norm": 2.4975500106811523,
      "learning_rate": 0.0007750000000000001,
      "loss": 0.4325,
      "step": 1550
    },
    {
      "epoch": 126.73267326732673,
      "grad_norm": 4.072780609130859,
      "learning_rate": 0.0008,
      "loss": 0.4258,
      "step": 1600
    },
    {
      "epoch": 130.69306930693068,
      "grad_norm": 8.71650218963623,
      "learning_rate": 0.000825,
      "loss": 0.427,
      "step": 1650
    },
    {
      "epoch": 134.65346534653466,
      "grad_norm": 3.707995653152466,
      "learning_rate": 0.00085,
      "loss": 0.4227,
      "step": 1700
    },
    {
      "epoch": 138.6138613861386,
      "grad_norm": 1.5397919416427612,
      "learning_rate": 0.000875,
      "loss": 0.4194,
      "step": 1750
    },
    {
      "epoch": 142.5742574257426,
      "grad_norm": 3.601444959640503,
      "learning_rate": 0.0009000000000000001,
      "loss": 0.4234,
      "step": 1800
    },
    {
      "epoch": 146.53465346534654,
      "grad_norm": 4.232907772064209,
      "learning_rate": 0.000925,
      "loss": 0.4276,
      "step": 1850
    },
    {
      "epoch": 150.4950495049505,
      "grad_norm": 8.078680038452148,
      "learning_rate": 0.00095,
      "loss": 0.4453,
      "step": 1900
    },
    {
      "epoch": 154.45544554455446,
      "grad_norm": 1.406493067741394,
      "learning_rate": 0.000975,
      "loss": 0.4428,
      "step": 1950
    },
    {
      "epoch": 158.41584158415841,
      "grad_norm": 3.9557948112487793,
      "learning_rate": 0.001,
      "loss": 0.4456,
      "step": 2000
    },
    {
      "epoch": 158.41584158415841,
      "eval_loss": 0.4567292630672455,
      "eval_runtime": 8.3256,
      "eval_samples_per_second": 21.62,
      "eval_steps_per_second": 2.763,
      "step": 2000
    },
    {
      "epoch": 162.37623762376236,
      "grad_norm": 1.2412426471710205,
      "learning_rate": 0.000975,
      "loss": 0.4309,
      "step": 2050
    },
    {
      "epoch": 166.33663366336634,
      "grad_norm": 2.759005069732666,
      "learning_rate": 0.00095,
      "loss": 0.4229,
      "step": 2100
    },
    {
      "epoch": 170.2970297029703,
      "grad_norm": 1.9666180610656738,
      "learning_rate": 0.000925,
      "loss": 0.4326,
      "step": 2150
    },
    {
      "epoch": 174.25742574257427,
      "grad_norm": 2.397604465484619,
      "learning_rate": 0.0009000000000000001,
      "loss": 0.435,
      "step": 2200
    },
    {
      "epoch": 178.21782178217822,
      "grad_norm": 0.8311312198638916,
      "learning_rate": 0.000875,
      "loss": 0.4514,
      "step": 2250
    },
    {
      "epoch": 182.17821782178217,
      "grad_norm": 1.0605016946792603,
      "learning_rate": 0.00085,
      "loss": 0.4318,
      "step": 2300
    },
    {
      "epoch": 186.13861386138615,
      "grad_norm": 4.460992813110352,
      "learning_rate": 0.000825,
      "loss": 0.4175,
      "step": 2350
    },
    {
      "epoch": 190.0990099009901,
      "grad_norm": 1.9337185621261597,
      "learning_rate": 0.0008,
      "loss": 0.4119,
      "step": 2400
    },
    {
      "epoch": 194.05940594059405,
      "grad_norm": 3.334519624710083,
      "learning_rate": 0.0007750000000000001,
      "loss": 0.4074,
      "step": 2450
    },
    {
      "epoch": 198.01980198019803,
      "grad_norm": 1.8377976417541504,
      "learning_rate": 0.00075,
      "loss": 0.4221,
      "step": 2500
    },
    {
      "epoch": 198.01980198019803,
      "eval_loss": 0.4531227648258209,
      "eval_runtime": 8.0586,
      "eval_samples_per_second": 22.336,
      "eval_steps_per_second": 2.854,
      "step": 2500
    },
    {
      "epoch": 201.98019801980197,
      "grad_norm": 4.119373798370361,
      "learning_rate": 0.000725,
      "loss": 0.3957,
      "step": 2550
    },
    {
      "epoch": 205.94059405940595,
      "grad_norm": 1.5359861850738525,
      "learning_rate": 0.0007,
      "loss": 0.3932,
      "step": 2600
    },
    {
      "epoch": 209.9009900990099,
      "grad_norm": 1.9072787761688232,
      "learning_rate": 0.000675,
      "loss": 0.3771,
      "step": 2650
    },
    {
      "epoch": 213.86138613861385,
      "grad_norm": 1.0733487606048584,
      "learning_rate": 0.0006500000000000001,
      "loss": 0.382,
      "step": 2700
    },
    {
      "epoch": 217.82178217821783,
      "grad_norm": 2.296584367752075,
      "learning_rate": 0.000625,
      "loss": 0.3757,
      "step": 2750
    },
    {
      "epoch": 221.78217821782178,
      "grad_norm": 2.115774631500244,
      "learning_rate": 0.0006,
      "loss": 0.3688,
      "step": 2800
    },
    {
      "epoch": 225.74257425742573,
      "grad_norm": 0.9828720092773438,
      "learning_rate": 0.000575,
      "loss": 0.3722,
      "step": 2850
    },
    {
      "epoch": 229.7029702970297,
      "grad_norm": 0.9079552292823792,
      "learning_rate": 0.00055,
      "loss": 0.3634,
      "step": 2900
    },
    {
      "epoch": 233.66336633663366,
      "grad_norm": 1.3151072263717651,
      "learning_rate": 0.0005250000000000001,
      "loss": 0.3629,
      "step": 2950
    },
    {
      "epoch": 237.62376237623764,
      "grad_norm": 2.782442569732666,
      "learning_rate": 0.0005,
      "loss": 0.3571,
      "step": 3000
    },
    {
      "epoch": 237.62376237623764,
      "eval_loss": 0.45037713646888733,
      "eval_runtime": 7.9501,
      "eval_samples_per_second": 22.641,
      "eval_steps_per_second": 2.893,
      "step": 3000
    },
    {
      "epoch": 241.58415841584159,
      "grad_norm": 1.2692878246307373,
      "learning_rate": 0.000475,
      "loss": 0.3511,
      "step": 3050
    },
    {
      "epoch": 245.54455445544554,
      "grad_norm": 0.7315109968185425,
      "learning_rate": 0.00045000000000000004,
      "loss": 0.3511,
      "step": 3100
    },
    {
      "epoch": 249.5049504950495,
      "grad_norm": 1.535546898841858,
      "learning_rate": 0.000425,
      "loss": 0.3493,
      "step": 3150
    },
    {
      "epoch": 253.46534653465346,
      "grad_norm": 1.0817515850067139,
      "learning_rate": 0.0004,
      "loss": 0.3425,
      "step": 3200
    },
    {
      "epoch": 257.4257425742574,
      "grad_norm": 1.6470928192138672,
      "learning_rate": 0.000375,
      "loss": 0.3447,
      "step": 3250
    },
    {
      "epoch": 261.38613861386136,
      "grad_norm": 0.7450535297393799,
      "learning_rate": 0.00035,
      "loss": 0.3445,
      "step": 3300
    },
    {
      "epoch": 265.34653465346537,
      "grad_norm": 0.8574093580245972,
      "learning_rate": 0.00032500000000000004,
      "loss": 0.339,
      "step": 3350
    },
    {
      "epoch": 269.3069306930693,
      "grad_norm": 1.576284408569336,
      "learning_rate": 0.0003,
      "loss": 0.3353,
      "step": 3400
    },
    {
      "epoch": 273.26732673267327,
      "grad_norm": 0.4492374360561371,
      "learning_rate": 0.000275,
      "loss": 0.3329,
      "step": 3450
    },
    {
      "epoch": 277.2277227722772,
      "grad_norm": 0.6939440965652466,
      "learning_rate": 0.00025,
      "loss": 0.3287,
      "step": 3500
    },
    {
      "epoch": 277.2277227722772,
      "eval_loss": 0.44081956148147583,
      "eval_runtime": 7.9367,
      "eval_samples_per_second": 22.679,
      "eval_steps_per_second": 2.898,
      "step": 3500
    }
  ],
  "logging_steps": 50,
  "max_steps": 4000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 334,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 7.563870212869475e+16,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}