{
  "best_metric": 0.3955015242099762,
  "best_model_checkpoint": "mikhail_panzo/ceb_b32_le5_s4000/checkpoint-4000",
  "epoch": 79.20792079207921,
  "eval_steps": 500,
  "global_step": 4000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.9900990099009901,
      "grad_norm": 3.1428182125091553,
      "learning_rate": 2.4500000000000004e-07,
      "loss": 0.8014,
      "step": 50
    },
    {
      "epoch": 1.9801980198019802,
      "grad_norm": 3.3414266109466553,
      "learning_rate": 4.95e-07,
      "loss": 0.7901,
      "step": 100
    },
    {
      "epoch": 2.9702970297029703,
      "grad_norm": 1.999716877937317,
      "learning_rate": 7.450000000000001e-07,
      "loss": 0.7379,
      "step": 150
    },
    {
      "epoch": 3.9603960396039604,
      "grad_norm": 1.7351456880569458,
      "learning_rate": 9.950000000000002e-07,
      "loss": 0.7468,
      "step": 200
    },
    {
      "epoch": 4.9504950495049505,
      "grad_norm": 1.7593154907226562,
      "learning_rate": 1.2450000000000002e-06,
      "loss": 0.7136,
      "step": 250
    },
    {
      "epoch": 5.9405940594059405,
      "grad_norm": 1.7817474603652954,
      "learning_rate": 1.495e-06,
      "loss": 0.7012,
      "step": 300
    },
    {
      "epoch": 6.930693069306931,
      "grad_norm": 1.6635379791259766,
      "learning_rate": 1.745e-06,
      "loss": 0.672,
      "step": 350
    },
    {
      "epoch": 7.920792079207921,
      "grad_norm": 2.7295265197753906,
      "learning_rate": 1.9950000000000004e-06,
      "loss": 0.6494,
      "step": 400
    },
    {
      "epoch": 8.910891089108912,
      "grad_norm": 2.0120842456817627,
      "learning_rate": 2.245e-06,
      "loss": 0.6149,
      "step": 450
    },
    {
      "epoch": 9.900990099009901,
      "grad_norm": 2.292971611022949,
      "learning_rate": 2.4950000000000003e-06,
      "loss": 0.5656,
      "step": 500
    },
    {
      "epoch": 9.900990099009901,
      "eval_loss": 0.47625085711479187,
      "eval_runtime": 6.2849,
      "eval_samples_per_second": 28.64,
      "eval_steps_per_second": 3.66,
      "step": 500
    },
    {
      "epoch": 10.891089108910892,
      "grad_norm": 2.481250047683716,
      "learning_rate": 2.7450000000000004e-06,
      "loss": 0.5431,
      "step": 550
    },
    {
      "epoch": 11.881188118811881,
      "grad_norm": 1.3659378290176392,
      "learning_rate": 2.995e-06,
      "loss": 0.5216,
      "step": 600
    },
    {
      "epoch": 12.871287128712872,
      "grad_norm": 1.914194107055664,
      "learning_rate": 3.2450000000000003e-06,
      "loss": 0.5135,
      "step": 650
    },
    {
      "epoch": 13.861386138613861,
      "grad_norm": 1.913596272468567,
      "learning_rate": 3.495e-06,
      "loss": 0.4975,
      "step": 700
    },
    {
      "epoch": 14.851485148514852,
      "grad_norm": 1.6545078754425049,
      "learning_rate": 3.745e-06,
      "loss": 0.4991,
      "step": 750
    },
    {
      "epoch": 15.841584158415841,
      "grad_norm": 1.472568154335022,
      "learning_rate": 3.995000000000001e-06,
      "loss": 0.5036,
      "step": 800
    },
    {
      "epoch": 16.831683168316832,
      "grad_norm": 1.282940149307251,
      "learning_rate": 4.245e-06,
      "loss": 0.4997,
      "step": 850
    },
    {
      "epoch": 17.821782178217823,
      "grad_norm": 1.3709443807601929,
      "learning_rate": 4.495e-06,
      "loss": 0.4905,
      "step": 900
    },
    {
      "epoch": 18.81188118811881,
      "grad_norm": 2.4264774322509766,
      "learning_rate": 4.745e-06,
      "loss": 0.4823,
      "step": 950
    },
    {
      "epoch": 19.801980198019802,
      "grad_norm": 1.170018196105957,
      "learning_rate": 4.9950000000000005e-06,
      "loss": 0.4835,
      "step": 1000
    },
    {
      "epoch": 19.801980198019802,
      "eval_loss": 0.43179747462272644,
      "eval_runtime": 6.2686,
      "eval_samples_per_second": 28.715,
      "eval_steps_per_second": 3.669,
      "step": 1000
    },
    {
      "epoch": 20.792079207920793,
      "grad_norm": 1.9265276193618774,
      "learning_rate": 5.245e-06,
      "loss": 0.4782,
      "step": 1050
    },
    {
      "epoch": 21.782178217821784,
      "grad_norm": 1.5557416677474976,
      "learning_rate": 5.495000000000001e-06,
      "loss": 0.4701,
      "step": 1100
    },
    {
      "epoch": 22.77227722772277,
      "grad_norm": 1.1617661714553833,
      "learning_rate": 5.745000000000001e-06,
      "loss": 0.4694,
      "step": 1150
    },
    {
      "epoch": 23.762376237623762,
      "grad_norm": 1.5973703861236572,
      "learning_rate": 5.995000000000001e-06,
      "loss": 0.4749,
      "step": 1200
    },
    {
      "epoch": 24.752475247524753,
      "grad_norm": 1.9262455701828003,
      "learning_rate": 6.245000000000001e-06,
      "loss": 0.4677,
      "step": 1250
    },
    {
      "epoch": 25.742574257425744,
      "grad_norm": 1.4671014547348022,
      "learning_rate": 6.4950000000000005e-06,
      "loss": 0.4778,
      "step": 1300
    },
    {
      "epoch": 26.73267326732673,
      "grad_norm": 1.1883893013000488,
      "learning_rate": 6.745000000000001e-06,
      "loss": 0.4684,
      "step": 1350
    },
    {
      "epoch": 27.722772277227723,
      "grad_norm": 1.14054536819458,
      "learning_rate": 6.995000000000001e-06,
      "loss": 0.4573,
      "step": 1400
    },
    {
      "epoch": 28.712871287128714,
      "grad_norm": 1.0670241117477417,
      "learning_rate": 7.245000000000001e-06,
      "loss": 0.4563,
      "step": 1450
    },
    {
      "epoch": 29.702970297029704,
      "grad_norm": 1.7448914051055908,
      "learning_rate": 7.495000000000001e-06,
      "loss": 0.4607,
      "step": 1500
    },
    {
      "epoch": 29.702970297029704,
      "eval_loss": 0.415966272354126,
      "eval_runtime": 7.3397,
      "eval_samples_per_second": 24.524,
      "eval_steps_per_second": 3.134,
      "step": 1500
    },
    {
      "epoch": 30.693069306930692,
      "grad_norm": 1.5158162117004395,
      "learning_rate": 7.745e-06,
      "loss": 0.4557,
      "step": 1550
    },
    {
      "epoch": 31.683168316831683,
      "grad_norm": 1.2910014390945435,
      "learning_rate": 7.995e-06,
      "loss": 0.4523,
      "step": 1600
    },
    {
      "epoch": 32.67326732673267,
      "grad_norm": 1.7909091711044312,
      "learning_rate": 8.245000000000002e-06,
      "loss": 0.4548,
      "step": 1650
    },
    {
      "epoch": 33.663366336633665,
      "grad_norm": 1.404817819595337,
      "learning_rate": 8.495e-06,
      "loss": 0.4552,
      "step": 1700
    },
    {
      "epoch": 34.65346534653465,
      "grad_norm": 1.7081297636032104,
      "learning_rate": 8.745000000000002e-06,
      "loss": 0.4448,
      "step": 1750
    },
    {
      "epoch": 35.64356435643565,
      "grad_norm": 1.3383510112762451,
      "learning_rate": 8.995000000000001e-06,
      "loss": 0.4521,
      "step": 1800
    },
    {
      "epoch": 36.633663366336634,
      "grad_norm": 1.4748204946517944,
      "learning_rate": 9.245e-06,
      "loss": 0.4532,
      "step": 1850
    },
    {
      "epoch": 37.62376237623762,
      "grad_norm": 1.9006118774414062,
      "learning_rate": 9.495000000000001e-06,
      "loss": 0.4465,
      "step": 1900
    },
    {
      "epoch": 38.613861386138616,
      "grad_norm": 1.5440728664398193,
      "learning_rate": 9.745e-06,
      "loss": 0.4444,
      "step": 1950
    },
    {
      "epoch": 39.603960396039604,
      "grad_norm": 1.2349501848220825,
      "learning_rate": 9.995000000000002e-06,
      "loss": 0.437,
      "step": 2000
    },
    {
      "epoch": 39.603960396039604,
      "eval_loss": 0.4027266204357147,
      "eval_runtime": 6.7425,
      "eval_samples_per_second": 26.696,
      "eval_steps_per_second": 3.411,
      "step": 2000
    },
    {
      "epoch": 40.59405940594059,
      "grad_norm": 2.6878769397735596,
      "learning_rate": 9.755e-06,
      "loss": 0.445,
      "step": 2050
    },
    {
      "epoch": 41.584158415841586,
      "grad_norm": 1.5828524827957153,
      "learning_rate": 9.505000000000001e-06,
      "loss": 0.4364,
      "step": 2100
    },
    {
      "epoch": 42.57425742574257,
      "grad_norm": 1.0605660676956177,
      "learning_rate": 9.255e-06,
      "loss": 0.4428,
      "step": 2150
    },
    {
      "epoch": 43.56435643564357,
      "grad_norm": 1.3071101903915405,
      "learning_rate": 9.005000000000001e-06,
      "loss": 0.4316,
      "step": 2200
    },
    {
      "epoch": 44.554455445544555,
      "grad_norm": 1.5271058082580566,
      "learning_rate": 8.755e-06,
      "loss": 0.4376,
      "step": 2250
    },
    {
      "epoch": 45.54455445544554,
      "grad_norm": 1.986937403678894,
      "learning_rate": 8.505e-06,
      "loss": 0.4358,
      "step": 2300
    },
    {
      "epoch": 46.53465346534654,
      "grad_norm": 1.1640369892120361,
      "learning_rate": 8.255000000000001e-06,
      "loss": 0.4397,
      "step": 2350
    },
    {
      "epoch": 47.524752475247524,
      "grad_norm": 1.4606521129608154,
      "learning_rate": 8.005e-06,
      "loss": 0.4341,
      "step": 2400
    },
    {
      "epoch": 48.51485148514851,
      "grad_norm": 1.4143216609954834,
      "learning_rate": 7.755000000000001e-06,
      "loss": 0.4362,
      "step": 2450
    },
    {
      "epoch": 49.504950495049506,
      "grad_norm": 1.7194327116012573,
      "learning_rate": 7.505e-06,
      "loss": 0.4363,
      "step": 2500
    },
    {
      "epoch": 49.504950495049506,
      "eval_loss": 0.4004199802875519,
      "eval_runtime": 6.729,
      "eval_samples_per_second": 26.75,
      "eval_steps_per_second": 3.418,
      "step": 2500
    },
    {
      "epoch": 50.495049504950494,
      "grad_norm": 2.058311939239502,
      "learning_rate": 7.255000000000001e-06,
      "loss": 0.4321,
      "step": 2550
    },
    {
      "epoch": 51.48514851485149,
      "grad_norm": 1.582553505897522,
      "learning_rate": 7.005000000000001e-06,
      "loss": 0.4266,
      "step": 2600
    },
    {
      "epoch": 52.475247524752476,
      "grad_norm": 1.6363489627838135,
      "learning_rate": 6.7550000000000005e-06,
      "loss": 0.438,
      "step": 2650
    },
    {
      "epoch": 53.46534653465346,
      "grad_norm": 1.509318232536316,
      "learning_rate": 6.505e-06,
      "loss": 0.4297,
      "step": 2700
    },
    {
      "epoch": 54.45544554455446,
      "grad_norm": 1.1596744060516357,
      "learning_rate": 6.255e-06,
      "loss": 0.4299,
      "step": 2750
    },
    {
      "epoch": 55.445544554455445,
      "grad_norm": 1.0131226778030396,
      "learning_rate": 6.005000000000001e-06,
      "loss": 0.4216,
      "step": 2800
    },
    {
      "epoch": 56.43564356435643,
      "grad_norm": 1.2079122066497803,
      "learning_rate": 5.755000000000001e-06,
      "loss": 0.4274,
      "step": 2850
    },
    {
      "epoch": 57.42574257425743,
      "grad_norm": 1.7045202255249023,
      "learning_rate": 5.505000000000001e-06,
      "loss": 0.4266,
      "step": 2900
    },
    {
      "epoch": 58.415841584158414,
      "grad_norm": 2.330631732940674,
      "learning_rate": 5.2550000000000005e-06,
      "loss": 0.4272,
      "step": 2950
    },
    {
      "epoch": 59.40594059405941,
      "grad_norm": 1.2637062072753906,
      "learning_rate": 5.0049999999999995e-06,
      "loss": 0.4248,
      "step": 3000
    },
    {
      "epoch": 59.40594059405941,
      "eval_loss": 0.3979886472225189,
      "eval_runtime": 6.9712,
      "eval_samples_per_second": 25.821,
      "eval_steps_per_second": 3.299,
      "step": 3000
    },
    {
      "epoch": 60.396039603960396,
      "grad_norm": 1.2070516347885132,
      "learning_rate": 4.755e-06,
      "loss": 0.4339,
      "step": 3050
    },
    {
      "epoch": 61.386138613861384,
      "grad_norm": 1.050790548324585,
      "learning_rate": 4.505e-06,
      "loss": 0.4223,
      "step": 3100
    },
    {
      "epoch": 62.37623762376238,
      "grad_norm": 1.0747731924057007,
      "learning_rate": 4.255e-06,
      "loss": 0.4277,
      "step": 3150
    },
    {
      "epoch": 63.366336633663366,
      "grad_norm": 1.7592554092407227,
      "learning_rate": 4.005000000000001e-06,
      "loss": 0.4234,
      "step": 3200
    },
    {
      "epoch": 64.35643564356435,
      "grad_norm": 0.9947736263275146,
      "learning_rate": 3.7550000000000005e-06,
      "loss": 0.4297,
      "step": 3250
    },
    {
      "epoch": 65.34653465346534,
      "grad_norm": 1.4066519737243652,
      "learning_rate": 3.505e-06,
      "loss": 0.4228,
      "step": 3300
    },
    {
      "epoch": 66.33663366336634,
      "grad_norm": 1.2692670822143555,
      "learning_rate": 3.255e-06,
      "loss": 0.4216,
      "step": 3350
    },
    {
      "epoch": 67.32673267326733,
      "grad_norm": 1.1489667892456055,
      "learning_rate": 3.005e-06,
      "loss": 0.4207,
      "step": 3400
    },
    {
      "epoch": 68.31683168316832,
      "grad_norm": 1.1599435806274414,
      "learning_rate": 2.7550000000000003e-06,
      "loss": 0.4225,
      "step": 3450
    },
    {
      "epoch": 69.3069306930693,
      "grad_norm": 1.3135476112365723,
      "learning_rate": 2.505e-06,
      "loss": 0.4228,
      "step": 3500
    },
    {
      "epoch": 69.3069306930693,
      "eval_loss": 0.3965218663215637,
      "eval_runtime": 7.2483,
      "eval_samples_per_second": 24.833,
      "eval_steps_per_second": 3.173,
      "step": 3500
    },
    {
      "epoch": 70.29702970297029,
      "grad_norm": 1.282522439956665,
      "learning_rate": 2.2550000000000004e-06,
      "loss": 0.4161,
      "step": 3550
    },
    {
      "epoch": 71.2871287128713,
      "grad_norm": 1.1820783615112305,
      "learning_rate": 2.0050000000000003e-06,
      "loss": 0.4195,
      "step": 3600
    },
    {
      "epoch": 72.27722772277228,
      "grad_norm": 0.9852460622787476,
      "learning_rate": 1.7550000000000001e-06,
      "loss": 0.4242,
      "step": 3650
    },
    {
      "epoch": 73.26732673267327,
      "grad_norm": 1.0779832601547241,
      "learning_rate": 1.505e-06,
      "loss": 0.4216,
      "step": 3700
    },
    {
      "epoch": 74.25742574257426,
      "grad_norm": 0.9809712171554565,
      "learning_rate": 1.255e-06,
      "loss": 0.4187,
      "step": 3750
    },
    {
      "epoch": 75.24752475247524,
      "grad_norm": 1.067606806755066,
      "learning_rate": 1.0050000000000001e-06,
      "loss": 0.4295,
      "step": 3800
    },
    {
      "epoch": 76.23762376237623,
      "grad_norm": 1.027479887008667,
      "learning_rate": 7.550000000000001e-07,
      "loss": 0.4257,
      "step": 3850
    },
    {
      "epoch": 77.22772277227723,
      "grad_norm": 1.2920273542404175,
      "learning_rate": 5.05e-07,
      "loss": 0.4236,
      "step": 3900
    },
    {
      "epoch": 78.21782178217822,
      "grad_norm": 1.445709466934204,
      "learning_rate": 2.55e-07,
      "loss": 0.4216,
      "step": 3950
    },
    {
      "epoch": 79.20792079207921,
      "grad_norm": 1.045529842376709,
      "learning_rate": 5e-09,
      "loss": 0.4241,
      "step": 4000
    },
    {
      "epoch": 79.20792079207921,
      "eval_loss": 0.3955015242099762,
      "eval_runtime": 7.4685,
      "eval_samples_per_second": 24.101,
      "eval_steps_per_second": 3.08,
      "step": 4000
    }
  ],
  "logging_steps": 50,
  "max_steps": 4000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 80,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2.161155031107257e+16,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}