{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 4.8,
  "eval_steps": 50,
  "global_step": 1800,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.13333333333333333,
      "grad_norm": 7.388608455657959,
      "learning_rate": 3.8022813688212926e-06,
      "loss": 1.4202,
      "step": 50
    },
    {
      "epoch": 0.13333333333333333,
      "eval_loss": 0.725118100643158,
      "eval_runtime": 1.1532,
      "eval_samples_per_second": 135.28,
      "eval_steps_per_second": 6.937,
      "step": 50
    },
    {
      "epoch": 0.26666666666666666,
      "grad_norm": 4.093813896179199,
      "learning_rate": 7.604562737642585e-06,
      "loss": 0.7254,
      "step": 100
    },
    {
      "epoch": 0.26666666666666666,
      "eval_loss": 0.6901488900184631,
      "eval_runtime": 1.1541,
      "eval_samples_per_second": 135.176,
      "eval_steps_per_second": 6.932,
      "step": 100
    },
    {
      "epoch": 0.4,
      "grad_norm": 10.369660377502441,
      "learning_rate": 1.1406844106463879e-05,
      "loss": 0.6961,
      "step": 150
    },
    {
      "epoch": 0.4,
      "eval_loss": 0.7221754789352417,
      "eval_runtime": 1.1586,
      "eval_samples_per_second": 134.64,
      "eval_steps_per_second": 6.905,
      "step": 150
    },
    {
      "epoch": 0.5333333333333333,
      "grad_norm": 3.4792988300323486,
      "learning_rate": 1.520912547528517e-05,
      "loss": 0.7128,
      "step": 200
    },
    {
      "epoch": 0.5333333333333333,
      "eval_loss": 0.7042415142059326,
      "eval_runtime": 1.1575,
      "eval_samples_per_second": 134.768,
      "eval_steps_per_second": 6.911,
      "step": 200
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 2.5701582431793213,
      "learning_rate": 1.9011406844106467e-05,
      "loss": 0.7534,
      "step": 250
    },
    {
      "epoch": 0.6666666666666666,
      "eval_loss": 0.731088399887085,
      "eval_runtime": 1.1555,
      "eval_samples_per_second": 135.003,
      "eval_steps_per_second": 6.923,
      "step": 250
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.0080971717834473,
      "learning_rate": 1.9987893300564186e-05,
      "loss": 0.762,
      "step": 300
    },
    {
      "epoch": 0.8,
      "eval_loss": 0.7343817949295044,
      "eval_runtime": 1.1531,
      "eval_samples_per_second": 135.293,
      "eval_steps_per_second": 6.938,
      "step": 300
    },
    {
      "epoch": 0.9333333333333333,
      "grad_norm": 2.46988844871521,
      "learning_rate": 1.993312499670606e-05,
      "loss": 0.7377,
      "step": 350
    },
    {
      "epoch": 0.9333333333333333,
      "eval_loss": 0.7465369701385498,
      "eval_runtime": 1.1567,
      "eval_samples_per_second": 134.864,
      "eval_steps_per_second": 6.916,
      "step": 350
    },
    {
      "epoch": 1.0666666666666667,
      "grad_norm": 2.265070676803589,
      "learning_rate": 1.983444240926042e-05,
      "loss": 0.5975,
      "step": 400
    },
    {
      "epoch": 1.0666666666666667,
      "eval_loss": 0.7718733549118042,
      "eval_runtime": 1.155,
      "eval_samples_per_second": 135.065,
      "eval_steps_per_second": 6.926,
      "step": 400
    },
    {
      "epoch": 1.2,
      "grad_norm": 2.6679139137268066,
      "learning_rate": 1.9692281813330186e-05,
      "loss": 0.4394,
      "step": 450
    },
    {
      "epoch": 1.2,
      "eval_loss": 0.7984455823898315,
      "eval_runtime": 1.1567,
      "eval_samples_per_second": 134.871,
      "eval_steps_per_second": 6.916,
      "step": 450
    },
    {
      "epoch": 1.3333333333333333,
      "grad_norm": 2.2566981315612793,
      "learning_rate": 1.9507271700022308e-05,
      "loss": 0.4371,
      "step": 500
    },
    {
      "epoch": 1.3333333333333333,
      "eval_loss": 0.7871562242507935,
      "eval_runtime": 1.1615,
      "eval_samples_per_second": 134.306,
      "eval_steps_per_second": 6.887,
      "step": 500
    },
    {
      "epoch": 1.4666666666666668,
      "grad_norm": 2.3121838569641113,
      "learning_rate": 1.9280229997892505e-05,
      "loss": 0.4348,
      "step": 550
    },
    {
      "epoch": 1.4666666666666668,
      "eval_loss": 0.7885589003562927,
      "eval_runtime": 1.1634,
      "eval_samples_per_second": 134.095,
      "eval_steps_per_second": 6.877,
      "step": 550
    },
    {
      "epoch": 1.6,
      "grad_norm": 2.280371904373169,
      "learning_rate": 1.9012160456888235e-05,
      "loss": 0.4362,
      "step": 600
    },
    {
      "epoch": 1.6,
      "eval_loss": 0.7835204005241394,
      "eval_runtime": 1.1606,
      "eval_samples_per_second": 134.41,
      "eval_steps_per_second": 6.893,
      "step": 600
    },
    {
      "epoch": 1.7333333333333334,
      "grad_norm": 2.385469675064087,
      "learning_rate": 1.8704248210776442e-05,
      "loss": 0.4429,
      "step": 650
    },
    {
      "epoch": 1.7333333333333334,
      "eval_loss": 0.7807101607322693,
      "eval_runtime": 1.1644,
      "eval_samples_per_second": 133.97,
      "eval_steps_per_second": 6.87,
      "step": 650
    },
    {
      "epoch": 1.8666666666666667,
      "grad_norm": 2.458850145339966,
      "learning_rate": 1.8357854537674556e-05,
      "loss": 0.4554,
      "step": 700
    },
    {
      "epoch": 1.8666666666666667,
      "eval_loss": 0.7672913670539856,
      "eval_runtime": 1.1585,
      "eval_samples_per_second": 134.659,
      "eval_steps_per_second": 6.906,
      "step": 700
    },
    {
      "epoch": 2.0,
      "grad_norm": 1.5124437808990479,
      "learning_rate": 1.7974510841848475e-05,
      "loss": 0.4402,
      "step": 750
    },
    {
      "epoch": 2.0,
      "eval_loss": 0.7685139775276184,
      "eval_runtime": 1.1599,
      "eval_samples_per_second": 134.494,
      "eval_steps_per_second": 6.897,
      "step": 750
    },
    {
      "epoch": 2.1333333333333333,
      "grad_norm": 1.5960251092910767,
      "learning_rate": 1.7555911883383823e-05,
      "loss": 0.2169,
      "step": 800
    },
    {
      "epoch": 2.1333333333333333,
      "eval_loss": 0.8784275650978088,
      "eval_runtime": 1.1629,
      "eval_samples_per_second": 134.142,
      "eval_steps_per_second": 6.879,
      "step": 800
    },
    {
      "epoch": 2.2666666666666666,
      "grad_norm": 1.429960012435913,
      "learning_rate": 1.7103908285662216e-05,
      "loss": 0.2203,
      "step": 850
    },
    {
      "epoch": 2.2666666666666666,
      "eval_loss": 0.8770997524261475,
      "eval_runtime": 1.1589,
      "eval_samples_per_second": 134.609,
      "eval_steps_per_second": 6.903,
      "step": 850
    },
    {
      "epoch": 2.4,
      "grad_norm": 1.7792383432388306,
      "learning_rate": 1.6620498353766853e-05,
      "loss": 0.2227,
      "step": 900
    },
    {
      "epoch": 2.4,
      "eval_loss": 0.8881720304489136,
      "eval_runtime": 1.1619,
      "eval_samples_per_second": 134.261,
      "eval_steps_per_second": 6.885,
      "step": 900
    },
    {
      "epoch": 2.533333333333333,
      "grad_norm": 1.518776535987854,
      "learning_rate": 1.6107819239988206e-05,
      "loss": 0.2182,
      "step": 950
    },
    {
      "epoch": 2.533333333333333,
      "eval_loss": 0.8789505362510681,
      "eval_runtime": 1.1609,
      "eval_samples_per_second": 134.373,
      "eval_steps_per_second": 6.891,
      "step": 950
    },
    {
      "epoch": 2.6666666666666665,
      "grad_norm": 1.5678354501724243,
      "learning_rate": 1.55681374954871e-05,
      "loss": 0.2245,
      "step": 1000
    },
    {
      "epoch": 2.6666666666666665,
      "eval_loss": 0.8829083442687988,
      "eval_runtime": 1.1629,
      "eval_samples_per_second": 134.142,
      "eval_steps_per_second": 6.879,
      "step": 1000
    },
    {
      "epoch": 2.8,
      "grad_norm": 1.6816725730895996,
      "learning_rate": 1.5003839049886168e-05,
      "loss": 0.2232,
      "step": 1050
    },
    {
      "epoch": 2.8,
      "eval_loss": 0.8641273379325867,
      "eval_runtime": 1.1663,
      "eval_samples_per_second": 133.759,
      "eval_steps_per_second": 6.859,
      "step": 1050
    },
    {
      "epoch": 2.9333333333333336,
      "grad_norm": 1.2660926580429077,
      "learning_rate": 1.4417418663089908e-05,
      "loss": 0.225,
      "step": 1100
    },
    {
      "epoch": 2.9333333333333336,
      "eval_loss": 0.8774051070213318,
      "eval_runtime": 1.1628,
      "eval_samples_per_second": 134.156,
      "eval_steps_per_second": 6.88,
      "step": 1100
    },
    {
      "epoch": 3.066666666666667,
      "grad_norm": 1.2104500532150269,
      "learning_rate": 1.381146889596671e-05,
      "loss": 0.1792,
      "step": 1150
    },
    {
      "epoch": 3.066666666666667,
      "eval_loss": 0.9548905491828918,
      "eval_runtime": 1.1626,
      "eval_samples_per_second": 134.18,
      "eval_steps_per_second": 6.881,
      "step": 1150
    },
    {
      "epoch": 3.2,
      "grad_norm": 1.0138744115829468,
      "learning_rate": 1.3188668648653447e-05,
      "loss": 0.1357,
      "step": 1200
    },
    {
      "epoch": 3.2,
      "eval_loss": 0.9454194903373718,
      "eval_runtime": 1.1638,
      "eval_samples_per_second": 134.046,
      "eval_steps_per_second": 6.874,
      "step": 1200
    },
    {
      "epoch": 3.3333333333333335,
      "grad_norm": 1.2832611799240112,
      "learning_rate": 1.2551771317154687e-05,
      "loss": 0.1411,
      "step": 1250
    },
    {
      "epoch": 3.3333333333333335,
      "eval_loss": 0.9485148787498474,
      "eval_runtime": 1.1531,
      "eval_samples_per_second": 135.288,
      "eval_steps_per_second": 6.938,
      "step": 1250
    },
    {
      "epoch": 3.466666666666667,
      "grad_norm": 1.1830838918685913,
      "learning_rate": 1.1903592620596175e-05,
      "loss": 0.1449,
      "step": 1300
    },
    {
      "epoch": 3.466666666666667,
      "eval_loss": 0.9498122930526733,
      "eval_runtime": 1.155,
      "eval_samples_per_second": 135.066,
      "eval_steps_per_second": 6.926,
      "step": 1300
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.8358858227729797,
      "learning_rate": 1.1246998152948137e-05,
      "loss": 0.1373,
      "step": 1350
    },
    {
      "epoch": 3.6,
      "eval_loss": 0.9596496224403381,
      "eval_runtime": 1.1552,
      "eval_samples_per_second": 135.046,
      "eval_steps_per_second": 6.925,
      "step": 1350
    },
    {
      "epoch": 3.7333333333333334,
      "grad_norm": 0.9525027871131897,
      "learning_rate": 1.0584890714252229e-05,
      "loss": 0.1457,
      "step": 1400
    },
    {
      "epoch": 3.7333333333333334,
      "eval_loss": 0.9405192732810974,
      "eval_runtime": 1.1584,
      "eval_samples_per_second": 134.667,
      "eval_steps_per_second": 6.906,
      "step": 1400
    },
    {
      "epoch": 3.8666666666666667,
      "grad_norm": 1.125769853591919,
      "learning_rate": 9.920197477360702e-06,
      "loss": 0.1432,
      "step": 1450
    },
    {
      "epoch": 3.8666666666666667,
      "eval_loss": 0.9467251300811768,
      "eval_runtime": 1.1558,
      "eval_samples_per_second": 134.97,
      "eval_steps_per_second": 6.922,
      "step": 1450
    },
    {
      "epoch": 4.0,
      "grad_norm": 1.604612946510315,
      "learning_rate": 9.255857046923467e-06,
      "loss": 0.1379,
      "step": 1500
    },
    {
      "epoch": 4.0,
      "eval_loss": 0.9503706097602844,
      "eval_runtime": 1.1579,
      "eval_samples_per_second": 134.731,
      "eval_steps_per_second": 6.909,
      "step": 1500
    },
    {
      "epoch": 4.133333333333334,
      "grad_norm": 0.9764025211334229,
      "learning_rate": 8.594806467835322e-06,
      "loss": 0.0917,
      "step": 1550
    },
    {
      "epoch": 4.133333333333334,
      "eval_loss": 0.989634096622467,
      "eval_runtime": 1.1574,
      "eval_samples_per_second": 134.787,
      "eval_steps_per_second": 6.912,
      "step": 1550
    },
    {
      "epoch": 4.266666666666667,
      "grad_norm": 0.8189386129379272,
      "learning_rate": 7.939968240578778e-06,
      "loss": 0.0944,
      "step": 1600
    },
    {
      "epoch": 4.266666666666667,
      "eval_loss": 1.0014750957489014,
      "eval_runtime": 1.1563,
      "eval_samples_per_second": 134.914,
      "eval_steps_per_second": 6.919,
      "step": 1600
    },
    {
      "epoch": 4.4,
      "grad_norm": 0.6856206655502319,
      "learning_rate": 7.294237400867696e-06,
      "loss": 0.092,
      "step": 1650
    },
    {
      "epoch": 4.4,
      "eval_loss": 1.0134879350662231,
      "eval_runtime": 1.1557,
      "eval_samples_per_second": 134.983,
      "eval_steps_per_second": 6.922,
      "step": 1650
    },
    {
      "epoch": 4.533333333333333,
      "grad_norm": 0.9093407392501831,
      "learning_rate": 6.660468720712463e-06,
      "loss": 0.092,
      "step": 1700
    },
    {
      "epoch": 4.533333333333333,
      "eval_loss": 1.0173557996749878,
      "eval_runtime": 1.1541,
      "eval_samples_per_second": 135.169,
      "eval_steps_per_second": 6.932,
      "step": 1700
    },
    {
      "epoch": 4.666666666666667,
      "grad_norm": 0.6318963766098022,
      "learning_rate": 6.041464087490756e-06,
      "loss": 0.0919,
      "step": 1750
    },
    {
      "epoch": 4.666666666666667,
      "eval_loss": 1.0165729522705078,
      "eval_runtime": 1.1556,
      "eval_samples_per_second": 134.995,
      "eval_steps_per_second": 6.923,
      "step": 1750
    },
    {
      "epoch": 4.8,
      "grad_norm": 0.852830708026886,
      "learning_rate": 5.4399601168209614e-06,
      "loss": 0.0912,
      "step": 1800
    },
    {
      "epoch": 4.8,
      "eval_loss": 1.0123897790908813,
      "eval_runtime": 1.1587,
      "eval_samples_per_second": 134.635,
      "eval_steps_per_second": 6.904,
      "step": 1800
    }
  ],
  "logging_steps": 50,
  "max_steps": 2625,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 7,
  "save_steps": 200,
  "total_flos": 8.743935556766925e+16,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}