{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 2.9433962264150946,
  "global_step": 78,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.04,
      "learning_rate": 0.00013333333333333334,
      "loss": 1.5444,
      "step": 1
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0002666666666666667,
      "loss": 1.543,
      "step": 2
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0004,
      "loss": 1.3151,
      "step": 3
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.0003998245660197717,
      "loss": 1.2922,
      "step": 4
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.0003992985718499009,
      "loss": 1.1978,
      "step": 5
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.0003984229402628956,
      "loss": 1.1409,
      "step": 6
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.000397199207414101,
      "loss": 1.1181,
      "step": 7
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.00039562952014676116,
      "loss": 1.1124,
      "step": 8
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.0003937166322257262,
      "loss": 1.0952,
      "step": 9
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.00039146389950641346,
      "loss": 1.0885,
      "step": 10
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.00038887527404749624,
      "loss": 1.0787,
      "step": 11
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.00038595529717765027,
      "loss": 1.0854,
      "step": 12
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.0003827090915285202,
      "loss": 1.0807,
      "step": 13
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.0003791423520478826,
      "loss": 1.055,
      "step": 14
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.0003752613360087727,
      "loss": 1.056,
      "step": 15
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.00037107285203210135,
      "loss": 1.0526,
      "step": 16
    },
    {
      "epoch": 0.64,
      "learning_rate": 0.0003665842481420199,
      "loss": 1.0693,
      "step": 17
    },
    {
      "epoch": 0.68,
      "learning_rate": 0.0003618033988749895,
      "loss": 1.0471,
      "step": 18
    },
    {
      "epoch": 0.72,
      "learning_rate": 0.000356738691465168,
      "loss": 1.0356,
      "step": 19
    },
    {
      "epoch": 0.75,
      "learning_rate": 0.0003513990111303513,
      "loss": 1.0433,
      "step": 20
    },
    {
      "epoch": 0.79,
      "learning_rate": 0.00034579372548428235,
      "loss": 1.0463,
      "step": 21
    },
    {
      "epoch": 0.83,
      "learning_rate": 0.0003399326681026731,
      "loss": 1.0564,
      "step": 22
    },
    {
      "epoch": 0.87,
      "learning_rate": 0.00033382612127177166,
      "loss": 1.0391,
      "step": 23
    },
    {
      "epoch": 0.91,
      "learning_rate": 0.000327484797949738,
      "loss": 1.035,
      "step": 24
    },
    {
      "epoch": 0.94,
      "learning_rate": 0.000320919822972475,
      "loss": 1.0371,
      "step": 25
    },
    {
      "epoch": 0.98,
      "learning_rate": 0.0003141427135368864,
      "loss": 1.0296,
      "step": 26
    },
    {
      "epoch": 1.02,
      "learning_rate": 0.0003071653589957993,
      "loss": 0.93,
      "step": 27
    },
    {
      "epoch": 1.06,
      "learning_rate": 0.00030000000000000003,
      "loss": 0.9064,
      "step": 28
    },
    {
      "epoch": 1.09,
      "learning_rate": 0.00029265920702397236,
      "loss": 0.904,
      "step": 29
    },
    {
      "epoch": 1.13,
      "learning_rate": 0.00028515585831301456,
      "loss": 0.893,
      "step": 30
    },
    {
      "epoch": 1.17,
      "learning_rate": 0.0002775031172904206,
      "loss": 0.8945,
      "step": 31
    },
    {
      "epoch": 1.21,
      "learning_rate": 0.0002697144094643631,
      "loss": 0.8945,
      "step": 32
    },
    {
      "epoch": 1.25,
      "learning_rate": 0.00026180339887498953,
      "loss": 0.8792,
      "step": 33
    },
    {
      "epoch": 1.28,
      "learning_rate": 0.00025378396412305314,
      "loss": 0.8908,
      "step": 34
    },
    {
      "epoch": 1.32,
      "learning_rate": 0.00024567017402213115,
      "loss": 0.8892,
      "step": 35
    },
    {
      "epoch": 1.36,
      "learning_rate": 0.00023747626291714498,
      "loss": 0.8754,
      "step": 36
    },
    {
      "epoch": 1.4,
      "learning_rate": 0.00022921660571248236,
      "loss": 0.8414,
      "step": 37
    },
    {
      "epoch": 1.43,
      "learning_rate": 0.00022090569265353072,
      "loss": 0.8629,
      "step": 38
    },
    {
      "epoch": 1.47,
      "learning_rate": 0.0002125581039058627,
      "loss": 0.8653,
      "step": 39
    },
    {
      "epoch": 1.51,
      "learning_rate": 0.0002041884839766714,
      "loss": 0.8702,
      "step": 40
    },
    {
      "epoch": 1.55,
      "learning_rate": 0.00019581151602332864,
      "loss": 0.8799,
      "step": 41
    },
    {
      "epoch": 1.58,
      "learning_rate": 0.00018744189609413734,
      "loss": 0.8628,
      "step": 42
    },
    {
      "epoch": 1.62,
      "learning_rate": 0.00017909430734646935,
      "loss": 0.8751,
      "step": 43
    },
    {
      "epoch": 1.66,
      "learning_rate": 0.0001707833942875177,
      "loss": 0.8683,
      "step": 44
    },
    {
      "epoch": 1.7,
      "learning_rate": 0.00016252373708285504,
      "loss": 0.8522,
      "step": 45
    },
    {
      "epoch": 1.74,
      "learning_rate": 0.00015432982597786884,
      "loss": 0.8431,
      "step": 46
    },
    {
      "epoch": 1.77,
      "learning_rate": 0.00014621603587694688,
      "loss": 0.8575,
      "step": 47
    },
    {
      "epoch": 1.81,
      "learning_rate": 0.00013819660112501054,
      "loss": 0.8612,
      "step": 48
    },
    {
      "epoch": 1.85,
      "learning_rate": 0.000130285590535637,
      "loss": 0.8791,
      "step": 49
    },
    {
      "epoch": 1.89,
      "learning_rate": 0.0001224968827095794,
      "loss": 0.8104,
      "step": 50
    },
    {
      "epoch": 1.92,
      "learning_rate": 0.00011484414168698547,
      "loss": 0.8223,
      "step": 51
    },
    {
      "epoch": 1.96,
      "learning_rate": 0.00010734079297602771,
      "loss": 0.8642,
      "step": 52
    },
    {
      "epoch": 2.0,
      "learning_rate": 0.00010000000000000005,
      "loss": 0.7986,
      "step": 53
    },
    {
      "epoch": 2.04,
      "learning_rate": 9.283464100420063e-05,
      "loss": 0.7106,
      "step": 54
    },
    {
      "epoch": 2.08,
      "learning_rate": 8.585728646311369e-05,
      "loss": 0.7073,
      "step": 55
    },
    {
      "epoch": 2.11,
      "learning_rate": 7.908017702752504e-05,
      "loss": 0.7,
      "step": 56
    },
    {
      "epoch": 2.15,
      "learning_rate": 7.251520205026205e-05,
      "loss": 0.7022,
      "step": 57
    },
    {
      "epoch": 2.19,
      "learning_rate": 6.617387872822842e-05,
      "loss": 0.6812,
      "step": 58
    },
    {
      "epoch": 2.23,
      "learning_rate": 6.0067331897326895e-05,
      "loss": 0.6941,
      "step": 59
    },
    {
      "epoch": 2.26,
      "learning_rate": 5.4206274515717736e-05,
      "loss": 0.6749,
      "step": 60
    },
    {
      "epoch": 2.3,
      "learning_rate": 4.8600988869648745e-05,
      "loss": 0.6833,
      "step": 61
    },
    {
      "epoch": 2.34,
      "learning_rate": 4.326130853483206e-05,
      "loss": 0.6684,
      "step": 62
    },
    {
      "epoch": 2.38,
      "learning_rate": 3.819660112501053e-05,
      "loss": 0.6482,
      "step": 63
    },
    {
      "epoch": 2.42,
      "learning_rate": 3.3415751857980115e-05,
      "loss": 0.6638,
      "step": 64
    },
    {
      "epoch": 2.45,
      "learning_rate": 2.8927147967898682e-05,
      "loss": 0.6586,
      "step": 65
    },
    {
      "epoch": 2.49,
      "learning_rate": 2.473866399122733e-05,
      "loss": 0.6709,
      "step": 66
    },
    {
      "epoch": 2.53,
      "learning_rate": 2.085764795211742e-05,
      "loss": 0.6518,
      "step": 67
    },
    {
      "epoch": 2.57,
      "learning_rate": 1.7290908471479805e-05,
      "loss": 0.6567,
      "step": 68
    },
    {
      "epoch": 2.6,
      "learning_rate": 1.4044702822349731e-05,
      "loss": 0.678,
      "step": 69
    },
    {
      "epoch": 2.64,
      "learning_rate": 1.1124725952503801e-05,
      "loss": 0.6848,
      "step": 70
    },
    {
      "epoch": 2.68,
      "learning_rate": 8.536100493586552e-06,
      "loss": 0.6601,
      "step": 71
    },
    {
      "epoch": 2.72,
      "learning_rate": 6.283367774273785e-06,
      "loss": 0.6749,
      "step": 72
    },
    {
      "epoch": 2.75,
      "learning_rate": 4.370479853238863e-06,
      "loss": 0.6864,
      "step": 73
    },
    {
      "epoch": 2.79,
      "learning_rate": 2.800792585899026e-06,
      "loss": 0.6621,
      "step": 74
    },
    {
      "epoch": 2.83,
      "learning_rate": 1.577059737104447e-06,
      "loss": 0.6514,
      "step": 75
    },
    {
      "epoch": 2.87,
      "learning_rate": 7.01428150099126e-07,
      "loss": 0.6516,
      "step": 76
    },
    {
      "epoch": 2.91,
      "learning_rate": 1.7543398022832336e-07,
      "loss": 0.6504,
      "step": 77
    },
    {
      "epoch": 2.94,
      "learning_rate": 0.0,
      "loss": 0.6665,
      "step": 78
    },
    {
      "epoch": 2.94,
      "step": 78,
      "total_flos": 183654252937216.0,
      "train_loss": 0.8923629743930621,
      "train_runtime": 2340.4996,
      "train_samples_per_second": 4.275,
      "train_steps_per_second": 0.033
    }
  ],
  "max_steps": 78,
  "num_train_epochs": 3,
  "total_flos": 183654252937216.0,
  "trial_name": null,
  "trial_params": null
}