{
  "best_metric": 0.8174300254452926,
  "best_model_checkpoint": "training_sentiment_analysis/checkpoint-8600",
  "epoch": 20.0,
  "eval_steps": 200,
  "global_step": 18680,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.21,
      "grad_norm": 1.3381836414337158,
      "learning_rate": 3.2119914346895075e-05,
      "loss": 0.9299,
      "step": 200
    },
    {
      "epoch": 0.21,
      "eval_accuracy": 0.638676844783715,
      "eval_loss": 0.827367901802063,
      "eval_runtime": 3.055,
      "eval_samples_per_second": 514.569,
      "eval_steps_per_second": 16.367,
      "step": 200
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.0220164060592651,
      "learning_rate": 6.423982869379015e-05,
      "loss": 0.7793,
      "step": 400
    },
    {
      "epoch": 0.43,
      "eval_accuracy": 0.7188295165394402,
      "eval_loss": 0.6643335223197937,
      "eval_runtime": 3.0013,
      "eval_samples_per_second": 523.77,
      "eval_steps_per_second": 16.659,
      "step": 400
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.7421491146087646,
      "learning_rate": 9.635974304068522e-05,
      "loss": 0.6574,
      "step": 600
    },
    {
      "epoch": 0.64,
      "eval_accuracy": 0.7659033078880407,
      "eval_loss": 0.5868020057678223,
      "eval_runtime": 2.9749,
      "eval_samples_per_second": 528.422,
      "eval_steps_per_second": 16.807,
      "step": 600
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.8133894205093384,
      "learning_rate": 0.0001284796573875803,
      "loss": 0.6132,
      "step": 800
    },
    {
      "epoch": 0.86,
      "eval_accuracy": 0.772264631043257,
      "eval_loss": 0.5582301616668701,
      "eval_runtime": 2.9908,
      "eval_samples_per_second": 525.617,
      "eval_steps_per_second": 16.718,
      "step": 800
    },
    {
      "epoch": 1.07,
      "grad_norm": 1.3071078062057495,
      "learning_rate": 0.00016059957173447537,
      "loss": 0.5791,
      "step": 1000
    },
    {
      "epoch": 1.07,
      "eval_accuracy": 0.7830788804071247,
      "eval_loss": 0.5515692234039307,
      "eval_runtime": 2.9665,
      "eval_samples_per_second": 529.915,
      "eval_steps_per_second": 16.855,
      "step": 1000
    },
    {
      "epoch": 1.28,
      "grad_norm": 1.0445743799209595,
      "learning_rate": 0.00019271948608137044,
      "loss": 0.554,
      "step": 1200
    },
    {
      "epoch": 1.28,
      "eval_accuracy": 0.7964376590330788,
      "eval_loss": 0.5187413692474365,
      "eval_runtime": 2.9846,
      "eval_samples_per_second": 526.705,
      "eval_steps_per_second": 16.753,
      "step": 1200
    },
    {
      "epoch": 1.5,
      "grad_norm": 1.0763362646102905,
      "learning_rate": 0.0002248394004282655,
      "loss": 0.5258,
      "step": 1400
    },
    {
      "epoch": 1.5,
      "eval_accuracy": 0.8034351145038168,
      "eval_loss": 0.5125576257705688,
      "eval_runtime": 2.9831,
      "eval_samples_per_second": 526.967,
      "eval_steps_per_second": 16.761,
      "step": 1400
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.8554897308349609,
      "learning_rate": 0.0002569593147751606,
      "loss": 0.5373,
      "step": 1600
    },
    {
      "epoch": 1.71,
      "eval_accuracy": 0.8002544529262087,
      "eval_loss": 0.51680988073349,
      "eval_runtime": 2.9726,
      "eval_samples_per_second": 528.823,
      "eval_steps_per_second": 16.82,
      "step": 1600
    },
    {
      "epoch": 1.93,
      "grad_norm": 1.538806438446045,
      "learning_rate": 0.0002890792291220556,
      "loss": 0.5266,
      "step": 1800
    },
    {
      "epoch": 1.93,
      "eval_accuracy": 0.8027989821882952,
      "eval_loss": 0.5283887982368469,
      "eval_runtime": 2.9766,
      "eval_samples_per_second": 528.12,
      "eval_steps_per_second": 16.798,
      "step": 1800
    },
    {
      "epoch": 2.14,
      "grad_norm": 1.1234441995620728,
      "learning_rate": 0.000297644539614561,
      "loss": 0.5076,
      "step": 2000
    },
    {
      "epoch": 2.14,
      "eval_accuracy": 0.7977099236641222,
      "eval_loss": 0.5178301334381104,
      "eval_runtime": 2.9829,
      "eval_samples_per_second": 526.996,
      "eval_steps_per_second": 16.762,
      "step": 2000
    },
    {
      "epoch": 2.36,
      "grad_norm": 1.6212774515151978,
      "learning_rate": 0.0002940756602426838,
      "loss": 0.5094,
      "step": 2200
    },
    {
      "epoch": 2.36,
      "eval_accuracy": 0.8027989821882952,
      "eval_loss": 0.5134572982788086,
      "eval_runtime": 2.981,
      "eval_samples_per_second": 527.334,
      "eval_steps_per_second": 16.773,
      "step": 2200
    },
    {
      "epoch": 2.57,
      "grad_norm": 1.4514294862747192,
      "learning_rate": 0.00029050678087080655,
      "loss": 0.5032,
      "step": 2400
    },
    {
      "epoch": 2.57,
      "eval_accuracy": 0.8104325699745547,
      "eval_loss": 0.5022692084312439,
      "eval_runtime": 2.963,
      "eval_samples_per_second": 530.535,
      "eval_steps_per_second": 16.875,
      "step": 2400
    },
    {
      "epoch": 2.78,
      "grad_norm": 1.826932668685913,
      "learning_rate": 0.0002869379014989293,
      "loss": 0.5034,
      "step": 2600
    },
    {
      "epoch": 2.78,
      "eval_accuracy": 0.80470737913486,
      "eval_loss": 0.5088226199150085,
      "eval_runtime": 2.9831,
      "eval_samples_per_second": 526.969,
      "eval_steps_per_second": 16.761,
      "step": 2600
    },
    {
      "epoch": 3.0,
      "grad_norm": 1.4404336214065552,
      "learning_rate": 0.0002833690221270521,
      "loss": 0.4923,
      "step": 2800
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.799618320610687,
      "eval_loss": 0.5219257473945618,
      "eval_runtime": 2.9722,
      "eval_samples_per_second": 528.9,
      "eval_steps_per_second": 16.823,
      "step": 2800
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.8795878291130066,
      "learning_rate": 0.00027980014275517484,
      "loss": 0.4934,
      "step": 3000
    },
    {
      "epoch": 3.21,
      "eval_accuracy": 0.8129770992366412,
      "eval_loss": 0.4905295968055725,
      "eval_runtime": 2.9734,
      "eval_samples_per_second": 528.696,
      "eval_steps_per_second": 16.816,
      "step": 3000
    },
    {
      "epoch": 3.43,
      "grad_norm": 1.6092537641525269,
      "learning_rate": 0.0002762312633832976,
      "loss": 0.4798,
      "step": 3200
    },
    {
      "epoch": 3.43,
      "eval_accuracy": 0.8097964376590331,
      "eval_loss": 0.4907812178134918,
      "eval_runtime": 2.9897,
      "eval_samples_per_second": 525.803,
      "eval_steps_per_second": 16.724,
      "step": 3200
    },
    {
      "epoch": 3.64,
      "grad_norm": 1.6475110054016113,
      "learning_rate": 0.0002726623840114204,
      "loss": 0.4831,
      "step": 3400
    },
    {
      "epoch": 3.64,
      "eval_accuracy": 0.8072519083969466,
      "eval_loss": 0.48748457431793213,
      "eval_runtime": 2.9694,
      "eval_samples_per_second": 529.396,
      "eval_steps_per_second": 16.838,
      "step": 3400
    },
    {
      "epoch": 3.85,
      "grad_norm": 1.1669467687606812,
      "learning_rate": 0.00026909350463954313,
      "loss": 0.4707,
      "step": 3600
    },
    {
      "epoch": 3.85,
      "eval_accuracy": 0.8072519083969466,
      "eval_loss": 0.4985896944999695,
      "eval_runtime": 2.991,
      "eval_samples_per_second": 525.579,
      "eval_steps_per_second": 16.717,
      "step": 3600
    },
    {
      "epoch": 4.07,
      "grad_norm": 0.9440352320671082,
      "learning_rate": 0.00026552462526766593,
      "loss": 0.4674,
      "step": 3800
    },
    {
      "epoch": 4.07,
      "eval_accuracy": 0.8104325699745547,
      "eval_loss": 0.5195557475090027,
      "eval_runtime": 2.9789,
      "eval_samples_per_second": 527.711,
      "eval_steps_per_second": 16.785,
      "step": 3800
    },
    {
      "epoch": 4.28,
      "grad_norm": 1.8151628971099854,
      "learning_rate": 0.0002619557458957887,
      "loss": 0.4535,
      "step": 4000
    },
    {
      "epoch": 4.28,
      "eval_accuracy": 0.8097964376590331,
      "eval_loss": 0.4896373152732849,
      "eval_runtime": 2.9869,
      "eval_samples_per_second": 526.295,
      "eval_steps_per_second": 16.74,
      "step": 4000
    },
    {
      "epoch": 4.5,
      "grad_norm": 3.0790090560913086,
      "learning_rate": 0.0002583868665239115,
      "loss": 0.464,
      "step": 4200
    },
    {
      "epoch": 4.5,
      "eval_accuracy": 0.8078880407124682,
      "eval_loss": 0.517495334148407,
      "eval_runtime": 2.9986,
      "eval_samples_per_second": 524.246,
      "eval_steps_per_second": 16.674,
      "step": 4200
    },
    {
      "epoch": 4.71,
      "grad_norm": 1.1520639657974243,
      "learning_rate": 0.0002548179871520343,
      "loss": 0.4715,
      "step": 4400
    },
    {
      "epoch": 4.71,
      "eval_accuracy": 0.8027989821882952,
      "eval_loss": 0.5001667737960815,
      "eval_runtime": 2.9723,
      "eval_samples_per_second": 528.885,
      "eval_steps_per_second": 16.822,
      "step": 4400
    },
    {
      "epoch": 4.93,
      "grad_norm": 0.8184943795204163,
      "learning_rate": 0.000251249107780157,
      "loss": 0.468,
      "step": 4600
    },
    {
      "epoch": 4.93,
      "eval_accuracy": 0.8110687022900763,
      "eval_loss": 0.4883332848548889,
      "eval_runtime": 2.9769,
      "eval_samples_per_second": 528.068,
      "eval_steps_per_second": 16.796,
      "step": 4600
    },
    {
      "epoch": 5.14,
      "grad_norm": 1.155013084411621,
      "learning_rate": 0.00024768022840827977,
      "loss": 0.4645,
      "step": 4800
    },
    {
      "epoch": 5.14,
      "eval_accuracy": 0.8040712468193384,
      "eval_loss": 0.5186554789543152,
      "eval_runtime": 2.9698,
      "eval_samples_per_second": 529.333,
      "eval_steps_per_second": 16.836,
      "step": 4800
    },
    {
      "epoch": 5.35,
      "grad_norm": 1.6959339380264282,
      "learning_rate": 0.00024411134903640257,
      "loss": 0.445,
      "step": 5000
    },
    {
      "epoch": 5.35,
      "eval_accuracy": 0.806615776081425,
      "eval_loss": 0.4928103983402252,
      "eval_runtime": 2.9782,
      "eval_samples_per_second": 527.83,
      "eval_steps_per_second": 16.789,
      "step": 5000
    },
    {
      "epoch": 5.57,
      "grad_norm": 1.0461735725402832,
      "learning_rate": 0.00024054246966452532,
      "loss": 0.4558,
      "step": 5200
    },
    {
      "epoch": 5.57,
      "eval_accuracy": 0.8078880407124682,
      "eval_loss": 0.48704999685287476,
      "eval_runtime": 2.9838,
      "eval_samples_per_second": 526.839,
      "eval_steps_per_second": 16.757,
      "step": 5200
    },
    {
      "epoch": 5.78,
      "grad_norm": 0.9599233269691467,
      "learning_rate": 0.00023697359029264806,
      "loss": 0.4405,
      "step": 5400
    },
    {
      "epoch": 5.78,
      "eval_accuracy": 0.8104325699745547,
      "eval_loss": 0.4985482692718506,
      "eval_runtime": 3.0065,
      "eval_samples_per_second": 522.862,
      "eval_steps_per_second": 16.63,
      "step": 5400
    },
    {
      "epoch": 6.0,
      "grad_norm": 1.4131615161895752,
      "learning_rate": 0.00023340471092077086,
      "loss": 0.4648,
      "step": 5600
    },
    {
      "epoch": 6.0,
      "eval_accuracy": 0.8059796437659033,
      "eval_loss": 0.48415422439575195,
      "eval_runtime": 2.9786,
      "eval_samples_per_second": 527.759,
      "eval_steps_per_second": 16.786,
      "step": 5600
    },
    {
      "epoch": 6.21,
      "grad_norm": 1.189572811126709,
      "learning_rate": 0.0002298358315488936,
      "loss": 0.435,
      "step": 5800
    },
    {
      "epoch": 6.21,
      "eval_accuracy": 0.811704834605598,
      "eval_loss": 0.4911487102508545,
      "eval_runtime": 2.9997,
      "eval_samples_per_second": 524.044,
      "eval_steps_per_second": 16.668,
      "step": 5800
    },
    {
      "epoch": 6.42,
      "grad_norm": 1.5198345184326172,
      "learning_rate": 0.00022626695217701638,
      "loss": 0.437,
      "step": 6000
    },
    {
      "epoch": 6.42,
      "eval_accuracy": 0.8085241730279898,
      "eval_loss": 0.48542749881744385,
      "eval_runtime": 3.0042,
      "eval_samples_per_second": 523.274,
      "eval_steps_per_second": 16.644,
      "step": 6000
    },
    {
      "epoch": 6.64,
      "grad_norm": 1.1990240812301636,
      "learning_rate": 0.00022269807280513918,
      "loss": 0.4588,
      "step": 6200
    },
    {
      "epoch": 6.64,
      "eval_accuracy": 0.8085241730279898,
      "eval_loss": 0.48791924118995667,
      "eval_runtime": 3.0014,
      "eval_samples_per_second": 523.758,
      "eval_steps_per_second": 16.659,
      "step": 6200
    },
    {
      "epoch": 6.85,
      "grad_norm": 1.346658706665039,
      "learning_rate": 0.00021912919343326193,
      "loss": 0.4342,
      "step": 6400
    },
    {
      "epoch": 6.85,
      "eval_accuracy": 0.8104325699745547,
      "eval_loss": 0.49220582842826843,
      "eval_runtime": 3.0046,
      "eval_samples_per_second": 523.193,
      "eval_steps_per_second": 16.641,
      "step": 6400
    },
    {
      "epoch": 7.07,
      "grad_norm": 1.8644700050354004,
      "learning_rate": 0.00021556031406138473,
      "loss": 0.4347,
      "step": 6600
    },
    {
      "epoch": 7.07,
      "eval_accuracy": 0.8142493638676844,
      "eval_loss": 0.49111655354499817,
      "eval_runtime": 2.985,
      "eval_samples_per_second": 526.634,
      "eval_steps_per_second": 16.75,
      "step": 6600
    },
    {
      "epoch": 7.28,
      "grad_norm": 1.9364045858383179,
      "learning_rate": 0.00021199143468950748,
      "loss": 0.4326,
      "step": 6800
    },
    {
      "epoch": 7.28,
      "eval_accuracy": 0.8078880407124682,
      "eval_loss": 0.491384893655777,
      "eval_runtime": 2.9723,
      "eval_samples_per_second": 528.882,
      "eval_steps_per_second": 16.822,
      "step": 6800
    },
    {
      "epoch": 7.49,
      "grad_norm": 0.9911957383155823,
      "learning_rate": 0.00020842255531763022,
      "loss": 0.4267,
      "step": 7000
    },
    {
      "epoch": 7.49,
      "eval_accuracy": 0.8104325699745547,
      "eval_loss": 0.4917159080505371,
      "eval_runtime": 2.9808,
      "eval_samples_per_second": 527.373,
      "eval_steps_per_second": 16.774,
      "step": 7000
    },
    {
      "epoch": 7.71,
      "grad_norm": 1.2186638116836548,
      "learning_rate": 0.00020485367594575302,
      "loss": 0.4241,
      "step": 7200
    },
    {
      "epoch": 7.71,
      "eval_accuracy": 0.8136132315521628,
      "eval_loss": 0.4887010455131531,
      "eval_runtime": 2.9872,
      "eval_samples_per_second": 526.253,
      "eval_steps_per_second": 16.738,
      "step": 7200
    },
    {
      "epoch": 7.92,
      "grad_norm": 1.1467108726501465,
      "learning_rate": 0.0002012847965738758,
      "loss": 0.4376,
      "step": 7400
    },
    {
      "epoch": 7.92,
      "eval_accuracy": 0.8078880407124682,
      "eval_loss": 0.5122085213661194,
      "eval_runtime": 2.9829,
      "eval_samples_per_second": 527.007,
      "eval_steps_per_second": 16.762,
      "step": 7400
    },
    {
      "epoch": 8.14,
      "grad_norm": 0.8427834510803223,
      "learning_rate": 0.00019771591720199854,
      "loss": 0.4323,
      "step": 7600
    },
    {
      "epoch": 8.14,
      "eval_accuracy": 0.8097964376590331,
      "eval_loss": 0.49093857407569885,
      "eval_runtime": 2.9738,
      "eval_samples_per_second": 528.625,
      "eval_steps_per_second": 16.814,
      "step": 7600
    },
    {
      "epoch": 8.35,
      "grad_norm": 1.2060902118682861,
      "learning_rate": 0.00019414703783012134,
      "loss": 0.4264,
      "step": 7800
    },
    {
      "epoch": 8.35,
      "eval_accuracy": 0.8142493638676844,
      "eval_loss": 0.48821595311164856,
      "eval_runtime": 2.9836,
      "eval_samples_per_second": 526.88,
      "eval_steps_per_second": 16.758,
      "step": 7800
    },
    {
      "epoch": 8.57,
      "grad_norm": 1.7033394575119019,
      "learning_rate": 0.0001905781584582441,
      "loss": 0.4175,
      "step": 8000
    },
    {
      "epoch": 8.57,
      "eval_accuracy": 0.8053435114503816,
      "eval_loss": 0.5090692043304443,
      "eval_runtime": 2.9978,
      "eval_samples_per_second": 524.393,
      "eval_steps_per_second": 16.679,
      "step": 8000
    },
    {
      "epoch": 8.78,
      "grad_norm": 1.3033976554870605,
      "learning_rate": 0.0001870092790863669,
      "loss": 0.4228,
      "step": 8200
    },
    {
      "epoch": 8.78,
      "eval_accuracy": 0.8097964376590331,
      "eval_loss": 0.5060204863548279,
      "eval_runtime": 2.9975,
      "eval_samples_per_second": 524.436,
      "eval_steps_per_second": 16.681,
      "step": 8200
    },
    {
      "epoch": 8.99,
      "grad_norm": 1.2635438442230225,
      "learning_rate": 0.00018344039971448964,
      "loss": 0.4189,
      "step": 8400
    },
    {
      "epoch": 8.99,
      "eval_accuracy": 0.8091603053435115,
      "eval_loss": 0.4940575361251831,
      "eval_runtime": 2.9634,
      "eval_samples_per_second": 530.468,
      "eval_steps_per_second": 16.872,
      "step": 8400
    },
    {
      "epoch": 9.21,
      "grad_norm": 1.496982455253601,
      "learning_rate": 0.0001798715203426124,
      "loss": 0.4161,
      "step": 8600
    },
    {
      "epoch": 9.21,
      "eval_accuracy": 0.8174300254452926,
      "eval_loss": 0.5010442137718201,
      "eval_runtime": 2.973,
      "eval_samples_per_second": 528.758,
      "eval_steps_per_second": 16.818,
      "step": 8600
    },
    {
      "epoch": 9.42,
      "grad_norm": 1.355362892150879,
      "learning_rate": 0.00017630264097073518,
      "loss": 0.4078,
      "step": 8800
    },
    {
      "epoch": 9.42,
      "eval_accuracy": 0.8078880407124682,
      "eval_loss": 0.4949406683444977,
      "eval_runtime": 2.9901,
      "eval_samples_per_second": 525.736,
      "eval_steps_per_second": 16.722,
      "step": 8800
    },
    {
      "epoch": 9.64,
      "grad_norm": 1.180076241493225,
      "learning_rate": 0.00017273376159885795,
      "loss": 0.4201,
      "step": 9000
    },
    {
      "epoch": 9.64,
      "eval_accuracy": 0.8072519083969466,
      "eval_loss": 0.5017107129096985,
      "eval_runtime": 2.952,
      "eval_samples_per_second": 532.525,
      "eval_steps_per_second": 16.938,
      "step": 9000
    },
    {
      "epoch": 9.85,
      "grad_norm": 1.1020286083221436,
      "learning_rate": 0.0001691648822269807,
      "loss": 0.4141,
      "step": 9200
    },
    {
      "epoch": 9.85,
      "eval_accuracy": 0.8091603053435115,
      "eval_loss": 0.4984731078147888,
      "eval_runtime": 2.9633,
      "eval_samples_per_second": 530.497,
      "eval_steps_per_second": 16.873,
      "step": 9200
    },
    {
      "epoch": 10.06,
      "grad_norm": 1.2666047811508179,
      "learning_rate": 0.0001655960028551035,
      "loss": 0.4132,
      "step": 9400
    },
    {
      "epoch": 10.06,
      "eval_accuracy": 0.8053435114503816,
      "eval_loss": 0.5031649470329285,
      "eval_runtime": 2.9822,
      "eval_samples_per_second": 527.133,
      "eval_steps_per_second": 16.766,
      "step": 9400
    },
    {
      "epoch": 10.28,
      "grad_norm": 0.6767197251319885,
      "learning_rate": 0.00016202712348322625,
      "loss": 0.4043,
      "step": 9600
    },
    {
      "epoch": 10.28,
      "eval_accuracy": 0.8129770992366412,
      "eval_loss": 0.5038406848907471,
      "eval_runtime": 2.9816,
      "eval_samples_per_second": 527.24,
      "eval_steps_per_second": 16.77,
      "step": 9600
    },
    {
      "epoch": 10.49,
      "grad_norm": 1.147275447845459,
      "learning_rate": 0.00015845824411134902,
      "loss": 0.4187,
      "step": 9800
    },
    {
      "epoch": 10.49,
      "eval_accuracy": 0.8104325699745547,
      "eval_loss": 0.4981047213077545,
      "eval_runtime": 2.9858,
      "eval_samples_per_second": 526.485,
      "eval_steps_per_second": 16.746,
      "step": 9800
    },
    {
      "epoch": 10.71,
      "grad_norm": 1.6172677278518677,
      "learning_rate": 0.0001548893647394718,
      "loss": 0.3827,
      "step": 10000
    },
    {
      "epoch": 10.71,
      "eval_accuracy": 0.8072519083969466,
      "eval_loss": 0.5126467943191528,
      "eval_runtime": 2.9825,
      "eval_samples_per_second": 527.072,
      "eval_steps_per_second": 16.764,
      "step": 10000
    },
    {
      "epoch": 10.92,
      "grad_norm": 1.8639923334121704,
      "learning_rate": 0.00015132048536759457,
      "loss": 0.4074,
      "step": 10200
    },
    {
      "epoch": 10.92,
      "eval_accuracy": 0.8072519083969466,
      "eval_loss": 0.5088323950767517,
      "eval_runtime": 2.9816,
      "eval_samples_per_second": 527.237,
      "eval_steps_per_second": 16.77,
      "step": 10200
    },
    {
      "epoch": 11.13,
      "grad_norm": 1.2519667148590088,
      "learning_rate": 0.00014775160599571734,
      "loss": 0.4013,
      "step": 10400
    },
    {
      "epoch": 11.13,
      "eval_accuracy": 0.8072519083969466,
      "eval_loss": 0.5061373114585876,
      "eval_runtime": 2.9811,
      "eval_samples_per_second": 527.316,
      "eval_steps_per_second": 16.772,
      "step": 10400
    },
    {
      "epoch": 11.35,
      "grad_norm": 1.1711052656173706,
      "learning_rate": 0.0001441827266238401,
      "loss": 0.3888,
      "step": 10600
    },
    {
      "epoch": 11.35,
      "eval_accuracy": 0.8085241730279898,
      "eval_loss": 0.5013065338134766,
      "eval_runtime": 2.9847,
      "eval_samples_per_second": 526.681,
      "eval_steps_per_second": 16.752,
      "step": 10600
    },
    {
      "epoch": 11.56,
      "grad_norm": 1.8078001737594604,
      "learning_rate": 0.00014061384725196286,
      "loss": 0.3855,
      "step": 10800
    },
    {
      "epoch": 11.56,
      "eval_accuracy": 0.8059796437659033,
      "eval_loss": 0.4992610514163971,
      "eval_runtime": 2.9927,
      "eval_samples_per_second": 525.27,
      "eval_steps_per_second": 16.707,
      "step": 10800
    },
    {
      "epoch": 11.78,
      "grad_norm": 1.1071592569351196,
      "learning_rate": 0.00013704496788008563,
      "loss": 0.3924,
      "step": 11000
    },
    {
      "epoch": 11.78,
      "eval_accuracy": 0.8085241730279898,
      "eval_loss": 0.5075262188911438,
      "eval_runtime": 3.0066,
      "eval_samples_per_second": 522.844,
      "eval_steps_per_second": 16.63,
      "step": 11000
    },
    {
      "epoch": 11.99,
      "grad_norm": 1.3704427480697632,
      "learning_rate": 0.0001334760885082084,
      "loss": 0.4046,
      "step": 11200
    },
    {
      "epoch": 11.99,
      "eval_accuracy": 0.8027989821882952,
      "eval_loss": 0.49990707635879517,
      "eval_runtime": 3.0049,
      "eval_samples_per_second": 523.149,
      "eval_steps_per_second": 16.64,
      "step": 11200
    },
    {
      "epoch": 12.21,
      "grad_norm": 1.40170419216156,
      "learning_rate": 0.00012990720913633118,
      "loss": 0.3957,
      "step": 11400
    },
    {
      "epoch": 12.21,
      "eval_accuracy": 0.8034351145038168,
      "eval_loss": 0.5089264512062073,
      "eval_runtime": 2.9942,
      "eval_samples_per_second": 525.011,
      "eval_steps_per_second": 16.699,
      "step": 11400
    },
    {
      "epoch": 12.42,
      "grad_norm": 1.1885521411895752,
      "learning_rate": 0.00012633832976445395,
      "loss": 0.381,
      "step": 11600
    },
    {
      "epoch": 12.42,
      "eval_accuracy": 0.8072519083969466,
      "eval_loss": 0.5207549929618835,
      "eval_runtime": 2.9746,
      "eval_samples_per_second": 528.479,
      "eval_steps_per_second": 16.809,
      "step": 11600
    },
    {
      "epoch": 12.63,
      "grad_norm": 0.8873888254165649,
      "learning_rate": 0.00012276945039257673,
      "loss": 0.3906,
      "step": 11800
    },
    {
      "epoch": 12.63,
      "eval_accuracy": 0.806615776081425,
      "eval_loss": 0.513671875,
      "eval_runtime": 2.961,
      "eval_samples_per_second": 530.901,
      "eval_steps_per_second": 16.886,
      "step": 11800
    },
    {
      "epoch": 12.85,
      "grad_norm": 1.6491570472717285,
      "learning_rate": 0.0001192005710206995,
      "loss": 0.3734,
      "step": 12000
    },
    {
      "epoch": 12.85,
      "eval_accuracy": 0.8040712468193384,
      "eval_loss": 0.5183374881744385,
      "eval_runtime": 2.9533,
      "eval_samples_per_second": 532.292,
      "eval_steps_per_second": 16.93,
      "step": 12000
    },
    {
      "epoch": 13.06,
      "grad_norm": 2.042646884918213,
      "learning_rate": 0.00011563169164882227,
      "loss": 0.3928,
      "step": 12200
    },
    {
      "epoch": 13.06,
      "eval_accuracy": 0.806615776081425,
      "eval_loss": 0.5069447159767151,
      "eval_runtime": 2.959,
      "eval_samples_per_second": 531.259,
      "eval_steps_per_second": 16.898,
      "step": 12200
    },
    {
      "epoch": 13.28,
      "grad_norm": 0.817425549030304,
      "learning_rate": 0.00011206281227694502,
      "loss": 0.3774,
      "step": 12400
    },
    {
      "epoch": 13.28,
      "eval_accuracy": 0.8008905852417303,
      "eval_loss": 0.5086419582366943,
      "eval_runtime": 2.9547,
      "eval_samples_per_second": 532.04,
      "eval_steps_per_second": 16.922,
      "step": 12400
    },
    {
      "epoch": 13.49,
      "grad_norm": 1.0988578796386719,
      "learning_rate": 0.0001084939329050678,
      "loss": 0.3892,
      "step": 12600
    },
    {
      "epoch": 13.49,
      "eval_accuracy": 0.8059796437659033,
      "eval_loss": 0.4966925382614136,
      "eval_runtime": 2.9538,
      "eval_samples_per_second": 532.194,
      "eval_steps_per_second": 16.927,
      "step": 12600
    },
    {
      "epoch": 13.7,
      "grad_norm": 1.312321662902832,
      "learning_rate": 0.00010492505353319058,
      "loss": 0.372,
      "step": 12800
    },
    {
      "epoch": 13.7,
      "eval_accuracy": 0.8040712468193384,
      "eval_loss": 0.5042534470558167,
      "eval_runtime": 2.9651,
      "eval_samples_per_second": 530.16,
      "eval_steps_per_second": 16.863,
      "step": 12800
    },
    {
      "epoch": 13.92,
      "grad_norm": 1.642741322517395,
      "learning_rate": 0.00010135617416131332,
      "loss": 0.388,
      "step": 13000
    },
    {
      "epoch": 13.92,
      "eval_accuracy": 0.8072519083969466,
      "eval_loss": 0.5095480680465698,
      "eval_runtime": 2.9526,
      "eval_samples_per_second": 532.404,
      "eval_steps_per_second": 16.934,
      "step": 13000
    },
    {
      "epoch": 14.13,
      "grad_norm": 1.10377836227417,
      "learning_rate": 9.778729478943611e-05,
      "loss": 0.3754,
      "step": 13200
    },
    {
      "epoch": 14.13,
      "eval_accuracy": 0.8021628498727735,
      "eval_loss": 0.5103972554206848,
      "eval_runtime": 2.9663,
      "eval_samples_per_second": 529.954,
      "eval_steps_per_second": 16.856,
      "step": 13200
    },
    {
      "epoch": 14.35,
      "grad_norm": 1.1614229679107666,
      "learning_rate": 9.421841541755888e-05,
      "loss": 0.3639,
      "step": 13400
    },
    {
      "epoch": 14.35,
      "eval_accuracy": 0.7983460559796438,
      "eval_loss": 0.5263165235519409,
      "eval_runtime": 2.9391,
      "eval_samples_per_second": 534.858,
      "eval_steps_per_second": 17.012,
      "step": 13400
    },
    {
      "epoch": 14.56,
      "grad_norm": 1.6049692630767822,
      "learning_rate": 9.064953604568166e-05,
      "loss": 0.3795,
      "step": 13600
    },
    {
      "epoch": 14.56,
      "eval_accuracy": 0.8015267175572519,
      "eval_loss": 0.5145931839942932,
      "eval_runtime": 2.9465,
      "eval_samples_per_second": 533.506,
      "eval_steps_per_second": 16.969,
      "step": 13600
    },
    {
      "epoch": 14.78,
      "grad_norm": 2.813002347946167,
      "learning_rate": 8.708065667380442e-05,
      "loss": 0.3792,
      "step": 13800
    },
    {
      "epoch": 14.78,
      "eval_accuracy": 0.8040712468193384,
      "eval_loss": 0.5066380500793457,
      "eval_runtime": 2.9409,
      "eval_samples_per_second": 534.523,
      "eval_steps_per_second": 17.001,
      "step": 13800
    },
    {
      "epoch": 14.99,
      "grad_norm": 1.2670201063156128,
      "learning_rate": 8.351177730192719e-05,
      "loss": 0.3589,
      "step": 14000
    },
    {
      "epoch": 14.99,
      "eval_accuracy": 0.8078880407124682,
      "eval_loss": 0.5135853886604309,
      "eval_runtime": 2.962,
      "eval_samples_per_second": 530.717,
      "eval_steps_per_second": 16.88,
      "step": 14000
    },
    {
      "epoch": 15.2,
      "grad_norm": 1.9681557416915894,
      "learning_rate": 7.994289793004996e-05,
      "loss": 0.3624,
      "step": 14200
    },
    {
      "epoch": 15.2,
      "eval_accuracy": 0.8021628498727735,
      "eval_loss": 0.5237164497375488,
      "eval_runtime": 2.9535,
      "eval_samples_per_second": 532.245,
      "eval_steps_per_second": 16.929,
      "step": 14200
    },
    {
      "epoch": 15.42,
      "grad_norm": 1.8548041582107544,
      "learning_rate": 7.637401855817274e-05,
      "loss": 0.3659,
      "step": 14400
    },
    {
      "epoch": 15.42,
      "eval_accuracy": 0.8059796437659033,
      "eval_loss": 0.5165674090385437,
      "eval_runtime": 2.9482,
      "eval_samples_per_second": 533.2,
      "eval_steps_per_second": 16.959,
      "step": 14400
    },
    {
      "epoch": 15.63,
      "grad_norm": 1.3727173805236816,
      "learning_rate": 7.28051391862955e-05,
      "loss": 0.3657,
      "step": 14600
    },
    {
      "epoch": 15.63,
      "eval_accuracy": 0.8002544529262087,
      "eval_loss": 0.5177738070487976,
      "eval_runtime": 2.9451,
      "eval_samples_per_second": 533.764,
      "eval_steps_per_second": 16.977,
      "step": 14600
    },
    {
      "epoch": 15.85,
      "grad_norm": 2.10198974609375,
      "learning_rate": 6.923625981441827e-05,
      "loss": 0.359,
      "step": 14800
    },
    {
      "epoch": 15.85,
      "eval_accuracy": 0.7983460559796438,
      "eval_loss": 0.5152426362037659,
      "eval_runtime": 2.9473,
      "eval_samples_per_second": 533.372,
      "eval_steps_per_second": 16.965,
      "step": 14800
    },
    {
      "epoch": 16.06,
      "grad_norm": 1.0453667640686035,
      "learning_rate": 6.566738044254104e-05,
      "loss": 0.3677,
      "step": 15000
    },
    {
      "epoch": 16.06,
      "eval_accuracy": 0.8034351145038168,
      "eval_loss": 0.5211815237998962,
      "eval_runtime": 2.9478,
      "eval_samples_per_second": 533.274,
      "eval_steps_per_second": 16.962,
      "step": 15000
    },
    {
      "epoch": 16.27,
      "grad_norm": 1.0645538568496704,
      "learning_rate": 6.20985010706638e-05,
      "loss": 0.3521,
      "step": 15200
    },
    {
      "epoch": 16.27,
      "eval_accuracy": 0.8002544529262087,
      "eval_loss": 0.5323696732521057,
      "eval_runtime": 2.9594,
      "eval_samples_per_second": 531.197,
      "eval_steps_per_second": 16.896,
      "step": 15200
    },
    {
      "epoch": 16.49,
      "grad_norm": 3.849015951156616,
      "learning_rate": 5.852962169878657e-05,
      "loss": 0.3589,
      "step": 15400
    },
    {
      "epoch": 16.49,
      "eval_accuracy": 0.8040712468193384,
      "eval_loss": 0.5237988829612732,
      "eval_runtime": 2.9364,
      "eval_samples_per_second": 535.357,
      "eval_steps_per_second": 17.028,
      "step": 15400
    },
    {
      "epoch": 16.7,
      "grad_norm": 1.3231987953186035,
      "learning_rate": 5.496074232690935e-05,
      "loss": 0.3695,
      "step": 15600
    },
    {
      "epoch": 16.7,
      "eval_accuracy": 0.7977099236641222,
      "eval_loss": 0.511340320110321,
      "eval_runtime": 2.969,
      "eval_samples_per_second": 529.468,
      "eval_steps_per_second": 16.841,
      "step": 15600
    },
    {
      "epoch": 16.92,
      "grad_norm": 1.7709985971450806,
      "learning_rate": 5.139186295503211e-05,
      "loss": 0.3606,
      "step": 15800
    },
    {
      "epoch": 16.92,
      "eval_accuracy": 0.7983460559796438,
      "eval_loss": 0.5136662721633911,
      "eval_runtime": 2.9594,
      "eval_samples_per_second": 531.193,
      "eval_steps_per_second": 16.895,
      "step": 15800
    },
    {
      "epoch": 17.13,
      "grad_norm": 1.5108495950698853,
      "learning_rate": 4.782298358315489e-05,
      "loss": 0.3581,
      "step": 16000
    },
    {
      "epoch": 17.13,
      "eval_accuracy": 0.799618320610687,
      "eval_loss": 0.5130853056907654,
      "eval_runtime": 2.9611,
      "eval_samples_per_second": 530.882,
      "eval_steps_per_second": 16.886,
      "step": 16000
    },
    {
      "epoch": 17.34,
      "grad_norm": 1.3634617328643799,
      "learning_rate": 4.4254104211277655e-05,
      "loss": 0.3488,
      "step": 16200
    },
    {
      "epoch": 17.34,
      "eval_accuracy": 0.7989821882951654,
      "eval_loss": 0.5270070433616638,
      "eval_runtime": 2.9953,
      "eval_samples_per_second": 524.824,
      "eval_steps_per_second": 16.693,
      "step": 16200
    },
    {
      "epoch": 17.56,
      "grad_norm": 1.0239213705062866,
      "learning_rate": 4.068522483940043e-05,
      "loss": 0.3499,
      "step": 16400
    },
    {
      "epoch": 17.56,
      "eval_accuracy": 0.7964376590330788,
      "eval_loss": 0.523576021194458,
      "eval_runtime": 2.9356,
      "eval_samples_per_second": 535.502,
      "eval_steps_per_second": 17.033,
      "step": 16400
    },
    {
      "epoch": 17.77,
      "grad_norm": 1.108484148979187,
      "learning_rate": 3.7116345467523195e-05,
      "loss": 0.3603,
      "step": 16600
    },
    {
      "epoch": 17.77,
      "eval_accuracy": 0.8002544529262087,
      "eval_loss": 0.5186541080474854,
      "eval_runtime": 2.9666,
      "eval_samples_per_second": 529.891,
      "eval_steps_per_second": 16.854,
      "step": 16600
    },
    {
      "epoch": 17.99,
      "grad_norm": 2.816092014312744,
      "learning_rate": 3.354746609564596e-05,
      "loss": 0.3578,
      "step": 16800
    },
    {
      "epoch": 17.99,
      "eval_accuracy": 0.8021628498727735,
      "eval_loss": 0.5223926901817322,
      "eval_runtime": 2.9355,
      "eval_samples_per_second": 535.521,
      "eval_steps_per_second": 17.033,
      "step": 16800
    },
    {
      "epoch": 18.2,
      "grad_norm": 1.5831489562988281,
      "learning_rate": 2.997858672376873e-05,
      "loss": 0.3449,
      "step": 17000
    },
    {
      "epoch": 18.2,
      "eval_accuracy": 0.7989821882951654,
      "eval_loss": 0.5227622389793396,
      "eval_runtime": 2.9602,
      "eval_samples_per_second": 531.048,
      "eval_steps_per_second": 16.891,
      "step": 17000
    },
    {
      "epoch": 18.42,
      "grad_norm": 1.0060327053070068,
      "learning_rate": 2.64097073518915e-05,
      "loss": 0.3418,
      "step": 17200
    },
    {
      "epoch": 18.42,
      "eval_accuracy": 0.8008905852417303,
      "eval_loss": 0.5287216901779175,
      "eval_runtime": 2.9537,
      "eval_samples_per_second": 532.21,
      "eval_steps_per_second": 16.928,
      "step": 17200
    },
    {
      "epoch": 18.63,
      "grad_norm": 1.8092093467712402,
      "learning_rate": 2.2840827980014274e-05,
      "loss": 0.3334,
      "step": 17400
    },
    {
      "epoch": 18.63,
      "eval_accuracy": 0.799618320610687,
      "eval_loss": 0.5322315096855164,
      "eval_runtime": 2.9745,
      "eval_samples_per_second": 528.484,
      "eval_steps_per_second": 16.809,
      "step": 17400
    },
    {
      "epoch": 18.84,
      "grad_norm": 1.4800430536270142,
      "learning_rate": 1.9271948608137044e-05,
      "loss": 0.3567,
      "step": 17600
    },
    {
      "epoch": 18.84,
      "eval_accuracy": 0.7983460559796438,
      "eval_loss": 0.5293812155723572,
      "eval_runtime": 2.9485,
      "eval_samples_per_second": 533.161,
      "eval_steps_per_second": 16.958,
      "step": 17600
    },
    {
      "epoch": 19.06,
      "grad_norm": 1.6271811723709106,
      "learning_rate": 1.5703069236259814e-05,
      "loss": 0.3541,
      "step": 17800
    },
    {
      "epoch": 19.06,
      "eval_accuracy": 0.8002544529262087,
      "eval_loss": 0.5250320434570312,
      "eval_runtime": 2.9479,
      "eval_samples_per_second": 533.268,
      "eval_steps_per_second": 16.961,
      "step": 17800
    },
    {
      "epoch": 19.27,
      "grad_norm": 0.7758527994155884,
      "learning_rate": 1.2134189864382584e-05,
      "loss": 0.365,
      "step": 18000
    },
    {
      "epoch": 19.27,
      "eval_accuracy": 0.7983460559796438,
      "eval_loss": 0.5246437788009644,
      "eval_runtime": 2.9363,
      "eval_samples_per_second": 535.369,
      "eval_steps_per_second": 17.028,
      "step": 18000
    },
    {
      "epoch": 19.49,
      "grad_norm": 0.9722337126731873,
      "learning_rate": 8.565310492505352e-06,
      "loss": 0.337,
      "step": 18200
    },
    {
      "epoch": 19.49,
      "eval_accuracy": 0.7977099236641222,
      "eval_loss": 0.527810275554657,
      "eval_runtime": 2.9383,
      "eval_samples_per_second": 535.006,
      "eval_steps_per_second": 17.017,
      "step": 18200
    },
    {
      "epoch": 19.7,
      "grad_norm": 1.5007203817367554,
      "learning_rate": 4.996431120628123e-06,
      "loss": 0.3301,
      "step": 18400
    },
    {
      "epoch": 19.7,
      "eval_accuracy": 0.7989821882951654,
      "eval_loss": 0.5283259153366089,
      "eval_runtime": 2.9603,
      "eval_samples_per_second": 531.035,
      "eval_steps_per_second": 16.89,
      "step": 18400
    },
    {
      "epoch": 19.91,
      "grad_norm": 1.1220752000808716,
      "learning_rate": 1.4275517487508921e-06,
      "loss": 0.3421,
      "step": 18600
    },
    {
      "epoch": 19.91,
      "eval_accuracy": 0.7977099236641222,
      "eval_loss": 0.5287136435508728,
      "eval_runtime": 2.9398,
      "eval_samples_per_second": 534.737,
      "eval_steps_per_second": 17.008,
      "step": 18600
    },
    {
      "epoch": 20.0,
      "step": 18680,
      "total_flos": 1.44512252251488e+16,
      "train_loss": 0.42864556159401346,
      "train_runtime": 2680.553,
      "train_samples_per_second": 222.82,
      "train_steps_per_second": 6.969
    }
  ],
  "logging_steps": 200,
  "max_steps": 18680,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 20,
  "save_steps": 200,
  "total_flos": 1.44512252251488e+16,
  "train_batch_size": 32,
  "trial_name": null,
  "trial_params": null
}