{
  "best_metric": 0.7937062937062938,
  "best_model_checkpoint": "wav2vec2-5Class-train-test-finetune/checkpoint-4122",
  "epoch": 224.0,
  "eval_steps": 500,
  "global_step": 5432,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.99,
      "eval_accuracy": 0.34265734265734266,
      "eval_loss": 1.5984586477279663,
      "eval_runtime": 5.3437,
      "eval_samples_per_second": 53.521,
      "eval_steps_per_second": 3.368,
      "step": 24
    },
    {
      "epoch": 1.98,
      "eval_accuracy": 0.33916083916083917,
      "eval_loss": 1.5969289541244507,
      "eval_runtime": 3.8653,
      "eval_samples_per_second": 73.992,
      "eval_steps_per_second": 4.657,
      "step": 48
    },
    {
      "epoch": 2.06,
      "grad_norm": 1.0544973611831665,
      "learning_rate": 2.4999999999999998e-06,
      "loss": 1.5969,
      "step": 50
    },
    {
      "epoch": 2.97,
      "eval_accuracy": 0.32867132867132864,
      "eval_loss": 1.5943816900253296,
      "eval_runtime": 6.1748,
      "eval_samples_per_second": 46.317,
      "eval_steps_per_second": 2.915,
      "step": 72
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.3146853146853147,
      "eval_loss": 1.5906767845153809,
      "eval_runtime": 5.1678,
      "eval_samples_per_second": 55.343,
      "eval_steps_per_second": 3.483,
      "step": 97
    },
    {
      "epoch": 4.12,
      "grad_norm": 0.8443157076835632,
      "learning_rate": 4.9999999999999996e-06,
      "loss": 1.5896,
      "step": 100
    },
    {
      "epoch": 4.99,
      "eval_accuracy": 0.2972027972027972,
      "eval_loss": 1.5860023498535156,
      "eval_runtime": 4.9416,
      "eval_samples_per_second": 57.876,
      "eval_steps_per_second": 3.643,
      "step": 121
    },
    {
      "epoch": 5.98,
      "eval_accuracy": 0.2692307692307692,
      "eval_loss": 1.5806005001068115,
      "eval_runtime": 4.1837,
      "eval_samples_per_second": 68.36,
      "eval_steps_per_second": 4.302,
      "step": 145
    },
    {
      "epoch": 6.19,
      "grad_norm": 1.0938074588775635,
      "learning_rate": 7.5e-06,
      "loss": 1.5743,
      "step": 150
    },
    {
      "epoch": 6.97,
      "eval_accuracy": 0.25874125874125875,
      "eval_loss": 1.5742768049240112,
      "eval_runtime": 7.1914,
      "eval_samples_per_second": 39.77,
      "eval_steps_per_second": 2.503,
      "step": 169
    },
    {
      "epoch": 8.0,
      "eval_accuracy": 0.23426573426573427,
      "eval_loss": 1.5664165019989014,
      "eval_runtime": 5.6489,
      "eval_samples_per_second": 50.629,
      "eval_steps_per_second": 3.186,
      "step": 194
    },
    {
      "epoch": 8.25,
      "grad_norm": 0.9692079424858093,
      "learning_rate": 9.999999999999999e-06,
      "loss": 1.5508,
      "step": 200
    },
    {
      "epoch": 8.99,
      "eval_accuracy": 0.22727272727272727,
      "eval_loss": 1.557572841644287,
      "eval_runtime": 5.5182,
      "eval_samples_per_second": 51.828,
      "eval_steps_per_second": 3.262,
      "step": 218
    },
    {
      "epoch": 9.98,
      "eval_accuracy": 0.22727272727272727,
      "eval_loss": 1.5482373237609863,
      "eval_runtime": 5.3205,
      "eval_samples_per_second": 53.754,
      "eval_steps_per_second": 3.383,
      "step": 242
    },
    {
      "epoch": 10.31,
      "grad_norm": 1.02046799659729,
      "learning_rate": 1.25e-05,
      "loss": 1.5157,
      "step": 250
    },
    {
      "epoch": 10.97,
      "eval_accuracy": 0.22727272727272727,
      "eval_loss": 1.539355993270874,
      "eval_runtime": 6.3116,
      "eval_samples_per_second": 45.313,
      "eval_steps_per_second": 2.852,
      "step": 266
    },
    {
      "epoch": 12.0,
      "eval_accuracy": 0.22727272727272727,
      "eval_loss": 1.5350520610809326,
      "eval_runtime": 4.3422,
      "eval_samples_per_second": 65.865,
      "eval_steps_per_second": 4.145,
      "step": 291
    },
    {
      "epoch": 12.37,
      "grad_norm": 1.6058833599090576,
      "learning_rate": 1.5e-05,
      "loss": 1.4534,
      "step": 300
    },
    {
      "epoch": 12.99,
      "eval_accuracy": 0.22727272727272727,
      "eval_loss": 1.5525730848312378,
      "eval_runtime": 5.245,
      "eval_samples_per_second": 54.528,
      "eval_steps_per_second": 3.432,
      "step": 315
    },
    {
      "epoch": 13.98,
      "eval_accuracy": 0.22727272727272727,
      "eval_loss": 1.599926471710205,
      "eval_runtime": 6.0088,
      "eval_samples_per_second": 47.597,
      "eval_steps_per_second": 2.996,
      "step": 339
    },
    {
      "epoch": 14.43,
      "grad_norm": 0.8243080377578735,
      "learning_rate": 1.7500000000000002e-05,
      "loss": 1.3638,
      "step": 350
    },
    {
      "epoch": 14.97,
      "eval_accuracy": 0.22727272727272727,
      "eval_loss": 1.5896875858306885,
      "eval_runtime": 4.8752,
      "eval_samples_per_second": 58.664,
      "eval_steps_per_second": 3.692,
      "step": 363
    },
    {
      "epoch": 16.0,
      "eval_accuracy": 0.26573426573426573,
      "eval_loss": 1.560091495513916,
      "eval_runtime": 5.5082,
      "eval_samples_per_second": 51.922,
      "eval_steps_per_second": 3.268,
      "step": 388
    },
    {
      "epoch": 16.49,
      "grad_norm": 0.7977257370948792,
      "learning_rate": 1.9999999999999998e-05,
      "loss": 1.2951,
      "step": 400
    },
    {
      "epoch": 16.99,
      "eval_accuracy": 0.2937062937062937,
      "eval_loss": 1.5349317789077759,
      "eval_runtime": 4.7526,
      "eval_samples_per_second": 60.178,
      "eval_steps_per_second": 3.787,
      "step": 412
    },
    {
      "epoch": 17.98,
      "eval_accuracy": 0.34265734265734266,
      "eval_loss": 1.5053907632827759,
      "eval_runtime": 4.8638,
      "eval_samples_per_second": 58.801,
      "eval_steps_per_second": 3.701,
      "step": 436
    },
    {
      "epoch": 18.56,
      "grad_norm": 0.7064552903175354,
      "learning_rate": 2.25e-05,
      "loss": 1.2369,
      "step": 450
    },
    {
      "epoch": 18.97,
      "eval_accuracy": 0.3741258741258741,
      "eval_loss": 1.4689087867736816,
      "eval_runtime": 4.3712,
      "eval_samples_per_second": 65.428,
      "eval_steps_per_second": 4.118,
      "step": 460
    },
    {
      "epoch": 20.0,
      "eval_accuracy": 0.4370629370629371,
      "eval_loss": 1.404613971710205,
      "eval_runtime": 4.7203,
      "eval_samples_per_second": 60.59,
      "eval_steps_per_second": 3.813,
      "step": 485
    },
    {
      "epoch": 20.62,
      "grad_norm": 0.598238468170166,
      "learning_rate": 2.5e-05,
      "loss": 1.1566,
      "step": 500
    },
    {
      "epoch": 20.99,
      "eval_accuracy": 0.4405594405594406,
      "eval_loss": 1.3691043853759766,
      "eval_runtime": 6.6443,
      "eval_samples_per_second": 43.044,
      "eval_steps_per_second": 2.709,
      "step": 509
    },
    {
      "epoch": 21.98,
      "eval_accuracy": 0.4825174825174825,
      "eval_loss": 1.3120107650756836,
      "eval_runtime": 4.9585,
      "eval_samples_per_second": 57.679,
      "eval_steps_per_second": 3.63,
      "step": 533
    },
    {
      "epoch": 22.68,
      "grad_norm": 0.682925820350647,
      "learning_rate": 2.75e-05,
      "loss": 1.0676,
      "step": 550
    },
    {
      "epoch": 22.97,
      "eval_accuracy": 0.486013986013986,
      "eval_loss": 1.2839338779449463,
      "eval_runtime": 4.0382,
      "eval_samples_per_second": 70.824,
      "eval_steps_per_second": 4.457,
      "step": 557
    },
    {
      "epoch": 24.0,
      "eval_accuracy": 0.5104895104895105,
      "eval_loss": 1.2549891471862793,
      "eval_runtime": 5.1896,
      "eval_samples_per_second": 55.11,
      "eval_steps_per_second": 3.468,
      "step": 582
    },
    {
      "epoch": 24.74,
      "grad_norm": 1.1368101835250854,
      "learning_rate": 3e-05,
      "loss": 0.992,
      "step": 600
    },
    {
      "epoch": 24.99,
      "eval_accuracy": 0.5209790209790209,
      "eval_loss": 1.2106566429138184,
      "eval_runtime": 6.8941,
      "eval_samples_per_second": 41.485,
      "eval_steps_per_second": 2.611,
      "step": 606
    },
    {
      "epoch": 25.98,
      "eval_accuracy": 0.5384615384615384,
      "eval_loss": 1.1711338758468628,
      "eval_runtime": 4.9707,
      "eval_samples_per_second": 57.537,
      "eval_steps_per_second": 3.621,
      "step": 630
    },
    {
      "epoch": 26.8,
      "grad_norm": 0.9649831056594849,
      "learning_rate": 2.9722222222222223e-05,
      "loss": 0.9272,
      "step": 650
    },
    {
      "epoch": 26.97,
      "eval_accuracy": 0.5594405594405595,
      "eval_loss": 1.1318116188049316,
      "eval_runtime": 5.5564,
      "eval_samples_per_second": 51.472,
      "eval_steps_per_second": 3.24,
      "step": 654
    },
    {
      "epoch": 28.0,
      "eval_accuracy": 0.6153846153846154,
      "eval_loss": 1.0594333410263062,
      "eval_runtime": 4.6773,
      "eval_samples_per_second": 61.147,
      "eval_steps_per_second": 3.848,
      "step": 679
    },
    {
      "epoch": 28.87,
      "grad_norm": 0.883937418460846,
      "learning_rate": 2.9444444444444445e-05,
      "loss": 0.8478,
      "step": 700
    },
    {
      "epoch": 28.99,
      "eval_accuracy": 0.6013986013986014,
      "eval_loss": 1.054669737815857,
      "eval_runtime": 4.9219,
      "eval_samples_per_second": 58.108,
      "eval_steps_per_second": 3.657,
      "step": 703
    },
    {
      "epoch": 29.98,
      "eval_accuracy": 0.6363636363636364,
      "eval_loss": 0.9822685122489929,
      "eval_runtime": 6.3133,
      "eval_samples_per_second": 45.302,
      "eval_steps_per_second": 2.851,
      "step": 727
    },
    {
      "epoch": 30.93,
      "grad_norm": 1.3742878437042236,
      "learning_rate": 2.9166666666666666e-05,
      "loss": 0.7627,
      "step": 750
    },
    {
      "epoch": 30.97,
      "eval_accuracy": 0.6398601398601399,
      "eval_loss": 1.00295090675354,
      "eval_runtime": 6.154,
      "eval_samples_per_second": 46.473,
      "eval_steps_per_second": 2.925,
      "step": 751
    },
    {
      "epoch": 32.0,
      "eval_accuracy": 0.6608391608391608,
      "eval_loss": 0.930969774723053,
      "eval_runtime": 5.6747,
      "eval_samples_per_second": 50.399,
      "eval_steps_per_second": 3.172,
      "step": 776
    },
    {
      "epoch": 32.99,
      "grad_norm": 1.329268217086792,
      "learning_rate": 2.8888888888888888e-05,
      "loss": 0.7266,
      "step": 800
    },
    {
      "epoch": 32.99,
      "eval_accuracy": 0.6678321678321678,
      "eval_loss": 0.9228739738464355,
      "eval_runtime": 5.382,
      "eval_samples_per_second": 53.14,
      "eval_steps_per_second": 3.344,
      "step": 800
    },
    {
      "epoch": 33.98,
      "eval_accuracy": 0.6958041958041958,
      "eval_loss": 0.8684509992599487,
      "eval_runtime": 4.8497,
      "eval_samples_per_second": 58.973,
      "eval_steps_per_second": 3.712,
      "step": 824
    },
    {
      "epoch": 34.97,
      "eval_accuracy": 0.6643356643356644,
      "eval_loss": 0.8954732418060303,
      "eval_runtime": 5.2083,
      "eval_samples_per_second": 54.912,
      "eval_steps_per_second": 3.456,
      "step": 848
    },
    {
      "epoch": 35.05,
      "grad_norm": 1.3892701864242554,
      "learning_rate": 2.8611111111111113e-05,
      "loss": 0.6906,
      "step": 850
    },
    {
      "epoch": 36.0,
      "eval_accuracy": 0.6713286713286714,
      "eval_loss": 0.9125654101371765,
      "eval_runtime": 5.3068,
      "eval_samples_per_second": 53.894,
      "eval_steps_per_second": 3.392,
      "step": 873
    },
    {
      "epoch": 36.99,
      "eval_accuracy": 0.6923076923076923,
      "eval_loss": 0.8543534874916077,
      "eval_runtime": 4.3351,
      "eval_samples_per_second": 65.974,
      "eval_steps_per_second": 4.152,
      "step": 897
    },
    {
      "epoch": 37.11,
      "grad_norm": 0.836291491985321,
      "learning_rate": 2.8333333333333332e-05,
      "loss": 0.6721,
      "step": 900
    },
    {
      "epoch": 37.98,
      "eval_accuracy": 0.6923076923076923,
      "eval_loss": 0.8480322957038879,
      "eval_runtime": 5.1861,
      "eval_samples_per_second": 55.147,
      "eval_steps_per_second": 3.471,
      "step": 921
    },
    {
      "epoch": 38.97,
      "eval_accuracy": 0.7097902097902098,
      "eval_loss": 0.8354606628417969,
      "eval_runtime": 6.3247,
      "eval_samples_per_second": 45.22,
      "eval_steps_per_second": 2.846,
      "step": 945
    },
    {
      "epoch": 39.18,
      "grad_norm": 1.6499431133270264,
      "learning_rate": 2.8055555555555557e-05,
      "loss": 0.6442,
      "step": 950
    },
    {
      "epoch": 40.0,
      "eval_accuracy": 0.6958041958041958,
      "eval_loss": 0.8412452340126038,
      "eval_runtime": 5.2281,
      "eval_samples_per_second": 54.704,
      "eval_steps_per_second": 3.443,
      "step": 970
    },
    {
      "epoch": 40.99,
      "eval_accuracy": 0.6888111888111889,
      "eval_loss": 0.8356389999389648,
      "eval_runtime": 4.8326,
      "eval_samples_per_second": 59.181,
      "eval_steps_per_second": 3.725,
      "step": 994
    },
    {
      "epoch": 41.24,
      "grad_norm": 1.1766818761825562,
      "learning_rate": 2.777777777777778e-05,
      "loss": 0.6465,
      "step": 1000
    },
    {
      "epoch": 41.98,
      "eval_accuracy": 0.7062937062937062,
      "eval_loss": 0.8180016875267029,
      "eval_runtime": 5.7926,
      "eval_samples_per_second": 49.374,
      "eval_steps_per_second": 3.107,
      "step": 1018
    },
    {
      "epoch": 42.97,
      "eval_accuracy": 0.7027972027972028,
      "eval_loss": 0.8103991150856018,
      "eval_runtime": 5.5185,
      "eval_samples_per_second": 51.825,
      "eval_steps_per_second": 3.262,
      "step": 1042
    },
    {
      "epoch": 43.3,
      "grad_norm": 0.9722403287887573,
      "learning_rate": 2.75e-05,
      "loss": 0.6086,
      "step": 1050
    },
    {
      "epoch": 44.0,
      "eval_accuracy": 0.6958041958041958,
      "eval_loss": 0.8162235617637634,
      "eval_runtime": 4.9174,
      "eval_samples_per_second": 58.161,
      "eval_steps_per_second": 3.66,
      "step": 1067
    },
    {
      "epoch": 44.99,
      "eval_accuracy": 0.7027972027972028,
      "eval_loss": 0.7957289218902588,
      "eval_runtime": 4.6891,
      "eval_samples_per_second": 60.992,
      "eval_steps_per_second": 3.839,
      "step": 1091
    },
    {
      "epoch": 45.36,
      "grad_norm": 1.269113302230835,
      "learning_rate": 2.7222222222222223e-05,
      "loss": 0.5863,
      "step": 1100
    },
    {
      "epoch": 45.98,
      "eval_accuracy": 0.6958041958041958,
      "eval_loss": 0.8143528699874878,
      "eval_runtime": 6.6805,
      "eval_samples_per_second": 42.811,
      "eval_steps_per_second": 2.694,
      "step": 1115
    },
    {
      "epoch": 46.97,
      "eval_accuracy": 0.7027972027972028,
      "eval_loss": 0.78568434715271,
      "eval_runtime": 4.7422,
      "eval_samples_per_second": 60.31,
      "eval_steps_per_second": 3.796,
      "step": 1139
    },
    {
      "epoch": 47.42,
      "grad_norm": 0.9775255918502808,
      "learning_rate": 2.6944444444444445e-05,
      "loss": 0.5877,
      "step": 1150
    },
    {
      "epoch": 48.0,
      "eval_accuracy": 0.7132867132867133,
      "eval_loss": 0.7764595150947571,
      "eval_runtime": 5.76,
      "eval_samples_per_second": 49.653,
      "eval_steps_per_second": 3.125,
      "step": 1164
    },
    {
      "epoch": 48.99,
      "eval_accuracy": 0.6993006993006993,
      "eval_loss": 0.7881478071212769,
      "eval_runtime": 5.4965,
      "eval_samples_per_second": 52.033,
      "eval_steps_per_second": 3.275,
      "step": 1188
    },
    {
      "epoch": 49.48,
      "grad_norm": 1.540124773979187,
      "learning_rate": 2.6666666666666667e-05,
      "loss": 0.5629,
      "step": 1200
    },
    {
      "epoch": 49.98,
      "eval_accuracy": 0.7097902097902098,
      "eval_loss": 0.7658265829086304,
      "eval_runtime": 4.731,
      "eval_samples_per_second": 60.452,
      "eval_steps_per_second": 3.805,
      "step": 1212
    },
    {
      "epoch": 50.97,
      "eval_accuracy": 0.7132867132867133,
      "eval_loss": 0.7723098397254944,
      "eval_runtime": 5.8352,
      "eval_samples_per_second": 49.013,
      "eval_steps_per_second": 3.085,
      "step": 1236
    },
    {
      "epoch": 51.55,
      "grad_norm": 1.2498500347137451,
      "learning_rate": 2.6388888888888892e-05,
      "loss": 0.5476,
      "step": 1250
    },
    {
      "epoch": 52.0,
      "eval_accuracy": 0.7097902097902098,
      "eval_loss": 0.7603952884674072,
      "eval_runtime": 4.448,
      "eval_samples_per_second": 64.299,
      "eval_steps_per_second": 4.047,
      "step": 1261
    },
    {
      "epoch": 52.99,
      "eval_accuracy": 0.7202797202797203,
      "eval_loss": 0.7554137706756592,
      "eval_runtime": 6.4218,
      "eval_samples_per_second": 44.536,
      "eval_steps_per_second": 2.803,
      "step": 1285
    },
    {
      "epoch": 53.61,
      "grad_norm": 0.9919388890266418,
      "learning_rate": 2.6116666666666667e-05,
      "loss": 0.5357,
      "step": 1300
    },
    {
      "epoch": 53.98,
      "eval_accuracy": 0.7307692307692307,
      "eval_loss": 0.7458928227424622,
      "eval_runtime": 5.3791,
      "eval_samples_per_second": 53.168,
      "eval_steps_per_second": 3.346,
      "step": 1309
    },
    {
      "epoch": 54.97,
      "eval_accuracy": 0.7132867132867133,
      "eval_loss": 0.7632877230644226,
      "eval_runtime": 5.278,
      "eval_samples_per_second": 54.187,
      "eval_steps_per_second": 3.41,
      "step": 1333
    },
    {
      "epoch": 55.67,
      "grad_norm": 1.688183307647705,
      "learning_rate": 2.5838888888888892e-05,
      "loss": 0.5335,
      "step": 1350
    },
    {
      "epoch": 56.0,
      "eval_accuracy": 0.7167832167832168,
      "eval_loss": 0.768308162689209,
      "eval_runtime": 5.7022,
      "eval_samples_per_second": 50.156,
      "eval_steps_per_second": 3.157,
      "step": 1358
    },
    {
      "epoch": 56.99,
      "eval_accuracy": 0.7307692307692307,
      "eval_loss": 0.7380541563034058,
      "eval_runtime": 4.522,
      "eval_samples_per_second": 63.247,
      "eval_steps_per_second": 3.981,
      "step": 1382
    },
    {
      "epoch": 57.73,
      "grad_norm": 1.4895784854888916,
      "learning_rate": 2.556111111111111e-05,
      "loss": 0.5107,
      "step": 1400
    },
    {
      "epoch": 57.98,
      "eval_accuracy": 0.7377622377622378,
      "eval_loss": 0.7308338284492493,
      "eval_runtime": 4.4787,
      "eval_samples_per_second": 63.857,
      "eval_steps_per_second": 4.019,
      "step": 1406
    },
    {
      "epoch": 58.97,
      "eval_accuracy": 0.7237762237762237,
      "eval_loss": 0.7441032528877258,
      "eval_runtime": 5.8744,
      "eval_samples_per_second": 48.685,
      "eval_steps_per_second": 3.064,
      "step": 1430
    },
    {
      "epoch": 59.79,
      "grad_norm": 1.4925004243850708,
      "learning_rate": 2.5283333333333332e-05,
      "loss": 0.5105,
      "step": 1450
    },
    {
      "epoch": 60.0,
      "eval_accuracy": 0.7307692307692307,
      "eval_loss": 0.7481815218925476,
      "eval_runtime": 7.272,
      "eval_samples_per_second": 39.329,
      "eval_steps_per_second": 2.475,
      "step": 1455
    },
    {
      "epoch": 60.99,
      "eval_accuracy": 0.7342657342657343,
      "eval_loss": 0.733482301235199,
      "eval_runtime": 4.6235,
      "eval_samples_per_second": 61.858,
      "eval_steps_per_second": 3.893,
      "step": 1479
    },
    {
      "epoch": 61.86,
      "grad_norm": 1.3200663328170776,
      "learning_rate": 2.5005555555555558e-05,
      "loss": 0.4914,
      "step": 1500
    },
    {
      "epoch": 61.98,
      "eval_accuracy": 0.7447552447552448,
      "eval_loss": 0.7241908311843872,
      "eval_runtime": 4.8198,
      "eval_samples_per_second": 59.338,
      "eval_steps_per_second": 3.735,
      "step": 1503
    },
    {
      "epoch": 62.97,
      "eval_accuracy": 0.7377622377622378,
      "eval_loss": 0.7321043014526367,
      "eval_runtime": 5.8929,
      "eval_samples_per_second": 48.533,
      "eval_steps_per_second": 3.055,
      "step": 1527
    },
    {
      "epoch": 63.92,
      "grad_norm": 1.1309747695922852,
      "learning_rate": 2.472777777777778e-05,
      "loss": 0.4839,
      "step": 1550
    },
    {
      "epoch": 64.0,
      "eval_accuracy": 0.7342657342657343,
      "eval_loss": 0.7220665216445923,
      "eval_runtime": 5.8635,
      "eval_samples_per_second": 48.776,
      "eval_steps_per_second": 3.07,
      "step": 1552
    },
    {
      "epoch": 64.99,
      "eval_accuracy": 0.7412587412587412,
      "eval_loss": 0.7136482000350952,
      "eval_runtime": 4.3102,
      "eval_samples_per_second": 66.354,
      "eval_steps_per_second": 4.176,
      "step": 1576
    },
    {
      "epoch": 65.98,
      "grad_norm": 1.1314157247543335,
      "learning_rate": 2.4449999999999998e-05,
      "loss": 0.4751,
      "step": 1600
    },
    {
      "epoch": 65.98,
      "eval_accuracy": 0.7412587412587412,
      "eval_loss": 0.7198111414909363,
      "eval_runtime": 4.7841,
      "eval_samples_per_second": 59.781,
      "eval_steps_per_second": 3.762,
      "step": 1600
    },
    {
      "epoch": 66.97,
      "eval_accuracy": 0.7377622377622378,
      "eval_loss": 0.7145721912384033,
      "eval_runtime": 6.347,
      "eval_samples_per_second": 45.061,
      "eval_steps_per_second": 2.836,
      "step": 1624
    },
    {
      "epoch": 68.0,
      "eval_accuracy": 0.7447552447552448,
      "eval_loss": 0.6970916390419006,
      "eval_runtime": 5.6871,
      "eval_samples_per_second": 50.289,
      "eval_steps_per_second": 3.165,
      "step": 1649
    },
    {
      "epoch": 68.04,
      "grad_norm": 2.397585153579712,
      "learning_rate": 2.4172222222222223e-05,
      "loss": 0.4639,
      "step": 1650
    },
    {
      "epoch": 68.99,
      "eval_accuracy": 0.7272727272727273,
      "eval_loss": 0.7201464176177979,
      "eval_runtime": 4.4157,
      "eval_samples_per_second": 64.769,
      "eval_steps_per_second": 4.076,
      "step": 1673
    },
    {
      "epoch": 69.98,
      "eval_accuracy": 0.7307692307692307,
      "eval_loss": 0.7244682312011719,
      "eval_runtime": 5.4392,
      "eval_samples_per_second": 52.581,
      "eval_steps_per_second": 3.309,
      "step": 1697
    },
    {
      "epoch": 70.1,
      "grad_norm": 2.062610387802124,
      "learning_rate": 2.3894444444444445e-05,
      "loss": 0.4581,
      "step": 1700
    },
    {
      "epoch": 70.97,
      "eval_accuracy": 0.7447552447552448,
      "eval_loss": 0.7077587842941284,
      "eval_runtime": 5.1002,
      "eval_samples_per_second": 56.076,
      "eval_steps_per_second": 3.529,
      "step": 1721
    },
    {
      "epoch": 72.0,
      "eval_accuracy": 0.7517482517482518,
      "eval_loss": 0.6957913637161255,
      "eval_runtime": 4.4485,
      "eval_samples_per_second": 64.291,
      "eval_steps_per_second": 4.046,
      "step": 1746
    },
    {
      "epoch": 72.16,
      "grad_norm": 2.7808456420898438,
      "learning_rate": 2.3616666666666667e-05,
      "loss": 0.4643,
      "step": 1750
    },
    {
      "epoch": 72.99,
      "eval_accuracy": 0.7447552447552448,
      "eval_loss": 0.7036928534507751,
      "eval_runtime": 5.9101,
      "eval_samples_per_second": 48.392,
      "eval_steps_per_second": 3.046,
      "step": 1770
    },
    {
      "epoch": 73.98,
      "eval_accuracy": 0.7482517482517482,
      "eval_loss": 0.71629399061203,
      "eval_runtime": 6.0211,
      "eval_samples_per_second": 47.5,
      "eval_steps_per_second": 2.989,
      "step": 1794
    },
    {
      "epoch": 74.23,
      "grad_norm": 1.78495192527771,
      "learning_rate": 2.333888888888889e-05,
      "loss": 0.442,
      "step": 1800
    },
    {
      "epoch": 74.97,
      "eval_accuracy": 0.7377622377622378,
      "eval_loss": 0.6997957229614258,
      "eval_runtime": 4.4212,
      "eval_samples_per_second": 64.688,
      "eval_steps_per_second": 4.071,
      "step": 1818
    },
    {
      "epoch": 76.0,
      "eval_accuracy": 0.7447552447552448,
      "eval_loss": 0.6946483850479126,
      "eval_runtime": 4.0507,
      "eval_samples_per_second": 70.605,
      "eval_steps_per_second": 4.444,
      "step": 1843
    },
    {
      "epoch": 76.29,
      "grad_norm": 1.7383118867874146,
      "learning_rate": 2.306111111111111e-05,
      "loss": 0.4305,
      "step": 1850
    },
    {
      "epoch": 76.99,
      "eval_accuracy": 0.7552447552447552,
      "eval_loss": 0.6857091784477234,
      "eval_runtime": 4.1718,
      "eval_samples_per_second": 68.556,
      "eval_steps_per_second": 4.315,
      "step": 1867
    },
    {
      "epoch": 77.98,
      "eval_accuracy": 0.7447552447552448,
      "eval_loss": 0.6936307549476624,
      "eval_runtime": 3.8781,
      "eval_samples_per_second": 73.747,
      "eval_steps_per_second": 4.641,
      "step": 1891
    },
    {
      "epoch": 78.35,
      "grad_norm": 1.047067403793335,
      "learning_rate": 2.2783333333333336e-05,
      "loss": 0.4416,
      "step": 1900
    },
    {
      "epoch": 78.97,
      "eval_accuracy": 0.7517482517482518,
      "eval_loss": 0.6965110301971436,
      "eval_runtime": 5.1318,
      "eval_samples_per_second": 55.731,
      "eval_steps_per_second": 3.508,
      "step": 1915
    },
    {
      "epoch": 80.0,
      "eval_accuracy": 0.7482517482517482,
      "eval_loss": 0.7017127871513367,
      "eval_runtime": 4.3418,
      "eval_samples_per_second": 65.871,
      "eval_steps_per_second": 4.146,
      "step": 1940
    },
    {
      "epoch": 80.41,
      "grad_norm": 1.5354928970336914,
      "learning_rate": 2.2505555555555554e-05,
      "loss": 0.428,
      "step": 1950
    },
    {
      "epoch": 80.99,
      "eval_accuracy": 0.7552447552447552,
      "eval_loss": 0.6970596313476562,
      "eval_runtime": 5.973,
      "eval_samples_per_second": 47.882,
      "eval_steps_per_second": 3.014,
      "step": 1964
    },
    {
      "epoch": 81.98,
      "eval_accuracy": 0.7552447552447552,
      "eval_loss": 0.6897542476654053,
      "eval_runtime": 5.0481,
      "eval_samples_per_second": 56.655,
      "eval_steps_per_second": 3.566,
      "step": 1988
    },
    {
      "epoch": 82.47,
      "grad_norm": 1.7141317129135132,
      "learning_rate": 2.2227777777777776e-05,
      "loss": 0.4093,
      "step": 2000
    },
    {
      "epoch": 82.97,
      "eval_accuracy": 0.7482517482517482,
      "eval_loss": 0.7004020810127258,
      "eval_runtime": 4.1986,
      "eval_samples_per_second": 68.118,
      "eval_steps_per_second": 4.287,
      "step": 2012
    },
    {
      "epoch": 84.0,
      "eval_accuracy": 0.7552447552447552,
      "eval_loss": 0.6867479681968689,
      "eval_runtime": 4.6871,
      "eval_samples_per_second": 61.018,
      "eval_steps_per_second": 3.84,
      "step": 2037
    },
    {
      "epoch": 84.54,
      "grad_norm": 2.0219666957855225,
      "learning_rate": 2.195e-05,
      "loss": 0.4148,
      "step": 2050
    },
    {
      "epoch": 84.99,
      "eval_accuracy": 0.7377622377622378,
      "eval_loss": 0.7070020437240601,
      "eval_runtime": 5.9326,
      "eval_samples_per_second": 48.208,
      "eval_steps_per_second": 3.034,
      "step": 2061
    },
    {
      "epoch": 85.98,
      "eval_accuracy": 0.7447552447552448,
      "eval_loss": 0.7030305862426758,
      "eval_runtime": 5.3564,
      "eval_samples_per_second": 53.394,
      "eval_steps_per_second": 3.36,
      "step": 2085
    },
    {
      "epoch": 86.6,
      "grad_norm": 1.4678714275360107,
      "learning_rate": 2.1672222222222223e-05,
      "loss": 0.3923,
      "step": 2100
    },
    {
      "epoch": 86.97,
      "eval_accuracy": 0.7587412587412588,
      "eval_loss": 0.678174614906311,
      "eval_runtime": 3.9745,
      "eval_samples_per_second": 71.96,
      "eval_steps_per_second": 4.529,
      "step": 2109
    },
    {
      "epoch": 88.0,
      "eval_accuracy": 0.7412587412587412,
      "eval_loss": 0.7166118621826172,
      "eval_runtime": 4.0358,
      "eval_samples_per_second": 70.866,
      "eval_steps_per_second": 4.46,
      "step": 2134
    },
    {
      "epoch": 88.66,
      "grad_norm": 1.589543342590332,
      "learning_rate": 2.1394444444444445e-05,
      "loss": 0.3964,
      "step": 2150
    },
    {
      "epoch": 88.99,
      "eval_accuracy": 0.7482517482517482,
      "eval_loss": 0.7075912952423096,
      "eval_runtime": 5.0331,
      "eval_samples_per_second": 56.823,
      "eval_steps_per_second": 3.576,
      "step": 2158
    },
    {
      "epoch": 89.98,
      "eval_accuracy": 0.7657342657342657,
      "eval_loss": 0.6867172122001648,
      "eval_runtime": 5.386,
      "eval_samples_per_second": 53.101,
      "eval_steps_per_second": 3.342,
      "step": 2182
    },
    {
      "epoch": 90.72,
      "grad_norm": 1.3886605501174927,
      "learning_rate": 2.1116666666666667e-05,
      "loss": 0.3846,
      "step": 2200
    },
    {
      "epoch": 90.97,
      "eval_accuracy": 0.7517482517482518,
      "eval_loss": 0.6913285851478577,
      "eval_runtime": 5.5324,
      "eval_samples_per_second": 51.696,
      "eval_steps_per_second": 3.254,
      "step": 2206
    },
    {
      "epoch": 92.0,
      "eval_accuracy": 0.7482517482517482,
      "eval_loss": 0.7160294651985168,
      "eval_runtime": 5.2753,
      "eval_samples_per_second": 54.215,
      "eval_steps_per_second": 3.412,
      "step": 2231
    },
    {
      "epoch": 92.78,
      "grad_norm": 2.4106783866882324,
      "learning_rate": 2.083888888888889e-05,
      "loss": 0.3654,
      "step": 2250
    },
    {
      "epoch": 92.99,
      "eval_accuracy": 0.7517482517482518,
      "eval_loss": 0.6765207052230835,
      "eval_runtime": 5.5671,
      "eval_samples_per_second": 51.373,
      "eval_steps_per_second": 3.233,
      "step": 2255
    },
    {
      "epoch": 93.98,
      "eval_accuracy": 0.7657342657342657,
      "eval_loss": 0.6881967186927795,
      "eval_runtime": 3.8228,
      "eval_samples_per_second": 74.814,
      "eval_steps_per_second": 4.709,
      "step": 2279
    },
    {
      "epoch": 94.85,
      "grad_norm": 0.8871183395385742,
      "learning_rate": 2.0561111111111114e-05,
      "loss": 0.3577,
      "step": 2300
    },
    {
      "epoch": 94.97,
      "eval_accuracy": 0.7552447552447552,
      "eval_loss": 0.6852585673332214,
      "eval_runtime": 4.7228,
      "eval_samples_per_second": 60.557,
      "eval_steps_per_second": 3.811,
      "step": 2303
    },
    {
      "epoch": 96.0,
      "eval_accuracy": 0.7552447552447552,
      "eval_loss": 0.7158808708190918,
      "eval_runtime": 5.6504,
      "eval_samples_per_second": 50.616,
      "eval_steps_per_second": 3.186,
      "step": 2328
    },
    {
      "epoch": 96.91,
      "grad_norm": 1.0019863843917847,
      "learning_rate": 2.0283333333333333e-05,
      "loss": 0.37,
      "step": 2350
    },
    {
      "epoch": 96.99,
      "eval_accuracy": 0.7657342657342657,
      "eval_loss": 0.6943120360374451,
      "eval_runtime": 4.8337,
      "eval_samples_per_second": 59.168,
      "eval_steps_per_second": 3.724,
      "step": 2352
    },
    {
      "epoch": 97.98,
      "eval_accuracy": 0.7587412587412588,
      "eval_loss": 0.7010317444801331,
      "eval_runtime": 4.6874,
      "eval_samples_per_second": 61.015,
      "eval_steps_per_second": 3.84,
      "step": 2376
    },
    {
      "epoch": 98.97,
      "grad_norm": 1.2908928394317627,
      "learning_rate": 2.0005555555555555e-05,
      "loss": 0.3473,
      "step": 2400
    },
    {
      "epoch": 98.97,
      "eval_accuracy": 0.7727272727272727,
      "eval_loss": 0.693758487701416,
      "eval_runtime": 4.7585,
      "eval_samples_per_second": 60.103,
      "eval_steps_per_second": 3.783,
      "step": 2400
    },
    {
      "epoch": 100.0,
      "eval_accuracy": 0.7587412587412588,
      "eval_loss": 0.6918778419494629,
      "eval_runtime": 6.6891,
      "eval_samples_per_second": 42.756,
      "eval_steps_per_second": 2.691,
      "step": 2425
    },
    {
      "epoch": 100.99,
      "eval_accuracy": 0.7552447552447552,
      "eval_loss": 0.6849302053451538,
      "eval_runtime": 4.4685,
      "eval_samples_per_second": 64.003,
      "eval_steps_per_second": 4.028,
      "step": 2449
    },
    {
      "epoch": 101.03,
      "grad_norm": 1.1730871200561523,
      "learning_rate": 1.972777777777778e-05,
      "loss": 0.3587,
      "step": 2450
    },
    {
      "epoch": 101.98,
      "eval_accuracy": 0.7587412587412588,
      "eval_loss": 0.6855939030647278,
      "eval_runtime": 4.3434,
      "eval_samples_per_second": 65.847,
      "eval_steps_per_second": 4.144,
      "step": 2473
    },
    {
      "epoch": 102.97,
      "eval_accuracy": 0.7517482517482518,
      "eval_loss": 0.7046144604682922,
      "eval_runtime": 4.7166,
      "eval_samples_per_second": 60.637,
      "eval_steps_per_second": 3.816,
      "step": 2497
    },
    {
      "epoch": 103.09,
      "grad_norm": 1.3693217039108276,
      "learning_rate": 1.945e-05,
      "loss": 0.3429,
      "step": 2500
    },
    {
      "epoch": 104.0,
      "eval_accuracy": 0.7727272727272727,
      "eval_loss": 0.6892997622489929,
      "eval_runtime": 5.3868,
      "eval_samples_per_second": 53.092,
      "eval_steps_per_second": 3.341,
      "step": 2522
    },
    {
      "epoch": 104.99,
      "eval_accuracy": 0.7622377622377622,
      "eval_loss": 0.6913393139839172,
      "eval_runtime": 5.09,
      "eval_samples_per_second": 56.188,
      "eval_steps_per_second": 3.536,
      "step": 2546
    },
    {
      "epoch": 105.15,
      "grad_norm": 1.923829436302185,
      "learning_rate": 1.9172222222222224e-05,
      "loss": 0.3549,
      "step": 2550
    },
    {
      "epoch": 105.98,
      "eval_accuracy": 0.7762237762237763,
      "eval_loss": 0.6880810856819153,
      "eval_runtime": 4.6668,
      "eval_samples_per_second": 61.283,
      "eval_steps_per_second": 3.857,
      "step": 2570
    },
    {
      "epoch": 106.97,
      "eval_accuracy": 0.7692307692307693,
      "eval_loss": 0.7097887396812439,
      "eval_runtime": 6.4652,
      "eval_samples_per_second": 44.237,
      "eval_steps_per_second": 2.784,
      "step": 2594
    },
    {
      "epoch": 107.22,
      "grad_norm": 2.702012062072754,
      "learning_rate": 1.8894444444444446e-05,
      "loss": 0.3403,
      "step": 2600
    },
    {
      "epoch": 108.0,
      "eval_accuracy": 0.7762237762237763,
      "eval_loss": 0.6878336668014526,
      "eval_runtime": 4.6923,
      "eval_samples_per_second": 60.951,
      "eval_steps_per_second": 3.836,
      "step": 2619
    },
    {
      "epoch": 108.99,
      "eval_accuracy": 0.7762237762237763,
      "eval_loss": 0.695954442024231,
      "eval_runtime": 4.4809,
      "eval_samples_per_second": 63.827,
      "eval_steps_per_second": 4.017,
      "step": 2643
    },
    {
      "epoch": 109.28,
      "grad_norm": 2.3427536487579346,
      "learning_rate": 1.8616666666666667e-05,
      "loss": 0.3253,
      "step": 2650
    },
    {
      "epoch": 109.98,
      "eval_accuracy": 0.7727272727272727,
      "eval_loss": 0.7005948424339294,
      "eval_runtime": 4.8882,
      "eval_samples_per_second": 58.508,
      "eval_steps_per_second": 3.682,
      "step": 2667
    },
    {
      "epoch": 110.97,
      "eval_accuracy": 0.7692307692307693,
      "eval_loss": 0.6916196346282959,
      "eval_runtime": 5.2891,
      "eval_samples_per_second": 54.073,
      "eval_steps_per_second": 3.403,
      "step": 2691
    },
    {
      "epoch": 111.34,
      "grad_norm": 2.178089141845703,
      "learning_rate": 1.833888888888889e-05,
      "loss": 0.3332,
      "step": 2700
    },
    {
      "epoch": 112.0,
      "eval_accuracy": 0.7657342657342657,
      "eval_loss": 0.7059447765350342,
      "eval_runtime": 4.7437,
      "eval_samples_per_second": 60.291,
      "eval_steps_per_second": 3.795,
      "step": 2716
    },
    {
      "epoch": 112.99,
      "eval_accuracy": 0.7867132867132867,
      "eval_loss": 0.6904045939445496,
      "eval_runtime": 4.9942,
      "eval_samples_per_second": 57.267,
      "eval_steps_per_second": 3.604,
      "step": 2740
    },
    {
      "epoch": 113.4,
      "grad_norm": 1.1625444889068604,
      "learning_rate": 1.806111111111111e-05,
      "loss": 0.3188,
      "step": 2750
    },
    {
      "epoch": 113.98,
      "eval_accuracy": 0.7727272727272727,
      "eval_loss": 0.6970774531364441,
      "eval_runtime": 6.4809,
      "eval_samples_per_second": 44.13,
      "eval_steps_per_second": 2.777,
      "step": 2764
    },
    {
      "epoch": 114.97,
      "eval_accuracy": 0.7797202797202797,
      "eval_loss": 0.700820803642273,
      "eval_runtime": 5.2617,
      "eval_samples_per_second": 54.355,
      "eval_steps_per_second": 3.421,
      "step": 2788
    },
    {
      "epoch": 115.46,
      "grad_norm": 1.2394715547561646,
      "learning_rate": 1.7783333333333333e-05,
      "loss": 0.3112,
      "step": 2800
    },
    {
      "epoch": 116.0,
      "eval_accuracy": 0.7797202797202797,
      "eval_loss": 0.7002130150794983,
      "eval_runtime": 5.0937,
      "eval_samples_per_second": 56.147,
      "eval_steps_per_second": 3.534,
      "step": 2813
    },
    {
      "epoch": 116.99,
      "eval_accuracy": 0.7692307692307693,
      "eval_loss": 0.6909505724906921,
      "eval_runtime": 4.7575,
      "eval_samples_per_second": 60.116,
      "eval_steps_per_second": 3.784,
      "step": 2837
    },
    {
      "epoch": 117.53,
      "grad_norm": 2.4334964752197266,
      "learning_rate": 1.7505555555555558e-05,
      "loss": 0.3153,
      "step": 2850
    },
    {
      "epoch": 117.98,
      "eval_accuracy": 0.7797202797202797,
      "eval_loss": 0.6957750916481018,
      "eval_runtime": 4.8105,
      "eval_samples_per_second": 59.453,
      "eval_steps_per_second": 3.742,
      "step": 2861
    },
    {
      "epoch": 118.97,
      "eval_accuracy": 0.7762237762237763,
      "eval_loss": 0.6867520213127136,
      "eval_runtime": 4.5411,
      "eval_samples_per_second": 62.98,
      "eval_steps_per_second": 3.964,
      "step": 2885
    },
    {
      "epoch": 119.59,
      "grad_norm": 0.769097089767456,
      "learning_rate": 1.7227777777777777e-05,
      "loss": 0.3006,
      "step": 2900
    },
    {
      "epoch": 120.0,
      "eval_accuracy": 0.7727272727272727,
      "eval_loss": 0.6890790462493896,
      "eval_runtime": 4.5864,
      "eval_samples_per_second": 62.358,
      "eval_steps_per_second": 3.925,
      "step": 2910
    },
    {
      "epoch": 120.99,
      "eval_accuracy": 0.7657342657342657,
      "eval_loss": 0.6889089941978455,
      "eval_runtime": 6.5804,
      "eval_samples_per_second": 43.462,
      "eval_steps_per_second": 2.735,
      "step": 2934
    },
    {
      "epoch": 121.65,
      "grad_norm": 1.8714542388916016,
      "learning_rate": 1.695e-05,
      "loss": 0.2967,
      "step": 2950
    },
    {
      "epoch": 121.98,
      "eval_accuracy": 0.7657342657342657,
      "eval_loss": 0.6935350894927979,
      "eval_runtime": 4.7491,
      "eval_samples_per_second": 60.223,
      "eval_steps_per_second": 3.79,
      "step": 2958
    },
    {
      "epoch": 122.97,
      "eval_accuracy": 0.7692307692307693,
      "eval_loss": 0.7058219909667969,
      "eval_runtime": 4.8941,
      "eval_samples_per_second": 58.438,
      "eval_steps_per_second": 3.678,
      "step": 2982
    },
    {
      "epoch": 123.71,
      "grad_norm": 2.062924385070801,
      "learning_rate": 1.6672222222222224e-05,
      "loss": 0.2939,
      "step": 3000
    },
    {
      "epoch": 124.0,
      "eval_accuracy": 0.7657342657342657,
      "eval_loss": 0.7220865488052368,
      "eval_runtime": 5.0487,
      "eval_samples_per_second": 56.648,
      "eval_steps_per_second": 3.565,
      "step": 3007
    },
    {
      "epoch": 124.99,
      "eval_accuracy": 0.7727272727272727,
      "eval_loss": 0.6857044696807861,
      "eval_runtime": 5.6134,
      "eval_samples_per_second": 50.95,
      "eval_steps_per_second": 3.207,
      "step": 3031
    },
    {
      "epoch": 125.77,
      "grad_norm": 1.7039302587509155,
      "learning_rate": 1.6394444444444446e-05,
      "loss": 0.3101,
      "step": 3050
    },
    {
      "epoch": 125.98,
      "eval_accuracy": 0.7762237762237763,
      "eval_loss": 0.6742061972618103,
      "eval_runtime": 5.3609,
      "eval_samples_per_second": 53.349,
      "eval_steps_per_second": 3.358,
      "step": 3055
    },
    {
      "epoch": 126.97,
      "eval_accuracy": 0.7727272727272727,
      "eval_loss": 0.7029407620429993,
      "eval_runtime": 5.8891,
      "eval_samples_per_second": 48.564,
      "eval_steps_per_second": 3.056,
      "step": 3079
    },
    {
      "epoch": 127.84,
      "grad_norm": 1.434970736503601,
      "learning_rate": 1.6116666666666668e-05,
      "loss": 0.284,
      "step": 3100
    },
    {
      "epoch": 128.0,
      "eval_accuracy": 0.7762237762237763,
      "eval_loss": 0.682050347328186,
      "eval_runtime": 5.1437,
      "eval_samples_per_second": 55.602,
      "eval_steps_per_second": 3.499,
      "step": 3104
    },
    {
      "epoch": 128.99,
      "eval_accuracy": 0.7762237762237763,
      "eval_loss": 0.68370121717453,
      "eval_runtime": 4.2733,
      "eval_samples_per_second": 66.927,
      "eval_steps_per_second": 4.212,
      "step": 3128
    },
    {
      "epoch": 129.9,
      "grad_norm": 1.320789098739624,
      "learning_rate": 1.583888888888889e-05,
      "loss": 0.2902,
      "step": 3150
    },
    {
      "epoch": 129.98,
      "eval_accuracy": 0.7727272727272727,
      "eval_loss": 0.6823462843894958,
      "eval_runtime": 5.7566,
      "eval_samples_per_second": 49.682,
      "eval_steps_per_second": 3.127,
      "step": 3152
    },
    {
      "epoch": 130.97,
      "eval_accuracy": 0.7762237762237763,
      "eval_loss": 0.6950440406799316,
      "eval_runtime": 4.9248,
      "eval_samples_per_second": 58.074,
      "eval_steps_per_second": 3.655,
      "step": 3176
    },
    {
      "epoch": 131.96,
      "grad_norm": 2.1280930042266846,
      "learning_rate": 1.556111111111111e-05,
      "loss": 0.301,
      "step": 3200
    },
    {
      "epoch": 132.0,
      "eval_accuracy": 0.7727272727272727,
      "eval_loss": 0.6800761818885803,
      "eval_runtime": 8.1328,
      "eval_samples_per_second": 35.166,
      "eval_steps_per_second": 2.213,
      "step": 3201
    },
    {
      "epoch": 132.99,
      "eval_accuracy": 0.7762237762237763,
      "eval_loss": 0.6867505311965942,
      "eval_runtime": 4.2532,
      "eval_samples_per_second": 67.244,
      "eval_steps_per_second": 4.232,
      "step": 3225
    },
    {
      "epoch": 133.98,
      "eval_accuracy": 0.7797202797202797,
      "eval_loss": 0.7061284184455872,
      "eval_runtime": 5.3031,
      "eval_samples_per_second": 53.93,
      "eval_steps_per_second": 3.394,
      "step": 3249
    },
    {
      "epoch": 134.02,
      "grad_norm": 1.532638669013977,
      "learning_rate": 1.5283333333333333e-05,
      "loss": 0.2736,
      "step": 3250
    },
    {
      "epoch": 134.97,
      "eval_accuracy": 0.7727272727272727,
      "eval_loss": 0.7114368677139282,
      "eval_runtime": 4.6536,
      "eval_samples_per_second": 61.458,
      "eval_steps_per_second": 3.868,
      "step": 3273
    },
    {
      "epoch": 136.0,
      "eval_accuracy": 0.7762237762237763,
      "eval_loss": 0.6914551854133606,
      "eval_runtime": 4.5505,
      "eval_samples_per_second": 62.851,
      "eval_steps_per_second": 3.956,
      "step": 3298
    },
    {
      "epoch": 136.08,
      "grad_norm": 2.0108492374420166,
      "learning_rate": 1.5005555555555555e-05,
      "loss": 0.2931,
      "step": 3300
    },
    {
      "epoch": 136.99,
      "eval_accuracy": 0.7797202797202797,
      "eval_loss": 0.7055917978286743,
      "eval_runtime": 5.3067,
      "eval_samples_per_second": 53.894,
      "eval_steps_per_second": 3.392,
      "step": 3322
    },
    {
      "epoch": 137.98,
      "eval_accuracy": 0.7727272727272727,
      "eval_loss": 0.7026935815811157,
      "eval_runtime": 5.186,
      "eval_samples_per_second": 55.149,
      "eval_steps_per_second": 3.471,
      "step": 3346
    },
    {
      "epoch": 138.14,
      "grad_norm": 1.0804469585418701,
      "learning_rate": 1.4727777777777779e-05,
      "loss": 0.2864,
      "step": 3350
    },
    {
      "epoch": 138.97,
      "eval_accuracy": 0.7657342657342657,
      "eval_loss": 0.6983500719070435,
      "eval_runtime": 6.955,
      "eval_samples_per_second": 41.122,
      "eval_steps_per_second": 2.588,
      "step": 3370
    },
    {
      "epoch": 140.0,
      "eval_accuracy": 0.7657342657342657,
      "eval_loss": 0.7168787121772766,
      "eval_runtime": 4.234,
      "eval_samples_per_second": 67.548,
      "eval_steps_per_second": 4.251,
      "step": 3395
    },
    {
      "epoch": 140.21,
      "grad_norm": 2.370694637298584,
      "learning_rate": 1.445e-05,
      "loss": 0.2765,
      "step": 3400
    },
    {
      "epoch": 140.99,
      "eval_accuracy": 0.7762237762237763,
      "eval_loss": 0.6960318088531494,
      "eval_runtime": 5.0294,
      "eval_samples_per_second": 56.865,
      "eval_steps_per_second": 3.579,
      "step": 3419
    },
    {
      "epoch": 141.98,
      "eval_accuracy": 0.7762237762237763,
      "eval_loss": 0.6990492343902588,
      "eval_runtime": 5.2727,
      "eval_samples_per_second": 54.242,
      "eval_steps_per_second": 3.414,
      "step": 3443
    },
    {
      "epoch": 142.27,
      "grad_norm": 1.6676194667816162,
      "learning_rate": 1.4172222222222222e-05,
      "loss": 0.2808,
      "step": 3450
    },
    {
      "epoch": 142.97,
      "eval_accuracy": 0.7797202797202797,
      "eval_loss": 0.706200897693634,
      "eval_runtime": 4.5273,
      "eval_samples_per_second": 63.173,
      "eval_steps_per_second": 3.976,
      "step": 3467
    },
    {
      "epoch": 144.0,
      "eval_accuracy": 0.7657342657342657,
      "eval_loss": 0.6821764707565308,
      "eval_runtime": 5.3614,
      "eval_samples_per_second": 53.344,
      "eval_steps_per_second": 3.357,
      "step": 3492
    },
    {
      "epoch": 144.33,
      "grad_norm": 1.9151145219802856,
      "learning_rate": 1.3894444444444444e-05,
      "loss": 0.2712,
      "step": 3500
    },
    {
      "epoch": 144.99,
      "eval_accuracy": 0.7762237762237763,
      "eval_loss": 0.7063603401184082,
      "eval_runtime": 4.9088,
      "eval_samples_per_second": 58.263,
      "eval_steps_per_second": 3.667,
      "step": 3516
    },
    {
      "epoch": 145.98,
      "eval_accuracy": 0.7692307692307693,
      "eval_loss": 0.7150112390518188,
      "eval_runtime": 7.2044,
      "eval_samples_per_second": 39.698,
      "eval_steps_per_second": 2.498,
      "step": 3540
    },
    {
      "epoch": 146.39,
      "grad_norm": 1.5093848705291748,
      "learning_rate": 1.3622222222222223e-05,
      "loss": 0.2726,
      "step": 3550
    },
    {
      "epoch": 146.97,
      "eval_accuracy": 0.7797202797202797,
      "eval_loss": 0.696849524974823,
      "eval_runtime": 4.9386,
      "eval_samples_per_second": 57.911,
      "eval_steps_per_second": 3.645,
      "step": 3564
    },
    {
      "epoch": 148.0,
      "eval_accuracy": 0.7727272727272727,
      "eval_loss": 0.7086759209632874,
      "eval_runtime": 4.4363,
      "eval_samples_per_second": 64.468,
      "eval_steps_per_second": 4.057,
      "step": 3589
    },
    {
      "epoch": 148.45,
      "grad_norm": 1.4403679370880127,
      "learning_rate": 1.3344444444444444e-05,
      "loss": 0.2607,
      "step": 3600
    },
    {
      "epoch": 148.99,
      "eval_accuracy": 0.7692307692307693,
      "eval_loss": 0.7129560112953186,
      "eval_runtime": 5.3809,
      "eval_samples_per_second": 53.15,
      "eval_steps_per_second": 3.345,
      "step": 3613
    },
    {
      "epoch": 149.98,
      "eval_accuracy": 0.7902097902097902,
      "eval_loss": 0.7080287933349609,
      "eval_runtime": 5.8187,
      "eval_samples_per_second": 49.152,
      "eval_steps_per_second": 3.093,
      "step": 3637
    },
    {
      "epoch": 150.52,
      "grad_norm": 2.036515235900879,
      "learning_rate": 1.3066666666666666e-05,
      "loss": 0.2546,
      "step": 3650
    },
    {
      "epoch": 150.97,
      "eval_accuracy": 0.7762237762237763,
      "eval_loss": 0.7088435888290405,
      "eval_runtime": 4.8742,
      "eval_samples_per_second": 58.677,
      "eval_steps_per_second": 3.693,
      "step": 3661
    },
    {
      "epoch": 152.0,
      "eval_accuracy": 0.7797202797202797,
      "eval_loss": 0.7030193209648132,
      "eval_runtime": 4.9492,
      "eval_samples_per_second": 57.787,
      "eval_steps_per_second": 3.637,
      "step": 3686
    },
    {
      "epoch": 152.58,
      "grad_norm": 1.200052261352539,
      "learning_rate": 1.2788888888888888e-05,
      "loss": 0.2563,
      "step": 3700
    },
    {
      "epoch": 152.99,
      "eval_accuracy": 0.7692307692307693,
      "eval_loss": 0.7077969908714294,
      "eval_runtime": 4.614,
      "eval_samples_per_second": 61.985,
      "eval_steps_per_second": 3.901,
      "step": 3710
    },
    {
      "epoch": 153.98,
      "eval_accuracy": 0.7727272727272727,
      "eval_loss": 0.700455904006958,
      "eval_runtime": 5.7657,
      "eval_samples_per_second": 49.604,
      "eval_steps_per_second": 3.122,
      "step": 3734
    },
    {
      "epoch": 154.64,
      "grad_norm": 2.2751214504241943,
      "learning_rate": 1.2511111111111112e-05,
      "loss": 0.2531,
      "step": 3750
    },
    {
      "epoch": 154.97,
      "eval_accuracy": 0.7727272727272727,
      "eval_loss": 0.7160292267799377,
      "eval_runtime": 5.1079,
      "eval_samples_per_second": 55.992,
      "eval_steps_per_second": 3.524,
      "step": 3758
    },
    {
      "epoch": 156.0,
      "eval_accuracy": 0.7797202797202797,
      "eval_loss": 0.7175909876823425,
      "eval_runtime": 5.4035,
      "eval_samples_per_second": 52.929,
      "eval_steps_per_second": 3.331,
      "step": 3783
    },
    {
      "epoch": 156.7,
      "grad_norm": 1.9024412631988525,
      "learning_rate": 1.2233333333333334e-05,
      "loss": 0.2446,
      "step": 3800
    },
    {
      "epoch": 156.99,
      "eval_accuracy": 0.7762237762237763,
      "eval_loss": 0.7190600037574768,
      "eval_runtime": 4.3633,
      "eval_samples_per_second": 65.546,
      "eval_steps_per_second": 4.125,
      "step": 3807
    },
    {
      "epoch": 157.98,
      "eval_accuracy": 0.7797202797202797,
      "eval_loss": 0.719641387462616,
      "eval_runtime": 5.0426,
      "eval_samples_per_second": 56.717,
      "eval_steps_per_second": 3.57,
      "step": 3831
    },
    {
      "epoch": 158.76,
      "grad_norm": 3.471806287765503,
      "learning_rate": 1.1955555555555556e-05,
      "loss": 0.2479,
      "step": 3850
    },
    {
      "epoch": 158.97,
      "eval_accuracy": 0.7797202797202797,
      "eval_loss": 0.7073430418968201,
      "eval_runtime": 3.6336,
      "eval_samples_per_second": 78.711,
      "eval_steps_per_second": 4.954,
      "step": 3855
    },
    {
      "epoch": 160.0,
      "eval_accuracy": 0.7797202797202797,
      "eval_loss": 0.7328661680221558,
      "eval_runtime": 5.2625,
      "eval_samples_per_second": 54.347,
      "eval_steps_per_second": 3.42,
      "step": 3880
    },
    {
      "epoch": 160.82,
      "grad_norm": 2.1171793937683105,
      "learning_rate": 1.1677777777777777e-05,
      "loss": 0.2523,
      "step": 3900
    },
    {
      "epoch": 160.99,
      "eval_accuracy": 0.7832167832167832,
      "eval_loss": 0.7158821821212769,
      "eval_runtime": 6.5877,
      "eval_samples_per_second": 43.414,
      "eval_steps_per_second": 2.732,
      "step": 3904
    },
    {
      "epoch": 161.98,
      "eval_accuracy": 0.7692307692307693,
      "eval_loss": 0.719171404838562,
      "eval_runtime": 4.5674,
      "eval_samples_per_second": 62.618,
      "eval_steps_per_second": 3.941,
      "step": 3928
    },
    {
      "epoch": 162.89,
      "grad_norm": 1.7515395879745483,
      "learning_rate": 1.1400000000000001e-05,
      "loss": 0.2523,
      "step": 3950
    },
    {
      "epoch": 162.97,
      "eval_accuracy": 0.7762237762237763,
      "eval_loss": 0.7281435132026672,
      "eval_runtime": 4.4866,
      "eval_samples_per_second": 63.746,
      "eval_steps_per_second": 4.012,
      "step": 3952
    },
    {
      "epoch": 164.0,
      "eval_accuracy": 0.7832167832167832,
      "eval_loss": 0.7078841328620911,
      "eval_runtime": 4.4241,
      "eval_samples_per_second": 64.645,
      "eval_steps_per_second": 4.069,
      "step": 3977
    },
    {
      "epoch": 164.95,
      "grad_norm": 1.456335186958313,
      "learning_rate": 1.1122222222222223e-05,
      "loss": 0.2422,
      "step": 4000
    },
    {
      "epoch": 164.99,
      "eval_accuracy": 0.7762237762237763,
      "eval_loss": 0.7161521911621094,
      "eval_runtime": 5.1239,
      "eval_samples_per_second": 55.817,
      "eval_steps_per_second": 3.513,
      "step": 4001
    },
    {
      "epoch": 165.98,
      "eval_accuracy": 0.7832167832167832,
      "eval_loss": 0.7190020084381104,
      "eval_runtime": 3.4488,
      "eval_samples_per_second": 82.926,
      "eval_steps_per_second": 5.219,
      "step": 4025
    },
    {
      "epoch": 166.97,
      "eval_accuracy": 0.7762237762237763,
      "eval_loss": 0.7311248779296875,
      "eval_runtime": 5.0389,
      "eval_samples_per_second": 56.759,
      "eval_steps_per_second": 3.572,
      "step": 4049
    },
    {
      "epoch": 167.01,
      "grad_norm": 1.2554075717926025,
      "learning_rate": 1.0844444444444445e-05,
      "loss": 0.242,
      "step": 4050
    },
    {
      "epoch": 168.0,
      "eval_accuracy": 0.7902097902097902,
      "eval_loss": 0.7110462188720703,
      "eval_runtime": 4.4612,
      "eval_samples_per_second": 64.108,
      "eval_steps_per_second": 4.035,
      "step": 4074
    },
    {
      "epoch": 168.99,
      "eval_accuracy": 0.7867132867132867,
      "eval_loss": 0.7028501629829407,
      "eval_runtime": 6.955,
      "eval_samples_per_second": 41.122,
      "eval_steps_per_second": 2.588,
      "step": 4098
    },
    {
      "epoch": 169.07,
      "grad_norm": 2.8003265857696533,
      "learning_rate": 1.0566666666666667e-05,
      "loss": 0.2392,
      "step": 4100
    },
    {
      "epoch": 169.98,
      "eval_accuracy": 0.7937062937062938,
      "eval_loss": 0.7108554840087891,
      "eval_runtime": 5.0033,
      "eval_samples_per_second": 57.162,
      "eval_steps_per_second": 3.598,
      "step": 4122
    },
    {
      "epoch": 170.97,
      "eval_accuracy": 0.7902097902097902,
      "eval_loss": 0.7106384634971619,
      "eval_runtime": 5.1984,
      "eval_samples_per_second": 55.017,
      "eval_steps_per_second": 3.463,
      "step": 4146
    },
    {
      "epoch": 171.13,
      "grad_norm": 2.1897969245910645,
      "learning_rate": 1.028888888888889e-05,
      "loss": 0.247,
      "step": 4150
    },
    {
      "epoch": 172.0,
      "eval_accuracy": 0.7867132867132867,
      "eval_loss": 0.7151694297790527,
      "eval_runtime": 5.1963,
      "eval_samples_per_second": 55.039,
      "eval_steps_per_second": 3.464,
      "step": 4171
    },
    {
      "epoch": 172.99,
      "eval_accuracy": 0.7657342657342657,
      "eval_loss": 0.7254167795181274,
      "eval_runtime": 4.4466,
      "eval_samples_per_second": 64.319,
      "eval_steps_per_second": 4.048,
      "step": 4195
    },
    {
      "epoch": 173.2,
      "grad_norm": 2.769357681274414,
      "learning_rate": 1.0011111111111112e-05,
      "loss": 0.2341,
      "step": 4200
    },
    {
      "epoch": 173.98,
      "eval_accuracy": 0.7832167832167832,
      "eval_loss": 0.7290962338447571,
      "eval_runtime": 6.2221,
      "eval_samples_per_second": 45.965,
      "eval_steps_per_second": 2.893,
      "step": 4219
    },
    {
      "epoch": 174.97,
      "eval_accuracy": 0.7867132867132867,
      "eval_loss": 0.7088623046875,
      "eval_runtime": 4.3709,
      "eval_samples_per_second": 65.433,
      "eval_steps_per_second": 4.118,
      "step": 4243
    },
    {
      "epoch": 175.26,
      "grad_norm": 2.044703483581543,
      "learning_rate": 9.733333333333332e-06,
      "loss": 0.2317,
      "step": 4250
    },
    {
      "epoch": 176.0,
      "eval_accuracy": 0.7902097902097902,
      "eval_loss": 0.7185826897621155,
      "eval_runtime": 5.4095,
      "eval_samples_per_second": 52.87,
      "eval_steps_per_second": 3.327,
      "step": 4268
    },
    {
      "epoch": 176.99,
      "eval_accuracy": 0.7797202797202797,
      "eval_loss": 0.7167823314666748,
      "eval_runtime": 4.9506,
      "eval_samples_per_second": 57.77,
      "eval_steps_per_second": 3.636,
      "step": 4292
    },
    {
      "epoch": 177.32,
      "grad_norm": 1.078834056854248,
      "learning_rate": 9.455555555555556e-06,
      "loss": 0.2269,
      "step": 4300
    },
    {
      "epoch": 177.98,
      "eval_accuracy": 0.7902097902097902,
      "eval_loss": 0.7237738966941833,
      "eval_runtime": 4.781,
      "eval_samples_per_second": 59.82,
      "eval_steps_per_second": 3.765,
      "step": 4316
    },
    {
      "epoch": 178.97,
      "eval_accuracy": 0.7867132867132867,
      "eval_loss": 0.7131801247596741,
      "eval_runtime": 4.6869,
      "eval_samples_per_second": 61.022,
      "eval_steps_per_second": 3.841,
      "step": 4340
    },
    {
      "epoch": 179.38,
      "grad_norm": 2.008120536804199,
      "learning_rate": 9.177777777777778e-06,
      "loss": 0.2283,
      "step": 4350
    },
    {
      "epoch": 180.0,
      "eval_accuracy": 0.7797202797202797,
      "eval_loss": 0.7384253144264221,
      "eval_runtime": 4.5879,
      "eval_samples_per_second": 62.338,
      "eval_steps_per_second": 3.923,
      "step": 4365
    },
    {
      "epoch": 180.99,
      "eval_accuracy": 0.7902097902097902,
      "eval_loss": 0.7002861499786377,
      "eval_runtime": 5.3238,
      "eval_samples_per_second": 53.721,
      "eval_steps_per_second": 3.381,
      "step": 4389
    },
    {
      "epoch": 181.44,
      "grad_norm": 1.9518792629241943,
      "learning_rate": 8.900000000000001e-06,
      "loss": 0.2303,
      "step": 4400
    },
    {
      "epoch": 181.98,
      "eval_accuracy": 0.7797202797202797,
      "eval_loss": 0.7278482913970947,
      "eval_runtime": 5.8358,
      "eval_samples_per_second": 49.008,
      "eval_steps_per_second": 3.084,
      "step": 4413
    },
    {
      "epoch": 182.97,
      "eval_accuracy": 0.7832167832167832,
      "eval_loss": 0.7143127918243408,
      "eval_runtime": 6.1229,
      "eval_samples_per_second": 46.71,
      "eval_steps_per_second": 2.94,
      "step": 4437
    },
    {
      "epoch": 183.51,
      "grad_norm": 1.0936890840530396,
      "learning_rate": 8.622222222222221e-06,
      "loss": 0.2109,
      "step": 4450
    },
    {
      "epoch": 184.0,
      "eval_accuracy": 0.7797202797202797,
      "eval_loss": 0.7406834363937378,
      "eval_runtime": 5.0467,
      "eval_samples_per_second": 56.671,
      "eval_steps_per_second": 3.567,
      "step": 4462
    },
    {
      "epoch": 184.99,
      "eval_accuracy": 0.7797202797202797,
      "eval_loss": 0.7053534388542175,
      "eval_runtime": 5.279,
      "eval_samples_per_second": 54.177,
      "eval_steps_per_second": 3.41,
      "step": 4486
    },
    {
      "epoch": 185.57,
      "grad_norm": 2.9350059032440186,
      "learning_rate": 8.344444444444445e-06,
      "loss": 0.2261,
      "step": 4500
    },
    {
      "epoch": 185.98,
      "eval_accuracy": 0.7727272727272727,
      "eval_loss": 0.7260809540748596,
      "eval_runtime": 5.4165,
      "eval_samples_per_second": 52.802,
      "eval_steps_per_second": 3.323,
      "step": 4510
    },
    {
      "epoch": 186.97,
      "eval_accuracy": 0.7902097902097902,
      "eval_loss": 0.7240064144134521,
      "eval_runtime": 5.4866,
      "eval_samples_per_second": 52.127,
      "eval_steps_per_second": 3.281,
      "step": 4534
    },
    {
      "epoch": 187.63,
      "grad_norm": 1.8322782516479492,
      "learning_rate": 8.066666666666667e-06,
      "loss": 0.2282,
      "step": 4550
    },
    {
      "epoch": 188.0,
      "eval_accuracy": 0.7867132867132867,
      "eval_loss": 0.7199599146842957,
      "eval_runtime": 4.6736,
      "eval_samples_per_second": 61.195,
      "eval_steps_per_second": 3.851,
      "step": 4559
    },
    {
      "epoch": 188.99,
      "eval_accuracy": 0.7797202797202797,
      "eval_loss": 0.7102844715118408,
      "eval_runtime": 5.4219,
      "eval_samples_per_second": 52.749,
      "eval_steps_per_second": 3.32,
      "step": 4583
    },
    {
      "epoch": 189.69,
      "grad_norm": 1.8777916431427002,
      "learning_rate": 7.78888888888889e-06,
      "loss": 0.2321,
      "step": 4600
    },
    {
      "epoch": 189.98,
      "eval_accuracy": 0.7797202797202797,
      "eval_loss": 0.7083376049995422,
      "eval_runtime": 5.9634,
      "eval_samples_per_second": 47.959,
      "eval_steps_per_second": 3.018,
      "step": 4607
    },
    {
      "epoch": 190.97,
      "eval_accuracy": 0.7832167832167832,
      "eval_loss": 0.7244677543640137,
      "eval_runtime": 5.2078,
      "eval_samples_per_second": 54.918,
      "eval_steps_per_second": 3.456,
      "step": 4631
    },
    {
      "epoch": 191.75,
      "grad_norm": 1.5277408361434937,
      "learning_rate": 7.5111111111111105e-06,
      "loss": 0.2261,
      "step": 4650
    },
    {
      "epoch": 192.0,
      "eval_accuracy": 0.7867132867132867,
      "eval_loss": 0.7124583721160889,
      "eval_runtime": 5.7079,
      "eval_samples_per_second": 50.106,
      "eval_steps_per_second": 3.154,
      "step": 4656
    },
    {
      "epoch": 192.99,
      "eval_accuracy": 0.7867132867132867,
      "eval_loss": 0.7308976054191589,
      "eval_runtime": 5.3404,
      "eval_samples_per_second": 53.554,
      "eval_steps_per_second": 3.371,
      "step": 4680
    },
    {
      "epoch": 193.81,
      "grad_norm": 2.095749616622925,
      "learning_rate": 7.233333333333333e-06,
      "loss": 0.2231,
      "step": 4700
    },
    {
      "epoch": 193.98,
      "eval_accuracy": 0.7832167832167832,
      "eval_loss": 0.7237818837165833,
      "eval_runtime": 4.6666,
      "eval_samples_per_second": 61.286,
      "eval_steps_per_second": 3.857,
      "step": 4704
    },
    {
      "epoch": 194.97,
      "eval_accuracy": 0.7832167832167832,
      "eval_loss": 0.7253320217132568,
      "eval_runtime": 5.8059,
      "eval_samples_per_second": 49.261,
      "eval_steps_per_second": 3.1,
      "step": 4728
    },
    {
      "epoch": 195.88,
      "grad_norm": 1.6955636739730835,
      "learning_rate": 6.955555555555556e-06,
      "loss": 0.2083,
      "step": 4750
    },
    {
      "epoch": 196.0,
      "eval_accuracy": 0.7832167832167832,
      "eval_loss": 0.7240011692047119,
      "eval_runtime": 6.0767,
      "eval_samples_per_second": 47.065,
      "eval_steps_per_second": 2.962,
      "step": 4753
    },
    {
      "epoch": 196.99,
      "eval_accuracy": 0.7832167832167832,
      "eval_loss": 0.7131750583648682,
      "eval_runtime": 5.3063,
      "eval_samples_per_second": 53.898,
      "eval_steps_per_second": 3.392,
      "step": 4777
    },
    {
      "epoch": 197.94,
      "grad_norm": 0.8933289051055908,
      "learning_rate": 6.677777777777778e-06,
      "loss": 0.2116,
      "step": 4800
    },
    {
      "epoch": 197.98,
      "eval_accuracy": 0.7867132867132867,
      "eval_loss": 0.7169559597969055,
      "eval_runtime": 5.5713,
      "eval_samples_per_second": 51.335,
      "eval_steps_per_second": 3.231,
      "step": 4801
    },
    {
      "epoch": 198.97,
      "eval_accuracy": 0.7832167832167832,
      "eval_loss": 0.7265609502792358,
      "eval_runtime": 4.1397,
      "eval_samples_per_second": 69.087,
      "eval_steps_per_second": 4.348,
      "step": 4825
    },
    {
      "epoch": 200.0,
      "grad_norm": 2.175414562225342,
      "learning_rate": 6.4000000000000006e-06,
      "loss": 0.2219,
      "step": 4850
    },
    {
      "epoch": 200.0,
      "eval_accuracy": 0.7832167832167832,
      "eval_loss": 0.7162622213363647,
      "eval_runtime": 5.2016,
      "eval_samples_per_second": 54.984,
      "eval_steps_per_second": 3.461,
      "step": 4850
    },
    {
      "epoch": 200.99,
      "eval_accuracy": 0.7797202797202797,
      "eval_loss": 0.7302048802375793,
      "eval_runtime": 4.9222,
      "eval_samples_per_second": 58.104,
      "eval_steps_per_second": 3.657,
      "step": 4874
    },
    {
      "epoch": 201.98,
      "eval_accuracy": 0.7832167832167832,
      "eval_loss": 0.7223746180534363,
      "eval_runtime": 4.6884,
      "eval_samples_per_second": 61.002,
      "eval_steps_per_second": 3.839,
      "step": 4898
    },
    {
      "epoch": 202.06,
      "grad_norm": 2.053739309310913,
      "learning_rate": 6.1222222222222224e-06,
      "loss": 0.2183,
      "step": 4900
    },
    {
      "epoch": 202.97,
      "eval_accuracy": 0.7797202797202797,
      "eval_loss": 0.7179226279258728,
      "eval_runtime": 4.5556,
      "eval_samples_per_second": 62.78,
      "eval_steps_per_second": 3.951,
      "step": 4922
    },
    {
      "epoch": 204.0,
      "eval_accuracy": 0.7797202797202797,
      "eval_loss": 0.7245286107063293,
      "eval_runtime": 5.7474,
      "eval_samples_per_second": 49.762,
      "eval_steps_per_second": 3.132,
      "step": 4947
    },
    {
      "epoch": 204.12,
      "grad_norm": 1.1081063747406006,
      "learning_rate": 5.844444444444444e-06,
      "loss": 0.2053,
      "step": 4950
    },
    {
      "epoch": 204.99,
      "eval_accuracy": 0.7832167832167832,
      "eval_loss": 0.7344977259635925,
      "eval_runtime": 5.4178,
      "eval_samples_per_second": 52.789,
      "eval_steps_per_second": 3.322,
      "step": 4971
    },
    {
      "epoch": 205.98,
      "eval_accuracy": 0.7832167832167832,
      "eval_loss": 0.7249557971954346,
      "eval_runtime": 5.6352,
      "eval_samples_per_second": 50.753,
      "eval_steps_per_second": 3.194,
      "step": 4995
    },
    {
      "epoch": 206.19,
      "grad_norm": 1.09213125705719,
      "learning_rate": 5.566666666666667e-06,
      "loss": 0.2113,
      "step": 5000
    },
    {
      "epoch": 206.97,
      "eval_accuracy": 0.7832167832167832,
      "eval_loss": 0.7246001958847046,
      "eval_runtime": 4.9071,
      "eval_samples_per_second": 58.283,
      "eval_steps_per_second": 3.668,
      "step": 5019
    },
    {
      "epoch": 208.0,
      "eval_accuracy": 0.7867132867132867,
      "eval_loss": 0.7270117998123169,
      "eval_runtime": 5.8385,
      "eval_samples_per_second": 48.985,
      "eval_steps_per_second": 3.083,
      "step": 5044
    },
    {
      "epoch": 208.25,
      "grad_norm": 1.6693130731582642,
      "learning_rate": 5.288888888888889e-06,
      "loss": 0.2152,
      "step": 5050
    },
    {
      "epoch": 208.99,
      "eval_accuracy": 0.7867132867132867,
      "eval_loss": 0.7285901308059692,
      "eval_runtime": 5.489,
      "eval_samples_per_second": 52.104,
      "eval_steps_per_second": 3.279,
      "step": 5068
    },
    {
      "epoch": 209.98,
      "eval_accuracy": 0.7797202797202797,
      "eval_loss": 0.7332947254180908,
      "eval_runtime": 5.3017,
      "eval_samples_per_second": 53.945,
      "eval_steps_per_second": 3.395,
      "step": 5092
    },
    {
      "epoch": 210.31,
      "grad_norm": 2.0511515140533447,
      "learning_rate": 5.011111111111112e-06,
      "loss": 0.2129,
      "step": 5100
    },
    {
      "epoch": 210.97,
      "eval_accuracy": 0.7797202797202797,
      "eval_loss": 0.7307863831520081,
      "eval_runtime": 5.2991,
      "eval_samples_per_second": 53.971,
      "eval_steps_per_second": 3.397,
      "step": 5116
    },
    {
      "epoch": 212.0,
      "eval_accuracy": 0.7797202797202797,
      "eval_loss": 0.7176437973976135,
      "eval_runtime": 4.9452,
      "eval_samples_per_second": 57.834,
      "eval_steps_per_second": 3.64,
      "step": 5141
    },
    {
      "epoch": 212.37,
      "grad_norm": 1.8491023778915405,
      "learning_rate": 4.7333333333333335e-06,
      "loss": 0.2173,
      "step": 5150
    },
    {
      "epoch": 212.99,
      "eval_accuracy": 0.7832167832167832,
      "eval_loss": 0.7334882020950317,
      "eval_runtime": 4.9602,
      "eval_samples_per_second": 57.659,
      "eval_steps_per_second": 3.629,
      "step": 5165
    },
    {
      "epoch": 213.98,
      "eval_accuracy": 0.7797202797202797,
      "eval_loss": 0.7268483638763428,
      "eval_runtime": 5.885,
      "eval_samples_per_second": 48.598,
      "eval_steps_per_second": 3.059,
      "step": 5189
    },
    {
      "epoch": 214.43,
      "grad_norm": 1.2067769765853882,
      "learning_rate": 4.455555555555556e-06,
      "loss": 0.2042,
      "step": 5200
    },
    {
      "epoch": 214.97,
      "eval_accuracy": 0.7902097902097902,
      "eval_loss": 0.7299237847328186,
      "eval_runtime": 5.7645,
      "eval_samples_per_second": 49.614,
      "eval_steps_per_second": 3.123,
      "step": 5213
    },
    {
      "epoch": 216.0,
      "eval_accuracy": 0.7902097902097902,
      "eval_loss": 0.7360625863075256,
      "eval_runtime": 4.7143,
      "eval_samples_per_second": 60.667,
      "eval_steps_per_second": 3.818,
      "step": 5238
    },
    {
      "epoch": 216.49,
      "grad_norm": 1.3863427639007568,
      "learning_rate": 4.177777777777777e-06,
      "loss": 0.2112,
      "step": 5250
    },
    {
      "epoch": 216.99,
      "eval_accuracy": 0.7902097902097902,
      "eval_loss": 0.723866879940033,
      "eval_runtime": 5.3445,
      "eval_samples_per_second": 53.513,
      "eval_steps_per_second": 3.368,
      "step": 5262
    },
    {
      "epoch": 217.98,
      "eval_accuracy": 0.7832167832167832,
      "eval_loss": 0.7252445220947266,
      "eval_runtime": 4.6314,
      "eval_samples_per_second": 61.753,
      "eval_steps_per_second": 3.887,
      "step": 5286
    },
    {
      "epoch": 218.56,
      "grad_norm": 1.1177924871444702,
      "learning_rate": 3.9e-06,
      "loss": 0.2007,
      "step": 5300
    },
    {
      "epoch": 218.97,
      "eval_accuracy": 0.7867132867132867,
      "eval_loss": 0.719983696937561,
      "eval_runtime": 4.865,
      "eval_samples_per_second": 58.787,
      "eval_steps_per_second": 3.7,
      "step": 5310
    },
    {
      "epoch": 220.0,
      "eval_accuracy": 0.7867132867132867,
      "eval_loss": 0.7195786237716675,
      "eval_runtime": 5.5422,
      "eval_samples_per_second": 51.604,
      "eval_steps_per_second": 3.248,
      "step": 5335
    },
    {
      "epoch": 220.62,
      "grad_norm": 1.413304090499878,
      "learning_rate": 3.6222222222222226e-06,
      "loss": 0.2163,
      "step": 5350
    },
    {
      "epoch": 220.99,
      "eval_accuracy": 0.7902097902097902,
      "eval_loss": 0.7309580445289612,
      "eval_runtime": 5.2512,
      "eval_samples_per_second": 54.463,
      "eval_steps_per_second": 3.428,
      "step": 5359
    },
    {
      "epoch": 221.98,
      "eval_accuracy": 0.7867132867132867,
      "eval_loss": 0.7313971519470215,
      "eval_runtime": 5.1151,
      "eval_samples_per_second": 55.913,
      "eval_steps_per_second": 3.519,
      "step": 5383
    },
    {
      "epoch": 222.68,
      "grad_norm": 3.0471901893615723,
      "learning_rate": 3.3444444444444445e-06,
      "loss": 0.2141,
      "step": 5400
    },
    {
      "epoch": 222.97,
      "eval_accuracy": 0.7832167832167832,
      "eval_loss": 0.727938175201416,
      "eval_runtime": 4.6405,
      "eval_samples_per_second": 61.631,
      "eval_steps_per_second": 3.879,
      "step": 5407
    },
    {
      "epoch": 224.0,
      "eval_accuracy": 0.7902097902097902,
      "eval_loss": 0.725923478603363,
      "eval_runtime": 5.0906,
      "eval_samples_per_second": 56.182,
      "eval_steps_per_second": 3.536,
      "step": 5432
    }
  ],
  "logging_steps": 50,
  "max_steps": 6000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 250,
  "save_steps": 500,
  "total_flos": 3.037085846065152e+18,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}