{
  "best_metric": 0.7716955941255007,
  "best_model_checkpoint": "videomae-base-finetuned-crema-d/checkpoint-2976",
  "epoch": 3.248991935483871,
  "eval_steps": 500,
  "global_step": 2976,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "grad_norm": 5.760349273681641,
      "learning_rate": 1.6778523489932886e-06,
      "loss": 1.8338,
      "step": 10
    },
    {
      "epoch": 0.01,
      "grad_norm": 9.048269271850586,
      "learning_rate": 3.3557046979865773e-06,
      "loss": 1.7833,
      "step": 20
    },
    {
      "epoch": 0.01,
      "grad_norm": 6.0566582679748535,
      "learning_rate": 5.033557046979865e-06,
      "loss": 1.8566,
      "step": 30
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.5116777420043945,
      "learning_rate": 6.7114093959731546e-06,
      "loss": 1.8048,
      "step": 40
    },
    {
      "epoch": 0.02,
      "grad_norm": 8.145613670349121,
      "learning_rate": 8.389261744966444e-06,
      "loss": 1.8268,
      "step": 50
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.998843193054199,
      "learning_rate": 1.006711409395973e-05,
      "loss": 1.8079,
      "step": 60
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.468102931976318,
      "learning_rate": 1.174496644295302e-05,
      "loss": 1.7935,
      "step": 70
    },
    {
      "epoch": 0.03,
      "grad_norm": 8.64526653289795,
      "learning_rate": 1.3422818791946309e-05,
      "loss": 1.8065,
      "step": 80
    },
    {
      "epoch": 0.03,
      "grad_norm": 8.037222862243652,
      "learning_rate": 1.51006711409396e-05,
      "loss": 1.8342,
      "step": 90
    },
    {
      "epoch": 0.03,
      "grad_norm": 5.989783763885498,
      "learning_rate": 1.6778523489932888e-05,
      "loss": 1.7997,
      "step": 100
    },
    {
      "epoch": 0.04,
      "grad_norm": 4.864299774169922,
      "learning_rate": 1.8456375838926178e-05,
      "loss": 1.7957,
      "step": 110
    },
    {
      "epoch": 0.04,
      "grad_norm": 5.480282306671143,
      "learning_rate": 2.013422818791946e-05,
      "loss": 1.8003,
      "step": 120
    },
    {
      "epoch": 0.04,
      "grad_norm": 5.53774356842041,
      "learning_rate": 2.181208053691275e-05,
      "loss": 1.8043,
      "step": 130
    },
    {
      "epoch": 0.05,
      "grad_norm": 4.55401086807251,
      "learning_rate": 2.348993288590604e-05,
      "loss": 1.7999,
      "step": 140
    },
    {
      "epoch": 0.05,
      "grad_norm": 6.325999736785889,
      "learning_rate": 2.516778523489933e-05,
      "loss": 1.8212,
      "step": 150
    },
    {
      "epoch": 0.05,
      "grad_norm": 5.2186384201049805,
      "learning_rate": 2.6845637583892618e-05,
      "loss": 1.8054,
      "step": 160
    },
    {
      "epoch": 0.06,
      "grad_norm": 4.816122531890869,
      "learning_rate": 2.8523489932885905e-05,
      "loss": 1.7649,
      "step": 170
    },
    {
      "epoch": 0.06,
      "grad_norm": 7.520569324493408,
      "learning_rate": 3.02013422818792e-05,
      "loss": 1.8419,
      "step": 180
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.297429084777832,
      "learning_rate": 3.1879194630872485e-05,
      "loss": 1.8545,
      "step": 190
    },
    {
      "epoch": 0.07,
      "grad_norm": 6.2528157234191895,
      "learning_rate": 3.3557046979865775e-05,
      "loss": 1.8201,
      "step": 200
    },
    {
      "epoch": 0.07,
      "grad_norm": 5.351396560668945,
      "learning_rate": 3.523489932885906e-05,
      "loss": 1.8419,
      "step": 210
    },
    {
      "epoch": 0.07,
      "grad_norm": 5.8143205642700195,
      "learning_rate": 3.6912751677852356e-05,
      "loss": 1.7808,
      "step": 220
    },
    {
      "epoch": 0.08,
      "grad_norm": 7.477051258087158,
      "learning_rate": 3.859060402684564e-05,
      "loss": 1.7943,
      "step": 230
    },
    {
      "epoch": 0.08,
      "grad_norm": 6.706202507019043,
      "learning_rate": 4.026845637583892e-05,
      "loss": 1.7989,
      "step": 240
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.9664440155029297,
      "learning_rate": 4.194630872483222e-05,
      "loss": 1.7706,
      "step": 250
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.81217885017395,
      "learning_rate": 4.36241610738255e-05,
      "loss": 1.7419,
      "step": 260
    },
    {
      "epoch": 0.09,
      "grad_norm": 4.910625457763672,
      "learning_rate": 4.530201342281879e-05,
      "loss": 1.7881,
      "step": 270
    },
    {
      "epoch": 0.09,
      "grad_norm": 5.797287464141846,
      "learning_rate": 4.697986577181208e-05,
      "loss": 1.7521,
      "step": 280
    },
    {
      "epoch": 0.1,
      "grad_norm": 7.617332458496094,
      "learning_rate": 4.865771812080537e-05,
      "loss": 1.7843,
      "step": 290
    },
    {
      "epoch": 0.1,
      "grad_norm": 4.990447998046875,
      "learning_rate": 4.996265870052278e-05,
      "loss": 1.7502,
      "step": 300
    },
    {
      "epoch": 0.1,
      "grad_norm": 5.435561180114746,
      "learning_rate": 4.977595220313667e-05,
      "loss": 1.7963,
      "step": 310
    },
    {
      "epoch": 0.11,
      "grad_norm": 4.737900733947754,
      "learning_rate": 4.958924570575056e-05,
      "loss": 1.7886,
      "step": 320
    },
    {
      "epoch": 0.11,
      "grad_norm": 5.74743127822876,
      "learning_rate": 4.9402539208364454e-05,
      "loss": 1.6962,
      "step": 330
    },
    {
      "epoch": 0.11,
      "grad_norm": 5.965871334075928,
      "learning_rate": 4.9215832710978346e-05,
      "loss": 1.6777,
      "step": 340
    },
    {
      "epoch": 0.12,
      "grad_norm": 4.960763454437256,
      "learning_rate": 4.902912621359224e-05,
      "loss": 1.6884,
      "step": 350
    },
    {
      "epoch": 0.12,
      "grad_norm": 6.505197048187256,
      "learning_rate": 4.884241971620613e-05,
      "loss": 1.7821,
      "step": 360
    },
    {
      "epoch": 0.12,
      "grad_norm": 5.1678690910339355,
      "learning_rate": 4.8655713218820016e-05,
      "loss": 1.66,
      "step": 370
    },
    {
      "epoch": 0.13,
      "grad_norm": 5.795999050140381,
      "learning_rate": 4.846900672143391e-05,
      "loss": 1.5792,
      "step": 380
    },
    {
      "epoch": 0.13,
      "grad_norm": 6.603484153747559,
      "learning_rate": 4.82823002240478e-05,
      "loss": 1.7417,
      "step": 390
    },
    {
      "epoch": 0.13,
      "grad_norm": 5.212063789367676,
      "learning_rate": 4.809559372666169e-05,
      "loss": 1.6738,
      "step": 400
    },
    {
      "epoch": 0.14,
      "grad_norm": 8.541826248168945,
      "learning_rate": 4.790888722927558e-05,
      "loss": 1.5922,
      "step": 410
    },
    {
      "epoch": 0.14,
      "grad_norm": 3.82656192779541,
      "learning_rate": 4.772218073188947e-05,
      "loss": 1.5628,
      "step": 420
    },
    {
      "epoch": 0.14,
      "grad_norm": 5.175779342651367,
      "learning_rate": 4.753547423450336e-05,
      "loss": 1.4552,
      "step": 430
    },
    {
      "epoch": 0.15,
      "grad_norm": 10.138590812683105,
      "learning_rate": 4.7348767737117256e-05,
      "loss": 1.5186,
      "step": 440
    },
    {
      "epoch": 0.15,
      "grad_norm": 6.244022369384766,
      "learning_rate": 4.716206123973114e-05,
      "loss": 1.5294,
      "step": 450
    },
    {
      "epoch": 0.15,
      "grad_norm": 8.858402252197266,
      "learning_rate": 4.697535474234503e-05,
      "loss": 1.575,
      "step": 460
    },
    {
      "epoch": 0.16,
      "grad_norm": 10.982501983642578,
      "learning_rate": 4.6788648244958926e-05,
      "loss": 1.3825,
      "step": 470
    },
    {
      "epoch": 0.16,
      "grad_norm": 5.098132133483887,
      "learning_rate": 4.660194174757282e-05,
      "loss": 1.5564,
      "step": 480
    },
    {
      "epoch": 0.16,
      "grad_norm": 9.022628784179688,
      "learning_rate": 4.6415235250186703e-05,
      "loss": 1.4521,
      "step": 490
    },
    {
      "epoch": 0.17,
      "grad_norm": 6.255734920501709,
      "learning_rate": 4.6228528752800596e-05,
      "loss": 1.4433,
      "step": 500
    },
    {
      "epoch": 0.17,
      "grad_norm": 6.896034240722656,
      "learning_rate": 4.604182225541449e-05,
      "loss": 1.2428,
      "step": 510
    },
    {
      "epoch": 0.17,
      "grad_norm": 8.46157455444336,
      "learning_rate": 4.585511575802838e-05,
      "loss": 1.6095,
      "step": 520
    },
    {
      "epoch": 0.18,
      "grad_norm": 10.607795715332031,
      "learning_rate": 4.566840926064227e-05,
      "loss": 1.3614,
      "step": 530
    },
    {
      "epoch": 0.18,
      "grad_norm": 8.187577247619629,
      "learning_rate": 4.5481702763256165e-05,
      "loss": 1.4039,
      "step": 540
    },
    {
      "epoch": 0.18,
      "grad_norm": 6.012808799743652,
      "learning_rate": 4.529499626587006e-05,
      "loss": 1.3718,
      "step": 550
    },
    {
      "epoch": 0.19,
      "grad_norm": 8.495460510253906,
      "learning_rate": 4.510828976848395e-05,
      "loss": 1.5929,
      "step": 560
    },
    {
      "epoch": 0.19,
      "grad_norm": 7.895150661468506,
      "learning_rate": 4.492158327109784e-05,
      "loss": 1.496,
      "step": 570
    },
    {
      "epoch": 0.19,
      "grad_norm": 12.405017852783203,
      "learning_rate": 4.473487677371173e-05,
      "loss": 1.3095,
      "step": 580
    },
    {
      "epoch": 0.2,
      "grad_norm": 7.533573627471924,
      "learning_rate": 4.454817027632562e-05,
      "loss": 1.2903,
      "step": 590
    },
    {
      "epoch": 0.2,
      "grad_norm": 13.207169532775879,
      "learning_rate": 4.436146377893951e-05,
      "loss": 1.3694,
      "step": 600
    },
    {
      "epoch": 0.2,
      "grad_norm": 10.815791130065918,
      "learning_rate": 4.4174757281553404e-05,
      "loss": 1.3493,
      "step": 610
    },
    {
      "epoch": 0.21,
      "grad_norm": 11.566437721252441,
      "learning_rate": 4.398805078416729e-05,
      "loss": 1.2559,
      "step": 620
    },
    {
      "epoch": 0.21,
      "grad_norm": 7.412988185882568,
      "learning_rate": 4.380134428678118e-05,
      "loss": 1.3109,
      "step": 630
    },
    {
      "epoch": 0.22,
      "grad_norm": 14.100852966308594,
      "learning_rate": 4.3614637789395075e-05,
      "loss": 1.1103,
      "step": 640
    },
    {
      "epoch": 0.22,
      "grad_norm": 9.976635932922363,
      "learning_rate": 4.342793129200897e-05,
      "loss": 1.1237,
      "step": 650
    },
    {
      "epoch": 0.22,
      "grad_norm": 7.811356544494629,
      "learning_rate": 4.324122479462285e-05,
      "loss": 1.2018,
      "step": 660
    },
    {
      "epoch": 0.23,
      "grad_norm": 14.377639770507812,
      "learning_rate": 4.3054518297236745e-05,
      "loss": 1.3489,
      "step": 670
    },
    {
      "epoch": 0.23,
      "grad_norm": 11.040681838989258,
      "learning_rate": 4.286781179985064e-05,
      "loss": 1.3541,
      "step": 680
    },
    {
      "epoch": 0.23,
      "grad_norm": 6.57070255279541,
      "learning_rate": 4.268110530246453e-05,
      "loss": 1.2983,
      "step": 690
    },
    {
      "epoch": 0.24,
      "grad_norm": 8.735311508178711,
      "learning_rate": 4.2494398805078415e-05,
      "loss": 1.1197,
      "step": 700
    },
    {
      "epoch": 0.24,
      "grad_norm": 6.8174967765808105,
      "learning_rate": 4.230769230769231e-05,
      "loss": 1.0472,
      "step": 710
    },
    {
      "epoch": 0.24,
      "grad_norm": 12.048589706420898,
      "learning_rate": 4.21209858103062e-05,
      "loss": 1.4369,
      "step": 720
    },
    {
      "epoch": 0.25,
      "grad_norm": 12.700406074523926,
      "learning_rate": 4.193427931292009e-05,
      "loss": 1.2478,
      "step": 730
    },
    {
      "epoch": 0.25,
      "grad_norm": 7.666278839111328,
      "learning_rate": 4.1747572815533984e-05,
      "loss": 1.3338,
      "step": 740
    },
    {
      "epoch": 0.25,
      "eval_accuracy": 0.5420560747663551,
      "eval_loss": 1.1829406023025513,
      "eval_runtime": 904.6926,
      "eval_samples_per_second": 0.828,
      "eval_steps_per_second": 0.104,
      "step": 745
    },
    {
      "epoch": 1.0,
      "grad_norm": 6.358787536621094,
      "learning_rate": 4.1560866318147876e-05,
      "loss": 0.9853,
      "step": 750
    },
    {
      "epoch": 1.01,
      "grad_norm": 8.554600715637207,
      "learning_rate": 4.137415982076177e-05,
      "loss": 1.0768,
      "step": 760
    },
    {
      "epoch": 1.01,
      "grad_norm": 12.124260902404785,
      "learning_rate": 4.118745332337566e-05,
      "loss": 1.3577,
      "step": 770
    },
    {
      "epoch": 1.01,
      "grad_norm": 9.775067329406738,
      "learning_rate": 4.1000746825989546e-05,
      "loss": 1.3907,
      "step": 780
    },
    {
      "epoch": 1.02,
      "grad_norm": 9.147189140319824,
      "learning_rate": 4.081404032860344e-05,
      "loss": 1.074,
      "step": 790
    },
    {
      "epoch": 1.02,
      "grad_norm": 6.194709300994873,
      "learning_rate": 4.062733383121733e-05,
      "loss": 1.2347,
      "step": 800
    },
    {
      "epoch": 1.02,
      "grad_norm": 11.448624610900879,
      "learning_rate": 4.0440627333831223e-05,
      "loss": 1.2399,
      "step": 810
    },
    {
      "epoch": 1.03,
      "grad_norm": 13.05949592590332,
      "learning_rate": 4.025392083644511e-05,
      "loss": 1.0717,
      "step": 820
    },
    {
      "epoch": 1.03,
      "grad_norm": 5.969186305999756,
      "learning_rate": 4.0067214339059e-05,
      "loss": 1.1268,
      "step": 830
    },
    {
      "epoch": 1.03,
      "grad_norm": 6.427971839904785,
      "learning_rate": 3.9880507841672894e-05,
      "loss": 0.9636,
      "step": 840
    },
    {
      "epoch": 1.04,
      "grad_norm": 8.606071472167969,
      "learning_rate": 3.9693801344286786e-05,
      "loss": 1.0751,
      "step": 850
    },
    {
      "epoch": 1.04,
      "grad_norm": 12.859915733337402,
      "learning_rate": 3.950709484690067e-05,
      "loss": 1.2018,
      "step": 860
    },
    {
      "epoch": 1.04,
      "grad_norm": 12.422194480895996,
      "learning_rate": 3.9320388349514564e-05,
      "loss": 1.1174,
      "step": 870
    },
    {
      "epoch": 1.05,
      "grad_norm": 8.679601669311523,
      "learning_rate": 3.9133681852128456e-05,
      "loss": 1.2865,
      "step": 880
    },
    {
      "epoch": 1.05,
      "grad_norm": 5.459720611572266,
      "learning_rate": 3.894697535474235e-05,
      "loss": 1.0364,
      "step": 890
    },
    {
      "epoch": 1.05,
      "grad_norm": 10.646659851074219,
      "learning_rate": 3.8760268857356234e-05,
      "loss": 1.1716,
      "step": 900
    },
    {
      "epoch": 1.06,
      "grad_norm": 8.516483306884766,
      "learning_rate": 3.8573562359970126e-05,
      "loss": 0.9867,
      "step": 910
    },
    {
      "epoch": 1.06,
      "grad_norm": 14.066451072692871,
      "learning_rate": 3.838685586258402e-05,
      "loss": 1.1421,
      "step": 920
    },
    {
      "epoch": 1.06,
      "grad_norm": 9.41159439086914,
      "learning_rate": 3.820014936519791e-05,
      "loss": 1.0508,
      "step": 930
    },
    {
      "epoch": 1.07,
      "grad_norm": 11.18262004852295,
      "learning_rate": 3.8013442867811796e-05,
      "loss": 0.9739,
      "step": 940
    },
    {
      "epoch": 1.07,
      "grad_norm": 16.90355110168457,
      "learning_rate": 3.782673637042569e-05,
      "loss": 1.1027,
      "step": 950
    },
    {
      "epoch": 1.07,
      "grad_norm": 7.43916130065918,
      "learning_rate": 3.764002987303958e-05,
      "loss": 1.0386,
      "step": 960
    },
    {
      "epoch": 1.08,
      "grad_norm": 11.69296646118164,
      "learning_rate": 3.745332337565347e-05,
      "loss": 1.064,
      "step": 970
    },
    {
      "epoch": 1.08,
      "grad_norm": 10.498766899108887,
      "learning_rate": 3.7266616878267365e-05,
      "loss": 1.0179,
      "step": 980
    },
    {
      "epoch": 1.08,
      "grad_norm": 4.3311767578125,
      "learning_rate": 3.707991038088126e-05,
      "loss": 1.1231,
      "step": 990
    },
    {
      "epoch": 1.09,
      "grad_norm": 9.278166770935059,
      "learning_rate": 3.689320388349515e-05,
      "loss": 0.9837,
      "step": 1000
    },
    {
      "epoch": 1.09,
      "grad_norm": 9.836461067199707,
      "learning_rate": 3.670649738610904e-05,
      "loss": 0.9265,
      "step": 1010
    },
    {
      "epoch": 1.09,
      "grad_norm": 10.152872085571289,
      "learning_rate": 3.651979088872293e-05,
      "loss": 0.9763,
      "step": 1020
    },
    {
      "epoch": 1.1,
      "grad_norm": 13.765419960021973,
      "learning_rate": 3.633308439133682e-05,
      "loss": 0.9485,
      "step": 1030
    },
    {
      "epoch": 1.1,
      "grad_norm": 10.401651382446289,
      "learning_rate": 3.614637789395071e-05,
      "loss": 0.7182,
      "step": 1040
    },
    {
      "epoch": 1.1,
      "grad_norm": 11.762330055236816,
      "learning_rate": 3.5959671396564605e-05,
      "loss": 1.0328,
      "step": 1050
    },
    {
      "epoch": 1.11,
      "grad_norm": 5.014040946960449,
      "learning_rate": 3.577296489917849e-05,
      "loss": 0.6854,
      "step": 1060
    },
    {
      "epoch": 1.11,
      "grad_norm": 4.807781219482422,
      "learning_rate": 3.558625840179238e-05,
      "loss": 0.9631,
      "step": 1070
    },
    {
      "epoch": 1.11,
      "grad_norm": 7.669546604156494,
      "learning_rate": 3.5399551904406275e-05,
      "loss": 0.9589,
      "step": 1080
    },
    {
      "epoch": 1.12,
      "grad_norm": 11.374773025512695,
      "learning_rate": 3.521284540702017e-05,
      "loss": 0.8436,
      "step": 1090
    },
    {
      "epoch": 1.12,
      "grad_norm": 7.476602077484131,
      "learning_rate": 3.502613890963405e-05,
      "loss": 0.9864,
      "step": 1100
    },
    {
      "epoch": 1.12,
      "grad_norm": 12.699721336364746,
      "learning_rate": 3.4839432412247945e-05,
      "loss": 0.9934,
      "step": 1110
    },
    {
      "epoch": 1.13,
      "grad_norm": 8.183053970336914,
      "learning_rate": 3.465272591486184e-05,
      "loss": 0.9829,
      "step": 1120
    },
    {
      "epoch": 1.13,
      "grad_norm": 7.885306358337402,
      "learning_rate": 3.446601941747573e-05,
      "loss": 0.7248,
      "step": 1130
    },
    {
      "epoch": 1.13,
      "grad_norm": 11.075972557067871,
      "learning_rate": 3.427931292008962e-05,
      "loss": 0.9313,
      "step": 1140
    },
    {
      "epoch": 1.14,
      "grad_norm": 6.066199779510498,
      "learning_rate": 3.409260642270351e-05,
      "loss": 0.9284,
      "step": 1150
    },
    {
      "epoch": 1.14,
      "grad_norm": 10.348365783691406,
      "learning_rate": 3.39058999253174e-05,
      "loss": 1.0358,
      "step": 1160
    },
    {
      "epoch": 1.14,
      "grad_norm": 7.202375411987305,
      "learning_rate": 3.371919342793129e-05,
      "loss": 0.8607,
      "step": 1170
    },
    {
      "epoch": 1.15,
      "grad_norm": 6.367992877960205,
      "learning_rate": 3.3532486930545184e-05,
      "loss": 1.0217,
      "step": 1180
    },
    {
      "epoch": 1.15,
      "grad_norm": 13.979278564453125,
      "learning_rate": 3.334578043315908e-05,
      "loss": 1.1833,
      "step": 1190
    },
    {
      "epoch": 1.15,
      "grad_norm": 6.82177209854126,
      "learning_rate": 3.315907393577297e-05,
      "loss": 0.6327,
      "step": 1200
    },
    {
      "epoch": 1.16,
      "grad_norm": 12.581374168395996,
      "learning_rate": 3.297236743838686e-05,
      "loss": 0.7669,
      "step": 1210
    },
    {
      "epoch": 1.16,
      "grad_norm": 14.224852561950684,
      "learning_rate": 3.2785660941000754e-05,
      "loss": 0.8487,
      "step": 1220
    },
    {
      "epoch": 1.16,
      "grad_norm": 9.749143600463867,
      "learning_rate": 3.259895444361464e-05,
      "loss": 0.8803,
      "step": 1230
    },
    {
      "epoch": 1.17,
      "grad_norm": 6.892112731933594,
      "learning_rate": 3.241224794622853e-05,
      "loss": 0.9652,
      "step": 1240
    },
    {
      "epoch": 1.17,
      "grad_norm": 10.014918327331543,
      "learning_rate": 3.2225541448842424e-05,
      "loss": 1.0123,
      "step": 1250
    },
    {
      "epoch": 1.17,
      "grad_norm": 11.023155212402344,
      "learning_rate": 3.2038834951456316e-05,
      "loss": 1.1061,
      "step": 1260
    },
    {
      "epoch": 1.18,
      "grad_norm": 8.888738632202148,
      "learning_rate": 3.18521284540702e-05,
      "loss": 0.7113,
      "step": 1270
    },
    {
      "epoch": 1.18,
      "grad_norm": 8.49458122253418,
      "learning_rate": 3.1665421956684094e-05,
      "loss": 0.791,
      "step": 1280
    },
    {
      "epoch": 1.18,
      "grad_norm": 8.786158561706543,
      "learning_rate": 3.1478715459297986e-05,
      "loss": 0.7355,
      "step": 1290
    },
    {
      "epoch": 1.19,
      "grad_norm": 16.111709594726562,
      "learning_rate": 3.129200896191188e-05,
      "loss": 0.982,
      "step": 1300
    },
    {
      "epoch": 1.19,
      "grad_norm": 7.9021430015563965,
      "learning_rate": 3.1105302464525764e-05,
      "loss": 0.8943,
      "step": 1310
    },
    {
      "epoch": 1.19,
      "grad_norm": 7.357479095458984,
      "learning_rate": 3.0918595967139656e-05,
      "loss": 0.7461,
      "step": 1320
    },
    {
      "epoch": 1.2,
      "grad_norm": 14.934378623962402,
      "learning_rate": 3.073188946975355e-05,
      "loss": 0.7746,
      "step": 1330
    },
    {
      "epoch": 1.2,
      "grad_norm": 11.77542781829834,
      "learning_rate": 3.054518297236744e-05,
      "loss": 0.885,
      "step": 1340
    },
    {
      "epoch": 1.2,
      "grad_norm": 17.760576248168945,
      "learning_rate": 3.035847647498133e-05,
      "loss": 0.7828,
      "step": 1350
    },
    {
      "epoch": 1.21,
      "grad_norm": 11.989594459533691,
      "learning_rate": 3.0171769977595222e-05,
      "loss": 0.9344,
      "step": 1360
    },
    {
      "epoch": 1.21,
      "grad_norm": 5.0391411781311035,
      "learning_rate": 2.9985063480209115e-05,
      "loss": 0.8585,
      "step": 1370
    },
    {
      "epoch": 1.21,
      "grad_norm": 9.874053955078125,
      "learning_rate": 2.9798356982823007e-05,
      "loss": 0.9196,
      "step": 1380
    },
    {
      "epoch": 1.22,
      "grad_norm": 10.406829833984375,
      "learning_rate": 2.9611650485436892e-05,
      "loss": 0.9925,
      "step": 1390
    },
    {
      "epoch": 1.22,
      "grad_norm": 16.425094604492188,
      "learning_rate": 2.9424943988050785e-05,
      "loss": 0.7027,
      "step": 1400
    },
    {
      "epoch": 1.22,
      "grad_norm": 11.810002326965332,
      "learning_rate": 2.9238237490664677e-05,
      "loss": 0.9193,
      "step": 1410
    },
    {
      "epoch": 1.23,
      "grad_norm": 12.210872650146484,
      "learning_rate": 2.905153099327857e-05,
      "loss": 0.8947,
      "step": 1420
    },
    {
      "epoch": 1.23,
      "grad_norm": 9.497247695922852,
      "learning_rate": 2.8864824495892455e-05,
      "loss": 0.6668,
      "step": 1430
    },
    {
      "epoch": 1.23,
      "grad_norm": 5.939825534820557,
      "learning_rate": 2.8678117998506347e-05,
      "loss": 0.7842,
      "step": 1440
    },
    {
      "epoch": 1.24,
      "grad_norm": 12.5969877243042,
      "learning_rate": 2.849141150112024e-05,
      "loss": 0.9445,
      "step": 1450
    },
    {
      "epoch": 1.24,
      "grad_norm": 15.42662525177002,
      "learning_rate": 2.8304705003734132e-05,
      "loss": 0.7938,
      "step": 1460
    },
    {
      "epoch": 1.24,
      "grad_norm": 15.410506248474121,
      "learning_rate": 2.811799850634802e-05,
      "loss": 0.6952,
      "step": 1470
    },
    {
      "epoch": 1.25,
      "grad_norm": 17.34808349609375,
      "learning_rate": 2.7931292008961913e-05,
      "loss": 0.6892,
      "step": 1480
    },
    {
      "epoch": 1.25,
      "grad_norm": 35.20363235473633,
      "learning_rate": 2.7744585511575805e-05,
      "loss": 0.7267,
      "step": 1490
    },
    {
      "epoch": 1.25,
      "eval_accuracy": 0.5994659546061415,
      "eval_loss": 1.1654560565948486,
      "eval_runtime": 921.3681,
      "eval_samples_per_second": 0.813,
      "eval_steps_per_second": 0.102,
      "step": 1490
    },
    {
      "epoch": 2.0,
      "grad_norm": 15.467713356018066,
      "learning_rate": 2.7557879014189698e-05,
      "loss": 0.8923,
      "step": 1500
    },
    {
      "epoch": 2.01,
      "grad_norm": 10.478052139282227,
      "learning_rate": 2.7371172516803583e-05,
      "loss": 0.8463,
      "step": 1510
    },
    {
      "epoch": 2.01,
      "grad_norm": 6.153485298156738,
      "learning_rate": 2.7184466019417475e-05,
      "loss": 0.5317,
      "step": 1520
    },
    {
      "epoch": 2.01,
      "grad_norm": 13.30943775177002,
      "learning_rate": 2.6997759522031368e-05,
      "loss": 0.7803,
      "step": 1530
    },
    {
      "epoch": 2.02,
      "grad_norm": 13.708093643188477,
      "learning_rate": 2.681105302464526e-05,
      "loss": 0.7436,
      "step": 1540
    },
    {
      "epoch": 2.02,
      "grad_norm": 10.731609344482422,
      "learning_rate": 2.662434652725915e-05,
      "loss": 0.6694,
      "step": 1550
    },
    {
      "epoch": 2.02,
      "grad_norm": 13.720142364501953,
      "learning_rate": 2.643764002987304e-05,
      "loss": 0.7856,
      "step": 1560
    },
    {
      "epoch": 2.03,
      "grad_norm": 9.2802734375,
      "learning_rate": 2.6250933532486934e-05,
      "loss": 0.7952,
      "step": 1570
    },
    {
      "epoch": 2.03,
      "grad_norm": 12.707350730895996,
      "learning_rate": 2.6064227035100826e-05,
      "loss": 0.777,
      "step": 1580
    },
    {
      "epoch": 2.03,
      "grad_norm": 12.910747528076172,
      "learning_rate": 2.587752053771471e-05,
      "loss": 0.6501,
      "step": 1590
    },
    {
      "epoch": 2.04,
      "grad_norm": 22.617033004760742,
      "learning_rate": 2.5690814040328604e-05,
      "loss": 0.6589,
      "step": 1600
    },
    {
      "epoch": 2.04,
      "grad_norm": 14.209870338439941,
      "learning_rate": 2.5504107542942496e-05,
      "loss": 0.8306,
      "step": 1610
    },
    {
      "epoch": 2.04,
      "grad_norm": 14.813346862792969,
      "learning_rate": 2.531740104555639e-05,
      "loss": 0.807,
      "step": 1620
    },
    {
      "epoch": 2.05,
      "grad_norm": 6.85344123840332,
      "learning_rate": 2.5130694548170274e-05,
      "loss": 0.765,
      "step": 1630
    },
    {
      "epoch": 2.05,
      "grad_norm": 13.70073413848877,
      "learning_rate": 2.4943988050784166e-05,
      "loss": 0.9035,
      "step": 1640
    },
    {
      "epoch": 2.05,
      "grad_norm": 6.883921146392822,
      "learning_rate": 2.475728155339806e-05,
      "loss": 0.676,
      "step": 1650
    },
    {
      "epoch": 2.06,
      "grad_norm": 9.888433456420898,
      "learning_rate": 2.4570575056011947e-05,
      "loss": 0.5229,
      "step": 1660
    },
    {
      "epoch": 2.06,
      "grad_norm": 16.635055541992188,
      "learning_rate": 2.4383868558625843e-05,
      "loss": 0.6228,
      "step": 1670
    },
    {
      "epoch": 2.06,
      "grad_norm": 12.547937393188477,
      "learning_rate": 2.4197162061239732e-05,
      "loss": 0.8326,
      "step": 1680
    },
    {
      "epoch": 2.07,
      "grad_norm": 4.773686408996582,
      "learning_rate": 2.4010455563853624e-05,
      "loss": 0.8521,
      "step": 1690
    },
    {
      "epoch": 2.07,
      "grad_norm": 18.658830642700195,
      "learning_rate": 2.3823749066467517e-05,
      "loss": 0.9171,
      "step": 1700
    },
    {
      "epoch": 2.07,
      "grad_norm": 5.234017372131348,
      "learning_rate": 2.3637042569081406e-05,
      "loss": 0.7989,
      "step": 1710
    },
    {
      "epoch": 2.08,
      "grad_norm": 8.808801651000977,
      "learning_rate": 2.3450336071695298e-05,
      "loss": 0.6189,
      "step": 1720
    },
    {
      "epoch": 2.08,
      "grad_norm": 6.938609600067139,
      "learning_rate": 2.3263629574309187e-05,
      "loss": 0.7004,
      "step": 1730
    },
    {
      "epoch": 2.08,
      "grad_norm": 10.21754264831543,
      "learning_rate": 2.307692307692308e-05,
      "loss": 0.7499,
      "step": 1740
    },
    {
      "epoch": 2.09,
      "grad_norm": 11.396454811096191,
      "learning_rate": 2.2890216579536968e-05,
      "loss": 0.7971,
      "step": 1750
    },
    {
      "epoch": 2.09,
      "grad_norm": 10.790836334228516,
      "learning_rate": 2.270351008215086e-05,
      "loss": 0.5957,
      "step": 1760
    },
    {
      "epoch": 2.09,
      "grad_norm": 11.622756004333496,
      "learning_rate": 2.251680358476475e-05,
      "loss": 0.7758,
      "step": 1770
    },
    {
      "epoch": 2.1,
      "grad_norm": 7.144994735717773,
      "learning_rate": 2.233009708737864e-05,
      "loss": 0.7619,
      "step": 1780
    },
    {
      "epoch": 2.1,
      "grad_norm": 11.111455917358398,
      "learning_rate": 2.2143390589992534e-05,
      "loss": 0.8064,
      "step": 1790
    },
    {
      "epoch": 2.1,
      "grad_norm": 15.349996566772461,
      "learning_rate": 2.1956684092606426e-05,
      "loss": 0.5495,
      "step": 1800
    },
    {
      "epoch": 2.11,
      "grad_norm": 11.336999893188477,
      "learning_rate": 2.1769977595220315e-05,
      "loss": 0.5839,
      "step": 1810
    },
    {
      "epoch": 2.11,
      "grad_norm": 18.393957138061523,
      "learning_rate": 2.1583271097834207e-05,
      "loss": 0.734,
      "step": 1820
    },
    {
      "epoch": 2.11,
      "grad_norm": 25.235979080200195,
      "learning_rate": 2.1396564600448096e-05,
      "loss": 0.6846,
      "step": 1830
    },
    {
      "epoch": 2.12,
      "grad_norm": 9.84869384765625,
      "learning_rate": 2.120985810306199e-05,
      "loss": 0.7291,
      "step": 1840
    },
    {
      "epoch": 2.12,
      "grad_norm": 13.879663467407227,
      "learning_rate": 2.1023151605675877e-05,
      "loss": 0.7209,
      "step": 1850
    },
    {
      "epoch": 2.12,
      "grad_norm": 7.88728666305542,
      "learning_rate": 2.083644510828977e-05,
      "loss": 0.6504,
      "step": 1860
    },
    {
      "epoch": 2.13,
      "grad_norm": 8.783506393432617,
      "learning_rate": 2.064973861090366e-05,
      "loss": 0.6665,
      "step": 1870
    },
    {
      "epoch": 2.13,
      "grad_norm": 7.042248725891113,
      "learning_rate": 2.046303211351755e-05,
      "loss": 0.7613,
      "step": 1880
    },
    {
      "epoch": 2.13,
      "grad_norm": 10.716367721557617,
      "learning_rate": 2.0276325616131443e-05,
      "loss": 0.7084,
      "step": 1890
    },
    {
      "epoch": 2.14,
      "grad_norm": 14.881559371948242,
      "learning_rate": 2.0089619118745336e-05,
      "loss": 0.6231,
      "step": 1900
    },
    {
      "epoch": 2.14,
      "grad_norm": 9.515195846557617,
      "learning_rate": 1.9902912621359225e-05,
      "loss": 0.8258,
      "step": 1910
    },
    {
      "epoch": 2.14,
      "grad_norm": 14.22246265411377,
      "learning_rate": 1.9716206123973117e-05,
      "loss": 0.6518,
      "step": 1920
    },
    {
      "epoch": 2.15,
      "grad_norm": 11.609476089477539,
      "learning_rate": 1.9529499626587006e-05,
      "loss": 0.664,
      "step": 1930
    },
    {
      "epoch": 2.15,
      "grad_norm": 10.636045455932617,
      "learning_rate": 1.9342793129200898e-05,
      "loss": 0.7173,
      "step": 1940
    },
    {
      "epoch": 2.15,
      "grad_norm": 7.896694183349609,
      "learning_rate": 1.9156086631814787e-05,
      "loss": 0.7075,
      "step": 1950
    },
    {
      "epoch": 2.16,
      "grad_norm": 9.26502799987793,
      "learning_rate": 1.896938013442868e-05,
      "loss": 0.7841,
      "step": 1960
    },
    {
      "epoch": 2.16,
      "grad_norm": 9.681607246398926,
      "learning_rate": 1.8782673637042568e-05,
      "loss": 0.7001,
      "step": 1970
    },
    {
      "epoch": 2.16,
      "grad_norm": 13.643434524536133,
      "learning_rate": 1.859596713965646e-05,
      "loss": 0.5261,
      "step": 1980
    },
    {
      "epoch": 2.17,
      "grad_norm": 25.418973922729492,
      "learning_rate": 1.8409260642270353e-05,
      "loss": 0.785,
      "step": 1990
    },
    {
      "epoch": 2.17,
      "grad_norm": 8.811551094055176,
      "learning_rate": 1.8222554144884245e-05,
      "loss": 0.4682,
      "step": 2000
    },
    {
      "epoch": 2.17,
      "grad_norm": 17.820329666137695,
      "learning_rate": 1.8035847647498134e-05,
      "loss": 0.5039,
      "step": 2010
    },
    {
      "epoch": 2.18,
      "grad_norm": 9.090211868286133,
      "learning_rate": 1.7849141150112026e-05,
      "loss": 0.618,
      "step": 2020
    },
    {
      "epoch": 2.18,
      "grad_norm": 15.66312313079834,
      "learning_rate": 1.7662434652725915e-05,
      "loss": 0.7211,
      "step": 2030
    },
    {
      "epoch": 2.18,
      "grad_norm": 10.385933876037598,
      "learning_rate": 1.7475728155339808e-05,
      "loss": 0.6535,
      "step": 2040
    },
    {
      "epoch": 2.19,
      "grad_norm": 11.330973625183105,
      "learning_rate": 1.7289021657953697e-05,
      "loss": 0.4799,
      "step": 2050
    },
    {
      "epoch": 2.19,
      "grad_norm": 10.342955589294434,
      "learning_rate": 1.710231516056759e-05,
      "loss": 0.321,
      "step": 2060
    },
    {
      "epoch": 2.19,
      "grad_norm": 9.039690017700195,
      "learning_rate": 1.6915608663181478e-05,
      "loss": 0.3541,
      "step": 2070
    },
    {
      "epoch": 2.2,
      "grad_norm": 18.739028930664062,
      "learning_rate": 1.672890216579537e-05,
      "loss": 0.5273,
      "step": 2080
    },
    {
      "epoch": 2.2,
      "grad_norm": 3.3687400817871094,
      "learning_rate": 1.654219566840926e-05,
      "loss": 0.5261,
      "step": 2090
    },
    {
      "epoch": 2.2,
      "grad_norm": 15.972417831420898,
      "learning_rate": 1.635548917102315e-05,
      "loss": 0.5478,
      "step": 2100
    },
    {
      "epoch": 2.21,
      "grad_norm": 11.45542049407959,
      "learning_rate": 1.6168782673637044e-05,
      "loss": 0.5722,
      "step": 2110
    },
    {
      "epoch": 2.21,
      "grad_norm": 8.299074172973633,
      "learning_rate": 1.5982076176250936e-05,
      "loss": 0.6885,
      "step": 2120
    },
    {
      "epoch": 2.22,
      "grad_norm": 16.19525909423828,
      "learning_rate": 1.5795369678864825e-05,
      "loss": 0.5469,
      "step": 2130
    },
    {
      "epoch": 2.22,
      "grad_norm": 11.95505142211914,
      "learning_rate": 1.5608663181478717e-05,
      "loss": 0.4567,
      "step": 2140
    },
    {
      "epoch": 2.22,
      "grad_norm": 9.061678886413574,
      "learning_rate": 1.5421956684092606e-05,
      "loss": 0.6178,
      "step": 2150
    },
    {
      "epoch": 2.23,
      "grad_norm": 16.664968490600586,
      "learning_rate": 1.5235250186706498e-05,
      "loss": 0.6147,
      "step": 2160
    },
    {
      "epoch": 2.23,
      "grad_norm": 20.192472457885742,
      "learning_rate": 1.5048543689320387e-05,
      "loss": 0.7983,
      "step": 2170
    },
    {
      "epoch": 2.23,
      "grad_norm": 12.837313652038574,
      "learning_rate": 1.486183719193428e-05,
      "loss": 0.7204,
      "step": 2180
    },
    {
      "epoch": 2.24,
      "grad_norm": 7.771870136260986,
      "learning_rate": 1.467513069454817e-05,
      "loss": 0.7166,
      "step": 2190
    },
    {
      "epoch": 2.24,
      "grad_norm": 6.771210670471191,
      "learning_rate": 1.4488424197162062e-05,
      "loss": 0.8474,
      "step": 2200
    },
    {
      "epoch": 2.24,
      "grad_norm": 13.212435722351074,
      "learning_rate": 1.4301717699775951e-05,
      "loss": 0.7196,
      "step": 2210
    },
    {
      "epoch": 2.25,
      "grad_norm": 8.033856391906738,
      "learning_rate": 1.4115011202389844e-05,
      "loss": 0.4563,
      "step": 2220
    },
    {
      "epoch": 2.25,
      "grad_norm": 10.680285453796387,
      "learning_rate": 1.3928304705003734e-05,
      "loss": 0.498,
      "step": 2230
    },
    {
      "epoch": 2.25,
      "eval_accuracy": 0.7423230974632844,
      "eval_loss": 0.7275972366333008,
      "eval_runtime": 1004.8664,
      "eval_samples_per_second": 0.745,
      "eval_steps_per_second": 0.094,
      "step": 2235
    },
    {
      "epoch": 3.0,
      "grad_norm": 18.928119659423828,
      "learning_rate": 1.3741598207617627e-05,
      "loss": 0.8634,
      "step": 2240
    },
    {
      "epoch": 3.01,
      "grad_norm": 17.436677932739258,
      "learning_rate": 1.3554891710231516e-05,
      "loss": 0.6673,
      "step": 2250
    },
    {
      "epoch": 3.01,
      "grad_norm": 21.66514015197754,
      "learning_rate": 1.3368185212845408e-05,
      "loss": 0.5432,
      "step": 2260
    },
    {
      "epoch": 3.01,
      "grad_norm": 5.922168254852295,
      "learning_rate": 1.3181478715459297e-05,
      "loss": 0.5218,
      "step": 2270
    },
    {
      "epoch": 3.02,
      "grad_norm": 10.759597778320312,
      "learning_rate": 1.2994772218073189e-05,
      "loss": 0.6299,
      "step": 2280
    },
    {
      "epoch": 3.02,
      "grad_norm": 10.974570274353027,
      "learning_rate": 1.2808065720687081e-05,
      "loss": 0.5459,
      "step": 2290
    },
    {
      "epoch": 3.02,
      "grad_norm": 15.321821212768555,
      "learning_rate": 1.2621359223300972e-05,
      "loss": 0.6083,
      "step": 2300
    },
    {
      "epoch": 3.03,
      "grad_norm": 12.832327842712402,
      "learning_rate": 1.2434652725914863e-05,
      "loss": 0.4896,
      "step": 2310
    },
    {
      "epoch": 3.03,
      "grad_norm": 15.343910217285156,
      "learning_rate": 1.2247946228528753e-05,
      "loss": 0.5715,
      "step": 2320
    },
    {
      "epoch": 3.03,
      "grad_norm": 11.914324760437012,
      "learning_rate": 1.2061239731142644e-05,
      "loss": 0.5586,
      "step": 2330
    },
    {
      "epoch": 3.04,
      "grad_norm": 13.01857852935791,
      "learning_rate": 1.1874533233756534e-05,
      "loss": 0.6488,
      "step": 2340
    },
    {
      "epoch": 3.04,
      "grad_norm": 15.010231018066406,
      "learning_rate": 1.1687826736370427e-05,
      "loss": 0.7293,
      "step": 2350
    },
    {
      "epoch": 3.04,
      "grad_norm": 15.626891136169434,
      "learning_rate": 1.1501120238984317e-05,
      "loss": 0.4868,
      "step": 2360
    },
    {
      "epoch": 3.05,
      "grad_norm": 10.450566291809082,
      "learning_rate": 1.1314413741598208e-05,
      "loss": 0.6767,
      "step": 2370
    },
    {
      "epoch": 3.05,
      "grad_norm": 16.782636642456055,
      "learning_rate": 1.1127707244212099e-05,
      "loss": 0.6562,
      "step": 2380
    },
    {
      "epoch": 3.05,
      "grad_norm": 18.94127655029297,
      "learning_rate": 1.094100074682599e-05,
      "loss": 0.8072,
      "step": 2390
    },
    {
      "epoch": 3.06,
      "grad_norm": 6.097537040710449,
      "learning_rate": 1.0754294249439881e-05,
      "loss": 0.6421,
      "step": 2400
    },
    {
      "epoch": 3.06,
      "grad_norm": 20.697275161743164,
      "learning_rate": 1.0567587752053772e-05,
      "loss": 0.6598,
      "step": 2410
    },
    {
      "epoch": 3.06,
      "grad_norm": 19.809467315673828,
      "learning_rate": 1.0380881254667663e-05,
      "loss": 0.5744,
      "step": 2420
    },
    {
      "epoch": 3.07,
      "grad_norm": 18.152433395385742,
      "learning_rate": 1.0194174757281553e-05,
      "loss": 0.5241,
      "step": 2430
    },
    {
      "epoch": 3.07,
      "grad_norm": 4.3277058601379395,
      "learning_rate": 1.0007468259895444e-05,
      "loss": 0.3951,
      "step": 2440
    },
    {
      "epoch": 3.07,
      "grad_norm": 23.445842742919922,
      "learning_rate": 9.820761762509336e-06,
      "loss": 0.571,
      "step": 2450
    },
    {
      "epoch": 3.08,
      "grad_norm": 14.625694274902344,
      "learning_rate": 9.634055265123227e-06,
      "loss": 0.7005,
      "step": 2460
    },
    {
      "epoch": 3.08,
      "grad_norm": 10.133097648620605,
      "learning_rate": 9.447348767737117e-06,
      "loss": 0.4166,
      "step": 2470
    },
    {
      "epoch": 3.08,
      "grad_norm": 14.953691482543945,
      "learning_rate": 9.260642270351008e-06,
      "loss": 0.3252,
      "step": 2480
    },
    {
      "epoch": 3.09,
      "grad_norm": 8.939188003540039,
      "learning_rate": 9.073935772964899e-06,
      "loss": 0.4208,
      "step": 2490
    },
    {
      "epoch": 3.09,
      "grad_norm": 3.7870726585388184,
      "learning_rate": 8.88722927557879e-06,
      "loss": 0.3548,
      "step": 2500
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.8932904601097107,
      "learning_rate": 8.700522778192682e-06,
      "loss": 0.5871,
      "step": 2510
    },
    {
      "epoch": 3.1,
      "grad_norm": 18.944778442382812,
      "learning_rate": 8.513816280806572e-06,
      "loss": 0.5055,
      "step": 2520
    },
    {
      "epoch": 3.1,
      "grad_norm": 12.744303703308105,
      "learning_rate": 8.327109783420463e-06,
      "loss": 0.7053,
      "step": 2530
    },
    {
      "epoch": 3.1,
      "grad_norm": 19.291332244873047,
      "learning_rate": 8.140403286034353e-06,
      "loss": 0.635,
      "step": 2540
    },
    {
      "epoch": 3.11,
      "grad_norm": 16.148515701293945,
      "learning_rate": 7.953696788648244e-06,
      "loss": 0.5074,
      "step": 2550
    },
    {
      "epoch": 3.11,
      "grad_norm": 6.7065958976745605,
      "learning_rate": 7.766990291262136e-06,
      "loss": 0.501,
      "step": 2560
    },
    {
      "epoch": 3.11,
      "grad_norm": 12.560800552368164,
      "learning_rate": 7.580283793876028e-06,
      "loss": 0.5682,
      "step": 2570
    },
    {
      "epoch": 3.12,
      "grad_norm": 9.866507530212402,
      "learning_rate": 7.393577296489919e-06,
      "loss": 0.3993,
      "step": 2580
    },
    {
      "epoch": 3.12,
      "grad_norm": 8.88145637512207,
      "learning_rate": 7.20687079910381e-06,
      "loss": 0.6347,
      "step": 2590
    },
    {
      "epoch": 3.12,
      "grad_norm": 10.453817367553711,
      "learning_rate": 7.0201643017177005e-06,
      "loss": 0.4266,
      "step": 2600
    },
    {
      "epoch": 3.13,
      "grad_norm": 11.108281135559082,
      "learning_rate": 6.833457804331592e-06,
      "loss": 0.4517,
      "step": 2610
    },
    {
      "epoch": 3.13,
      "grad_norm": 11.46886920928955,
      "learning_rate": 6.6467513069454825e-06,
      "loss": 0.4478,
      "step": 2620
    },
    {
      "epoch": 3.13,
      "grad_norm": 8.845941543579102,
      "learning_rate": 6.460044809559373e-06,
      "loss": 0.4906,
      "step": 2630
    },
    {
      "epoch": 3.14,
      "grad_norm": 8.401595115661621,
      "learning_rate": 6.273338312173265e-06,
      "loss": 0.582,
      "step": 2640
    },
    {
      "epoch": 3.14,
      "grad_norm": 15.160996437072754,
      "learning_rate": 6.086631814787154e-06,
      "loss": 0.6447,
      "step": 2650
    },
    {
      "epoch": 3.14,
      "grad_norm": 19.41459846496582,
      "learning_rate": 5.899925317401046e-06,
      "loss": 0.4131,
      "step": 2660
    },
    {
      "epoch": 3.15,
      "grad_norm": 10.292860984802246,
      "learning_rate": 5.7132188200149364e-06,
      "loss": 0.5426,
      "step": 2670
    },
    {
      "epoch": 3.15,
      "grad_norm": 8.687368392944336,
      "learning_rate": 5.526512322628828e-06,
      "loss": 0.4043,
      "step": 2680
    },
    {
      "epoch": 3.15,
      "grad_norm": 13.712905883789062,
      "learning_rate": 5.3398058252427185e-06,
      "loss": 0.6594,
      "step": 2690
    },
    {
      "epoch": 3.16,
      "grad_norm": 15.861700057983398,
      "learning_rate": 5.153099327856609e-06,
      "loss": 0.4271,
      "step": 2700
    },
    {
      "epoch": 3.16,
      "grad_norm": 9.518754005432129,
      "learning_rate": 4.966392830470501e-06,
      "loss": 0.5354,
      "step": 2710
    },
    {
      "epoch": 3.16,
      "grad_norm": 3.0087032318115234,
      "learning_rate": 4.779686333084392e-06,
      "loss": 0.4296,
      "step": 2720
    },
    {
      "epoch": 3.17,
      "grad_norm": 15.34702205657959,
      "learning_rate": 4.592979835698283e-06,
      "loss": 0.4157,
      "step": 2730
    },
    {
      "epoch": 3.17,
      "grad_norm": 9.908702850341797,
      "learning_rate": 4.406273338312174e-06,
      "loss": 0.4472,
      "step": 2740
    },
    {
      "epoch": 3.17,
      "grad_norm": 19.380170822143555,
      "learning_rate": 4.219566840926065e-06,
      "loss": 0.5176,
      "step": 2750
    },
    {
      "epoch": 3.18,
      "grad_norm": 6.268775939941406,
      "learning_rate": 4.032860343539955e-06,
      "loss": 0.4629,
      "step": 2760
    },
    {
      "epoch": 3.18,
      "grad_norm": 14.97822093963623,
      "learning_rate": 3.846153846153847e-06,
      "loss": 0.6455,
      "step": 2770
    },
    {
      "epoch": 3.18,
      "grad_norm": 2.605055332183838,
      "learning_rate": 3.6594473487677374e-06,
      "loss": 0.5094,
      "step": 2780
    },
    {
      "epoch": 3.19,
      "grad_norm": 2.5066277980804443,
      "learning_rate": 3.4727408513816284e-06,
      "loss": 0.4764,
      "step": 2790
    },
    {
      "epoch": 3.19,
      "grad_norm": 20.789003372192383,
      "learning_rate": 3.2860343539955195e-06,
      "loss": 0.5492,
      "step": 2800
    },
    {
      "epoch": 3.19,
      "grad_norm": 17.82637596130371,
      "learning_rate": 3.09932785660941e-06,
      "loss": 0.7328,
      "step": 2810
    },
    {
      "epoch": 3.2,
      "grad_norm": 15.866473197937012,
      "learning_rate": 2.912621359223301e-06,
      "loss": 0.4583,
      "step": 2820
    },
    {
      "epoch": 3.2,
      "grad_norm": 15.028328895568848,
      "learning_rate": 2.725914861837192e-06,
      "loss": 0.4929,
      "step": 2830
    },
    {
      "epoch": 3.2,
      "grad_norm": 4.852206230163574,
      "learning_rate": 2.539208364451083e-06,
      "loss": 0.5049,
      "step": 2840
    },
    {
      "epoch": 3.21,
      "grad_norm": 10.014028549194336,
      "learning_rate": 2.352501867064974e-06,
      "loss": 0.3202,
      "step": 2850
    },
    {
      "epoch": 3.21,
      "grad_norm": 12.709626197814941,
      "learning_rate": 2.165795369678865e-06,
      "loss": 0.5933,
      "step": 2860
    },
    {
      "epoch": 3.21,
      "grad_norm": 15.246854782104492,
      "learning_rate": 1.979088872292756e-06,
      "loss": 0.4949,
      "step": 2870
    },
    {
      "epoch": 3.22,
      "grad_norm": 19.97065544128418,
      "learning_rate": 1.7923823749066467e-06,
      "loss": 0.5818,
      "step": 2880
    },
    {
      "epoch": 3.22,
      "grad_norm": 11.485267639160156,
      "learning_rate": 1.6056758775205377e-06,
      "loss": 0.5179,
      "step": 2890
    },
    {
      "epoch": 3.22,
      "grad_norm": 3.0680692195892334,
      "learning_rate": 1.4189693801344288e-06,
      "loss": 0.3828,
      "step": 2900
    },
    {
      "epoch": 3.23,
      "grad_norm": 21.391048431396484,
      "learning_rate": 1.2322628827483198e-06,
      "loss": 0.5554,
      "step": 2910
    },
    {
      "epoch": 3.23,
      "grad_norm": 11.81781005859375,
      "learning_rate": 1.0455563853622106e-06,
      "loss": 0.5656,
      "step": 2920
    },
    {
      "epoch": 3.23,
      "grad_norm": 7.505812168121338,
      "learning_rate": 8.588498879761017e-07,
      "loss": 0.4108,
      "step": 2930
    },
    {
      "epoch": 3.24,
      "grad_norm": 24.742015838623047,
      "learning_rate": 6.721433905899926e-07,
      "loss": 0.5123,
      "step": 2940
    },
    {
      "epoch": 3.24,
      "grad_norm": 2.002629280090332,
      "learning_rate": 4.854368932038835e-07,
      "loss": 0.3896,
      "step": 2950
    },
    {
      "epoch": 3.24,
      "grad_norm": 20.49823570251465,
      "learning_rate": 2.987303958177745e-07,
      "loss": 0.4668,
      "step": 2960
    },
    {
      "epoch": 3.25,
      "grad_norm": 7.5517473220825195,
      "learning_rate": 1.1202389843166542e-07,
      "loss": 0.4823,
      "step": 2970
    },
    {
      "epoch": 3.25,
      "eval_accuracy": 0.7716955941255007,
      "eval_loss": 0.6290784478187561,
      "eval_runtime": 559.9348,
      "eval_samples_per_second": 1.338,
      "eval_steps_per_second": 0.168,
      "step": 2976
    },
    {
      "epoch": 3.25,
      "step": 2976,
      "total_flos": 2.9641195729437917e+19,
      "train_loss": 0.9390910720472695,
      "train_runtime": 67018.2238,
      "train_samples_per_second": 0.355,
      "train_steps_per_second": 0.044
    },
    {
      "epoch": 3.25,
      "eval_accuracy": 0.7362784471218207,
      "eval_loss": 0.7553985714912415,
      "eval_runtime": 509.2937,
      "eval_samples_per_second": 1.467,
      "eval_steps_per_second": 0.185,
      "step": 2976
    },
    {
      "epoch": 3.25,
      "eval_accuracy": 0.7362784471218207,
      "eval_loss": 0.7553985714912415,
      "eval_runtime": 508.716,
      "eval_samples_per_second": 1.468,
      "eval_steps_per_second": 0.185,
      "step": 2976
    }
  ],
  "logging_steps": 10,
  "max_steps": 2976,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 500,
  "total_flos": 2.9641195729437917e+19,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}