{
  "best_metric": 0.6129801869392395,
  "best_model_checkpoint": "Action_model/checkpoint-300",
  "epoch": 10.0,
  "eval_steps": 100,
  "global_step": 2680,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.04,
      "grad_norm": 2.570383071899414,
      "learning_rate": 9.96268656716418e-05,
      "loss": 0.1841,
      "step": 10
    },
    {
      "epoch": 0.07,
      "grad_norm": 6.266295433044434,
      "learning_rate": 9.925373134328359e-05,
      "loss": 0.2301,
      "step": 20
    },
    {
      "epoch": 0.11,
      "grad_norm": 8.001986503601074,
      "learning_rate": 9.888059701492539e-05,
      "loss": 0.2533,
      "step": 30
    },
    {
      "epoch": 0.15,
      "grad_norm": 5.319194316864014,
      "learning_rate": 9.850746268656717e-05,
      "loss": 0.2436,
      "step": 40
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.9653372764587402,
      "learning_rate": 9.813432835820896e-05,
      "loss": 0.3712,
      "step": 50
    },
    {
      "epoch": 0.22,
      "grad_norm": 7.348043441772461,
      "learning_rate": 9.776119402985075e-05,
      "loss": 0.3645,
      "step": 60
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.1969542503356934,
      "learning_rate": 9.738805970149254e-05,
      "loss": 0.4609,
      "step": 70
    },
    {
      "epoch": 0.3,
      "grad_norm": 6.397550106048584,
      "learning_rate": 9.701492537313434e-05,
      "loss": 0.4755,
      "step": 80
    },
    {
      "epoch": 0.34,
      "grad_norm": 6.923007488250732,
      "learning_rate": 9.664179104477612e-05,
      "loss": 0.3901,
      "step": 90
    },
    {
      "epoch": 0.37,
      "grad_norm": 4.786198616027832,
      "learning_rate": 9.626865671641792e-05,
      "loss": 0.255,
      "step": 100
    },
    {
      "epoch": 0.37,
      "eval_accuracy": 0.7926186291739895,
      "eval_loss": 0.7616190314292908,
      "eval_runtime": 8.7209,
      "eval_samples_per_second": 65.245,
      "eval_steps_per_second": 8.256,
      "step": 100
    },
    {
      "epoch": 0.41,
      "grad_norm": 8.368223190307617,
      "learning_rate": 9.58955223880597e-05,
      "loss": 0.3784,
      "step": 110
    },
    {
      "epoch": 0.45,
      "grad_norm": 4.078306198120117,
      "learning_rate": 9.552238805970149e-05,
      "loss": 0.4148,
      "step": 120
    },
    {
      "epoch": 0.49,
      "grad_norm": 7.815361022949219,
      "learning_rate": 9.514925373134329e-05,
      "loss": 0.3621,
      "step": 130
    },
    {
      "epoch": 0.52,
      "grad_norm": 11.498431205749512,
      "learning_rate": 9.477611940298507e-05,
      "loss": 0.3974,
      "step": 140
    },
    {
      "epoch": 0.56,
      "grad_norm": 7.946558952331543,
      "learning_rate": 9.440298507462687e-05,
      "loss": 0.3856,
      "step": 150
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3486919403076172,
      "learning_rate": 9.402985074626867e-05,
      "loss": 0.2435,
      "step": 160
    },
    {
      "epoch": 0.63,
      "grad_norm": 4.267444133758545,
      "learning_rate": 9.365671641791045e-05,
      "loss": 0.3736,
      "step": 170
    },
    {
      "epoch": 0.67,
      "grad_norm": 3.022345542907715,
      "learning_rate": 9.328358208955224e-05,
      "loss": 0.439,
      "step": 180
    },
    {
      "epoch": 0.71,
      "grad_norm": 5.57196044921875,
      "learning_rate": 9.291044776119402e-05,
      "loss": 0.2996,
      "step": 190
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.636216640472412,
      "learning_rate": 9.253731343283582e-05,
      "loss": 0.2048,
      "step": 200
    },
    {
      "epoch": 0.75,
      "eval_accuracy": 0.8084358523725835,
      "eval_loss": 0.724670946598053,
      "eval_runtime": 8.4461,
      "eval_samples_per_second": 67.368,
      "eval_steps_per_second": 8.525,
      "step": 200
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.615098237991333,
      "learning_rate": 9.216417910447762e-05,
      "loss": 0.3594,
      "step": 210
    },
    {
      "epoch": 0.82,
      "grad_norm": 9.315821647644043,
      "learning_rate": 9.17910447761194e-05,
      "loss": 0.3046,
      "step": 220
    },
    {
      "epoch": 0.86,
      "grad_norm": 3.669430732727051,
      "learning_rate": 9.14179104477612e-05,
      "loss": 0.4158,
      "step": 230
    },
    {
      "epoch": 0.9,
      "grad_norm": 7.0882978439331055,
      "learning_rate": 9.104477611940299e-05,
      "loss": 0.3477,
      "step": 240
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.1667325496673584,
      "learning_rate": 9.067164179104479e-05,
      "loss": 0.316,
      "step": 250
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.482625961303711,
      "learning_rate": 9.029850746268657e-05,
      "loss": 0.3922,
      "step": 260
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.20793116092681885,
      "learning_rate": 8.992537313432836e-05,
      "loss": 0.3751,
      "step": 270
    },
    {
      "epoch": 1.04,
      "grad_norm": 6.772298812866211,
      "learning_rate": 8.955223880597016e-05,
      "loss": 0.3269,
      "step": 280
    },
    {
      "epoch": 1.08,
      "grad_norm": 5.833349227905273,
      "learning_rate": 8.917910447761194e-05,
      "loss": 0.3026,
      "step": 290
    },
    {
      "epoch": 1.12,
      "grad_norm": 6.349458694458008,
      "learning_rate": 8.880597014925374e-05,
      "loss": 0.3763,
      "step": 300
    },
    {
      "epoch": 1.12,
      "eval_accuracy": 0.8330404217926186,
      "eval_loss": 0.6129801869392395,
      "eval_runtime": 8.4095,
      "eval_samples_per_second": 67.661,
      "eval_steps_per_second": 8.562,
      "step": 300
    },
    {
      "epoch": 1.16,
      "grad_norm": 4.767229080200195,
      "learning_rate": 8.843283582089554e-05,
      "loss": 0.3808,
      "step": 310
    },
    {
      "epoch": 1.19,
      "grad_norm": 12.675297737121582,
      "learning_rate": 8.805970149253732e-05,
      "loss": 0.3766,
      "step": 320
    },
    {
      "epoch": 1.23,
      "grad_norm": 3.8118245601654053,
      "learning_rate": 8.76865671641791e-05,
      "loss": 0.2642,
      "step": 330
    },
    {
      "epoch": 1.27,
      "grad_norm": 8.736045837402344,
      "learning_rate": 8.731343283582089e-05,
      "loss": 0.3041,
      "step": 340
    },
    {
      "epoch": 1.31,
      "grad_norm": 6.683359146118164,
      "learning_rate": 8.694029850746269e-05,
      "loss": 0.1352,
      "step": 350
    },
    {
      "epoch": 1.34,
      "grad_norm": 4.780521392822266,
      "learning_rate": 8.656716417910447e-05,
      "loss": 0.4005,
      "step": 360
    },
    {
      "epoch": 1.38,
      "grad_norm": 9.654714584350586,
      "learning_rate": 8.619402985074627e-05,
      "loss": 0.3646,
      "step": 370
    },
    {
      "epoch": 1.42,
      "grad_norm": 4.174666881561279,
      "learning_rate": 8.582089552238807e-05,
      "loss": 0.2353,
      "step": 380
    },
    {
      "epoch": 1.46,
      "grad_norm": 7.596667289733887,
      "learning_rate": 8.548507462686568e-05,
      "loss": 0.3991,
      "step": 390
    },
    {
      "epoch": 1.49,
      "grad_norm": 5.592709064483643,
      "learning_rate": 8.511194029850747e-05,
      "loss": 0.307,
      "step": 400
    },
    {
      "epoch": 1.49,
      "eval_accuracy": 0.789103690685413,
      "eval_loss": 0.8137023448944092,
      "eval_runtime": 8.3292,
      "eval_samples_per_second": 68.314,
      "eval_steps_per_second": 8.644,
      "step": 400
    },
    {
      "epoch": 1.53,
      "grad_norm": 2.232590675354004,
      "learning_rate": 8.473880597014926e-05,
      "loss": 0.4669,
      "step": 410
    },
    {
      "epoch": 1.57,
      "grad_norm": 4.276609897613525,
      "learning_rate": 8.436567164179105e-05,
      "loss": 0.3831,
      "step": 420
    },
    {
      "epoch": 1.6,
      "grad_norm": 7.262507915496826,
      "learning_rate": 8.399253731343283e-05,
      "loss": 0.3472,
      "step": 430
    },
    {
      "epoch": 1.64,
      "grad_norm": 7.258556365966797,
      "learning_rate": 8.361940298507463e-05,
      "loss": 0.2396,
      "step": 440
    },
    {
      "epoch": 1.68,
      "grad_norm": 4.945961952209473,
      "learning_rate": 8.324626865671642e-05,
      "loss": 0.2433,
      "step": 450
    },
    {
      "epoch": 1.72,
      "grad_norm": 5.138702392578125,
      "learning_rate": 8.287313432835821e-05,
      "loss": 0.2947,
      "step": 460
    },
    {
      "epoch": 1.75,
      "grad_norm": 1.1640909910202026,
      "learning_rate": 8.25e-05,
      "loss": 0.4791,
      "step": 470
    },
    {
      "epoch": 1.79,
      "grad_norm": 4.626485824584961,
      "learning_rate": 8.21268656716418e-05,
      "loss": 0.286,
      "step": 480
    },
    {
      "epoch": 1.83,
      "grad_norm": 5.178492069244385,
      "learning_rate": 8.17537313432836e-05,
      "loss": 0.3202,
      "step": 490
    },
    {
      "epoch": 1.87,
      "grad_norm": 7.854339122772217,
      "learning_rate": 8.138059701492538e-05,
      "loss": 0.3542,
      "step": 500
    },
    {
      "epoch": 1.87,
      "eval_accuracy": 0.8014059753954306,
      "eval_loss": 0.6611581444740295,
      "eval_runtime": 8.5853,
      "eval_samples_per_second": 66.276,
      "eval_steps_per_second": 8.386,
      "step": 500
    },
    {
      "epoch": 1.9,
      "grad_norm": 1.429740071296692,
      "learning_rate": 8.100746268656717e-05,
      "loss": 0.3039,
      "step": 510
    },
    {
      "epoch": 1.94,
      "grad_norm": 2.9776551723480225,
      "learning_rate": 8.063432835820895e-05,
      "loss": 0.3825,
      "step": 520
    },
    {
      "epoch": 1.98,
      "grad_norm": 10.557899475097656,
      "learning_rate": 8.026119402985075e-05,
      "loss": 0.5109,
      "step": 530
    },
    {
      "epoch": 2.01,
      "grad_norm": 1.448002815246582,
      "learning_rate": 7.988805970149255e-05,
      "loss": 0.3421,
      "step": 540
    },
    {
      "epoch": 2.05,
      "grad_norm": 4.500860691070557,
      "learning_rate": 7.951492537313433e-05,
      "loss": 0.3008,
      "step": 550
    },
    {
      "epoch": 2.09,
      "grad_norm": 8.077374458312988,
      "learning_rate": 7.914179104477613e-05,
      "loss": 0.27,
      "step": 560
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.16809479892253876,
      "learning_rate": 7.876865671641792e-05,
      "loss": 0.2184,
      "step": 570
    },
    {
      "epoch": 2.16,
      "grad_norm": 4.892763137817383,
      "learning_rate": 7.83955223880597e-05,
      "loss": 0.1479,
      "step": 580
    },
    {
      "epoch": 2.2,
      "grad_norm": 8.35221004486084,
      "learning_rate": 7.80223880597015e-05,
      "loss": 0.3498,
      "step": 590
    },
    {
      "epoch": 2.24,
      "grad_norm": 12.043429374694824,
      "learning_rate": 7.764925373134328e-05,
      "loss": 0.3518,
      "step": 600
    },
    {
      "epoch": 2.24,
      "eval_accuracy": 0.8189806678383128,
      "eval_loss": 0.6964564919471741,
      "eval_runtime": 8.3878,
      "eval_samples_per_second": 67.837,
      "eval_steps_per_second": 8.584,
      "step": 600
    },
    {
      "epoch": 2.28,
      "grad_norm": 3.7737715244293213,
      "learning_rate": 7.727611940298508e-05,
      "loss": 0.3532,
      "step": 610
    },
    {
      "epoch": 2.31,
      "grad_norm": 4.282881736755371,
      "learning_rate": 7.690298507462687e-05,
      "loss": 0.2214,
      "step": 620
    },
    {
      "epoch": 2.35,
      "grad_norm": 6.733531475067139,
      "learning_rate": 7.652985074626866e-05,
      "loss": 0.2709,
      "step": 630
    },
    {
      "epoch": 2.39,
      "grad_norm": 2.567267417907715,
      "learning_rate": 7.615671641791045e-05,
      "loss": 0.3725,
      "step": 640
    },
    {
      "epoch": 2.43,
      "grad_norm": 3.120966911315918,
      "learning_rate": 7.578358208955223e-05,
      "loss": 0.3036,
      "step": 650
    },
    {
      "epoch": 2.46,
      "grad_norm": 6.505622386932373,
      "learning_rate": 7.541044776119403e-05,
      "loss": 0.2426,
      "step": 660
    },
    {
      "epoch": 2.5,
      "grad_norm": 4.887637615203857,
      "learning_rate": 7.503731343283582e-05,
      "loss": 0.281,
      "step": 670
    },
    {
      "epoch": 2.54,
      "grad_norm": 9.790969848632812,
      "learning_rate": 7.466417910447762e-05,
      "loss": 0.4504,
      "step": 680
    },
    {
      "epoch": 2.57,
      "grad_norm": 4.354789733886719,
      "learning_rate": 7.429104477611941e-05,
      "loss": 0.4094,
      "step": 690
    },
    {
      "epoch": 2.61,
      "grad_norm": 5.015912055969238,
      "learning_rate": 7.39179104477612e-05,
      "loss": 0.3706,
      "step": 700
    },
    {
      "epoch": 2.61,
      "eval_accuracy": 0.804920913884007,
      "eval_loss": 0.7254143357276917,
      "eval_runtime": 8.3242,
      "eval_samples_per_second": 68.355,
      "eval_steps_per_second": 8.649,
      "step": 700
    },
    {
      "epoch": 2.65,
      "grad_norm": 5.382541656494141,
      "learning_rate": 7.3544776119403e-05,
      "loss": 0.1722,
      "step": 710
    },
    {
      "epoch": 2.69,
      "grad_norm": 5.573971748352051,
      "learning_rate": 7.317164179104478e-05,
      "loss": 0.327,
      "step": 720
    },
    {
      "epoch": 2.72,
      "grad_norm": 3.5606117248535156,
      "learning_rate": 7.279850746268657e-05,
      "loss": 0.2702,
      "step": 730
    },
    {
      "epoch": 2.76,
      "grad_norm": 1.7398028373718262,
      "learning_rate": 7.242537313432837e-05,
      "loss": 0.238,
      "step": 740
    },
    {
      "epoch": 2.8,
      "grad_norm": 2.7511751651763916,
      "learning_rate": 7.205223880597015e-05,
      "loss": 0.1848,
      "step": 750
    },
    {
      "epoch": 2.84,
      "grad_norm": 3.381510019302368,
      "learning_rate": 7.167910447761195e-05,
      "loss": 0.2261,
      "step": 760
    },
    {
      "epoch": 2.87,
      "grad_norm": 4.65634298324585,
      "learning_rate": 7.130597014925373e-05,
      "loss": 0.237,
      "step": 770
    },
    {
      "epoch": 2.91,
      "grad_norm": 10.35020923614502,
      "learning_rate": 7.093283582089553e-05,
      "loss": 0.3012,
      "step": 780
    },
    {
      "epoch": 2.95,
      "grad_norm": 8.878485679626465,
      "learning_rate": 7.055970149253732e-05,
      "loss": 0.4094,
      "step": 790
    },
    {
      "epoch": 2.99,
      "grad_norm": 2.9728074073791504,
      "learning_rate": 7.01865671641791e-05,
      "loss": 0.4084,
      "step": 800
    },
    {
      "epoch": 2.99,
      "eval_accuracy": 0.8101933216168717,
      "eval_loss": 0.6746156811714172,
      "eval_runtime": 8.2718,
      "eval_samples_per_second": 68.788,
      "eval_steps_per_second": 8.704,
      "step": 800
    },
    {
      "epoch": 3.02,
      "grad_norm": 4.835368633270264,
      "learning_rate": 6.98134328358209e-05,
      "loss": 0.3152,
      "step": 810
    },
    {
      "epoch": 3.06,
      "grad_norm": 2.9197049140930176,
      "learning_rate": 6.944029850746268e-05,
      "loss": 0.3433,
      "step": 820
    },
    {
      "epoch": 3.1,
      "grad_norm": 5.646128177642822,
      "learning_rate": 6.906716417910448e-05,
      "loss": 0.2604,
      "step": 830
    },
    {
      "epoch": 3.13,
      "grad_norm": 3.860607862472534,
      "learning_rate": 6.869402985074627e-05,
      "loss": 0.2831,
      "step": 840
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.1358175426721573,
      "learning_rate": 6.832089552238807e-05,
      "loss": 0.242,
      "step": 850
    },
    {
      "epoch": 3.21,
      "grad_norm": 1.1011104583740234,
      "learning_rate": 6.794776119402985e-05,
      "loss": 0.2621,
      "step": 860
    },
    {
      "epoch": 3.25,
      "grad_norm": 7.837879180908203,
      "learning_rate": 6.757462686567164e-05,
      "loss": 0.249,
      "step": 870
    },
    {
      "epoch": 3.28,
      "grad_norm": 6.8647613525390625,
      "learning_rate": 6.720149253731343e-05,
      "loss": 0.3398,
      "step": 880
    },
    {
      "epoch": 3.32,
      "grad_norm": 2.8186678886413574,
      "learning_rate": 6.682835820895522e-05,
      "loss": 0.3092,
      "step": 890
    },
    {
      "epoch": 3.36,
      "grad_norm": 4.623282432556152,
      "learning_rate": 6.645522388059702e-05,
      "loss": 0.2533,
      "step": 900
    },
    {
      "epoch": 3.36,
      "eval_accuracy": 0.8189806678383128,
      "eval_loss": 0.6866591572761536,
      "eval_runtime": 8.3143,
      "eval_samples_per_second": 68.436,
      "eval_steps_per_second": 8.66,
      "step": 900
    },
    {
      "epoch": 3.4,
      "grad_norm": 4.85120964050293,
      "learning_rate": 6.608208955223882e-05,
      "loss": 0.2279,
      "step": 910
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.7263774275779724,
      "learning_rate": 6.57089552238806e-05,
      "loss": 0.1725,
      "step": 920
    },
    {
      "epoch": 3.47,
      "grad_norm": 6.813180923461914,
      "learning_rate": 6.53358208955224e-05,
      "loss": 0.3304,
      "step": 930
    },
    {
      "epoch": 3.51,
      "grad_norm": 8.58501148223877,
      "learning_rate": 6.496268656716418e-05,
      "loss": 0.1864,
      "step": 940
    },
    {
      "epoch": 3.54,
      "grad_norm": 2.814436435699463,
      "learning_rate": 6.458955223880597e-05,
      "loss": 0.1496,
      "step": 950
    },
    {
      "epoch": 3.58,
      "grad_norm": 8.36603832244873,
      "learning_rate": 6.421641791044777e-05,
      "loss": 0.208,
      "step": 960
    },
    {
      "epoch": 3.62,
      "grad_norm": 3.5715956687927246,
      "learning_rate": 6.384328358208955e-05,
      "loss": 0.2429,
      "step": 970
    },
    {
      "epoch": 3.66,
      "grad_norm": 4.983556270599365,
      "learning_rate": 6.347014925373135e-05,
      "loss": 0.4053,
      "step": 980
    },
    {
      "epoch": 3.69,
      "grad_norm": 4.936723232269287,
      "learning_rate": 6.309701492537313e-05,
      "loss": 0.1545,
      "step": 990
    },
    {
      "epoch": 3.73,
      "grad_norm": 6.59185791015625,
      "learning_rate": 6.272388059701493e-05,
      "loss": 0.3147,
      "step": 1000
    },
    {
      "epoch": 3.73,
      "eval_accuracy": 0.8189806678383128,
      "eval_loss": 0.7077136635780334,
      "eval_runtime": 8.3117,
      "eval_samples_per_second": 68.457,
      "eval_steps_per_second": 8.662,
      "step": 1000
    },
    {
      "epoch": 3.77,
      "grad_norm": 9.348366737365723,
      "learning_rate": 6.235074626865672e-05,
      "loss": 0.3634,
      "step": 1010
    },
    {
      "epoch": 3.81,
      "grad_norm": 9.918521881103516,
      "learning_rate": 6.19776119402985e-05,
      "loss": 0.3151,
      "step": 1020
    },
    {
      "epoch": 3.84,
      "grad_norm": 5.687044143676758,
      "learning_rate": 6.16044776119403e-05,
      "loss": 0.3088,
      "step": 1030
    },
    {
      "epoch": 3.88,
      "grad_norm": 3.8347887992858887,
      "learning_rate": 6.123134328358209e-05,
      "loss": 0.2128,
      "step": 1040
    },
    {
      "epoch": 3.92,
      "grad_norm": 5.380050182342529,
      "learning_rate": 6.0858208955223884e-05,
      "loss": 0.255,
      "step": 1050
    },
    {
      "epoch": 3.96,
      "grad_norm": 8.848828315734863,
      "learning_rate": 6.0485074626865676e-05,
      "loss": 0.2794,
      "step": 1060
    },
    {
      "epoch": 3.99,
      "grad_norm": 3.9666404724121094,
      "learning_rate": 6.011194029850746e-05,
      "loss": 0.1954,
      "step": 1070
    },
    {
      "epoch": 4.03,
      "grad_norm": 0.3369455635547638,
      "learning_rate": 5.973880597014926e-05,
      "loss": 0.2298,
      "step": 1080
    },
    {
      "epoch": 4.07,
      "grad_norm": 16.327823638916016,
      "learning_rate": 5.9365671641791044e-05,
      "loss": 0.2504,
      "step": 1090
    },
    {
      "epoch": 4.1,
      "grad_norm": 7.070168495178223,
      "learning_rate": 5.8992537313432835e-05,
      "loss": 0.3182,
      "step": 1100
    },
    {
      "epoch": 4.1,
      "eval_accuracy": 0.8189806678383128,
      "eval_loss": 0.6661401987075806,
      "eval_runtime": 8.2263,
      "eval_samples_per_second": 69.169,
      "eval_steps_per_second": 8.752,
      "step": 1100
    },
    {
      "epoch": 4.14,
      "grad_norm": 2.853975534439087,
      "learning_rate": 5.8619402985074634e-05,
      "loss": 0.201,
      "step": 1110
    },
    {
      "epoch": 4.18,
      "grad_norm": 0.958690881729126,
      "learning_rate": 5.824626865671642e-05,
      "loss": 0.1833,
      "step": 1120
    },
    {
      "epoch": 4.22,
      "grad_norm": 3.4794461727142334,
      "learning_rate": 5.787313432835822e-05,
      "loss": 0.2796,
      "step": 1130
    },
    {
      "epoch": 4.25,
      "grad_norm": 4.793296813964844,
      "learning_rate": 5.7499999999999995e-05,
      "loss": 0.2281,
      "step": 1140
    },
    {
      "epoch": 4.29,
      "grad_norm": 6.200154781341553,
      "learning_rate": 5.712686567164179e-05,
      "loss": 0.2814,
      "step": 1150
    },
    {
      "epoch": 4.33,
      "grad_norm": 5.616389274597168,
      "learning_rate": 5.675373134328359e-05,
      "loss": 0.1656,
      "step": 1160
    },
    {
      "epoch": 4.37,
      "grad_norm": 9.382554054260254,
      "learning_rate": 5.6380597014925376e-05,
      "loss": 0.19,
      "step": 1170
    },
    {
      "epoch": 4.4,
      "grad_norm": 3.526240587234497,
      "learning_rate": 5.600746268656717e-05,
      "loss": 0.2063,
      "step": 1180
    },
    {
      "epoch": 4.44,
      "grad_norm": 3.494896650314331,
      "learning_rate": 5.563432835820895e-05,
      "loss": 0.1681,
      "step": 1190
    },
    {
      "epoch": 4.48,
      "grad_norm": 5.764057636260986,
      "learning_rate": 5.526119402985075e-05,
      "loss": 0.2248,
      "step": 1200
    },
    {
      "epoch": 4.48,
      "eval_accuracy": 0.8418277680140598,
      "eval_loss": 0.6632041335105896,
      "eval_runtime": 8.1661,
      "eval_samples_per_second": 69.679,
      "eval_steps_per_second": 8.817,
      "step": 1200
    },
    {
      "epoch": 4.51,
      "grad_norm": 4.680635452270508,
      "learning_rate": 5.488805970149254e-05,
      "loss": 0.2179,
      "step": 1210
    },
    {
      "epoch": 4.55,
      "grad_norm": 10.24306869506836,
      "learning_rate": 5.451492537313433e-05,
      "loss": 0.2187,
      "step": 1220
    },
    {
      "epoch": 4.59,
      "grad_norm": 3.054690361022949,
      "learning_rate": 5.4141791044776126e-05,
      "loss": 0.1729,
      "step": 1230
    },
    {
      "epoch": 4.63,
      "grad_norm": 4.907272815704346,
      "learning_rate": 5.376865671641791e-05,
      "loss": 0.2762,
      "step": 1240
    },
    {
      "epoch": 4.66,
      "grad_norm": 4.774748802185059,
      "learning_rate": 5.33955223880597e-05,
      "loss": 0.1965,
      "step": 1250
    },
    {
      "epoch": 4.7,
      "grad_norm": 5.757875919342041,
      "learning_rate": 5.30223880597015e-05,
      "loss": 0.1564,
      "step": 1260
    },
    {
      "epoch": 4.74,
      "grad_norm": 0.3608088791370392,
      "learning_rate": 5.2649253731343286e-05,
      "loss": 0.0946,
      "step": 1270
    },
    {
      "epoch": 4.78,
      "grad_norm": 3.6289939880371094,
      "learning_rate": 5.227611940298508e-05,
      "loss": 0.3364,
      "step": 1280
    },
    {
      "epoch": 4.81,
      "grad_norm": 5.132009029388428,
      "learning_rate": 5.190298507462686e-05,
      "loss": 0.231,
      "step": 1290
    },
    {
      "epoch": 4.85,
      "grad_norm": 1.0347099304199219,
      "learning_rate": 5.152985074626866e-05,
      "loss": 0.1617,
      "step": 1300
    },
    {
      "epoch": 4.85,
      "eval_accuracy": 0.8172231985940246,
      "eval_loss": 0.7277125716209412,
      "eval_runtime": 8.4693,
      "eval_samples_per_second": 67.184,
      "eval_steps_per_second": 8.501,
      "step": 1300
    },
    {
      "epoch": 4.89,
      "grad_norm": 2.5996298789978027,
      "learning_rate": 5.115671641791045e-05,
      "loss": 0.385,
      "step": 1310
    },
    {
      "epoch": 4.93,
      "grad_norm": 3.724181890487671,
      "learning_rate": 5.078358208955224e-05,
      "loss": 0.1786,
      "step": 1320
    },
    {
      "epoch": 4.96,
      "grad_norm": 2.150557518005371,
      "learning_rate": 5.0410447761194035e-05,
      "loss": 0.2122,
      "step": 1330
    },
    {
      "epoch": 5.0,
      "grad_norm": 3.8813323974609375,
      "learning_rate": 5.003731343283582e-05,
      "loss": 0.2425,
      "step": 1340
    },
    {
      "epoch": 5.04,
      "grad_norm": 0.896369457244873,
      "learning_rate": 4.966417910447762e-05,
      "loss": 0.2208,
      "step": 1350
    },
    {
      "epoch": 5.07,
      "grad_norm": 9.002110481262207,
      "learning_rate": 4.92910447761194e-05,
      "loss": 0.1432,
      "step": 1360
    },
    {
      "epoch": 5.11,
      "grad_norm": 9.619662284851074,
      "learning_rate": 4.8917910447761195e-05,
      "loss": 0.1347,
      "step": 1370
    },
    {
      "epoch": 5.15,
      "grad_norm": 3.5148773193359375,
      "learning_rate": 4.8544776119402986e-05,
      "loss": 0.2837,
      "step": 1380
    },
    {
      "epoch": 5.19,
      "grad_norm": 7.631669044494629,
      "learning_rate": 4.817164179104478e-05,
      "loss": 0.1887,
      "step": 1390
    },
    {
      "epoch": 5.22,
      "grad_norm": 11.738872528076172,
      "learning_rate": 4.779850746268657e-05,
      "loss": 0.2578,
      "step": 1400
    },
    {
      "epoch": 5.22,
      "eval_accuracy": 0.8189806678383128,
      "eval_loss": 0.7114442586898804,
      "eval_runtime": 8.2672,
      "eval_samples_per_second": 68.826,
      "eval_steps_per_second": 8.709,
      "step": 1400
    },
    {
      "epoch": 5.26,
      "grad_norm": 6.67802095413208,
      "learning_rate": 4.742537313432836e-05,
      "loss": 0.2527,
      "step": 1410
    },
    {
      "epoch": 5.3,
      "grad_norm": 4.491325378417969,
      "learning_rate": 4.705223880597015e-05,
      "loss": 0.2386,
      "step": 1420
    },
    {
      "epoch": 5.34,
      "grad_norm": 1.1810379028320312,
      "learning_rate": 4.667910447761194e-05,
      "loss": 0.1693,
      "step": 1430
    },
    {
      "epoch": 5.37,
      "grad_norm": 6.075868129730225,
      "learning_rate": 4.6305970149253736e-05,
      "loss": 0.167,
      "step": 1440
    },
    {
      "epoch": 5.41,
      "grad_norm": 2.315635919570923,
      "learning_rate": 4.593283582089553e-05,
      "loss": 0.2243,
      "step": 1450
    },
    {
      "epoch": 5.45,
      "grad_norm": 10.839255332946777,
      "learning_rate": 4.555970149253732e-05,
      "loss": 0.2414,
      "step": 1460
    },
    {
      "epoch": 5.49,
      "grad_norm": 4.562304496765137,
      "learning_rate": 4.5186567164179104e-05,
      "loss": 0.264,
      "step": 1470
    },
    {
      "epoch": 5.52,
      "grad_norm": 1.8821789026260376,
      "learning_rate": 4.4813432835820895e-05,
      "loss": 0.1407,
      "step": 1480
    },
    {
      "epoch": 5.56,
      "grad_norm": 8.406396865844727,
      "learning_rate": 4.4440298507462694e-05,
      "loss": 0.1454,
      "step": 1490
    },
    {
      "epoch": 5.6,
      "grad_norm": 0.2816010117530823,
      "learning_rate": 4.406716417910448e-05,
      "loss": 0.1864,
      "step": 1500
    },
    {
      "epoch": 5.6,
      "eval_accuracy": 0.8172231985940246,
      "eval_loss": 0.755394458770752,
      "eval_runtime": 8.2598,
      "eval_samples_per_second": 68.888,
      "eval_steps_per_second": 8.717,
      "step": 1500
    },
    {
      "epoch": 5.63,
      "grad_norm": 6.619854927062988,
      "learning_rate": 4.369402985074627e-05,
      "loss": 0.2806,
      "step": 1510
    },
    {
      "epoch": 5.67,
      "grad_norm": 2.056018829345703,
      "learning_rate": 4.332089552238806e-05,
      "loss": 0.2583,
      "step": 1520
    },
    {
      "epoch": 5.71,
      "grad_norm": 0.966521680355072,
      "learning_rate": 4.294776119402985e-05,
      "loss": 0.0997,
      "step": 1530
    },
    {
      "epoch": 5.75,
      "grad_norm": 2.8261241912841797,
      "learning_rate": 4.2574626865671645e-05,
      "loss": 0.1604,
      "step": 1540
    },
    {
      "epoch": 5.78,
      "grad_norm": 3.089912176132202,
      "learning_rate": 4.2201492537313436e-05,
      "loss": 0.2775,
      "step": 1550
    },
    {
      "epoch": 5.82,
      "grad_norm": 7.935690879821777,
      "learning_rate": 4.182835820895523e-05,
      "loss": 0.2522,
      "step": 1560
    },
    {
      "epoch": 5.86,
      "grad_norm": 0.7999266982078552,
      "learning_rate": 4.145522388059702e-05,
      "loss": 0.0752,
      "step": 1570
    },
    {
      "epoch": 5.9,
      "grad_norm": 6.0712480545043945,
      "learning_rate": 4.1082089552238804e-05,
      "loss": 0.1933,
      "step": 1580
    },
    {
      "epoch": 5.93,
      "grad_norm": 10.768308639526367,
      "learning_rate": 4.07089552238806e-05,
      "loss": 0.1664,
      "step": 1590
    },
    {
      "epoch": 5.97,
      "grad_norm": 9.641716003417969,
      "learning_rate": 4.0335820895522394e-05,
      "loss": 0.3134,
      "step": 1600
    },
    {
      "epoch": 5.97,
      "eval_accuracy": 0.8154657293497364,
      "eval_loss": 0.7593356966972351,
      "eval_runtime": 8.4455,
      "eval_samples_per_second": 67.373,
      "eval_steps_per_second": 8.525,
      "step": 1600
    },
    {
      "epoch": 6.01,
      "grad_norm": 6.7538838386535645,
      "learning_rate": 3.996268656716418e-05,
      "loss": 0.1747,
      "step": 1610
    },
    {
      "epoch": 6.04,
      "grad_norm": 6.237377166748047,
      "learning_rate": 3.958955223880597e-05,
      "loss": 0.2406,
      "step": 1620
    },
    {
      "epoch": 6.08,
      "grad_norm": 7.950930118560791,
      "learning_rate": 3.921641791044776e-05,
      "loss": 0.1884,
      "step": 1630
    },
    {
      "epoch": 6.12,
      "grad_norm": 4.41484260559082,
      "learning_rate": 3.8843283582089554e-05,
      "loss": 0.1445,
      "step": 1640
    },
    {
      "epoch": 6.16,
      "grad_norm": 6.339887619018555,
      "learning_rate": 3.8470149253731345e-05,
      "loss": 0.2906,
      "step": 1650
    },
    {
      "epoch": 6.19,
      "grad_norm": 7.597599983215332,
      "learning_rate": 3.809701492537314e-05,
      "loss": 0.1576,
      "step": 1660
    },
    {
      "epoch": 6.23,
      "grad_norm": 2.379629373550415,
      "learning_rate": 3.772388059701493e-05,
      "loss": 0.2016,
      "step": 1670
    },
    {
      "epoch": 6.27,
      "grad_norm": 2.7694478034973145,
      "learning_rate": 3.735074626865671e-05,
      "loss": 0.1188,
      "step": 1680
    },
    {
      "epoch": 6.31,
      "grad_norm": 2.1837210655212402,
      "learning_rate": 3.6977611940298505e-05,
      "loss": 0.1908,
      "step": 1690
    },
    {
      "epoch": 6.34,
      "grad_norm": 4.4665350914001465,
      "learning_rate": 3.66044776119403e-05,
      "loss": 0.24,
      "step": 1700
    },
    {
      "epoch": 6.34,
      "eval_accuracy": 0.8260105448154658,
      "eval_loss": 0.7510848641395569,
      "eval_runtime": 8.2044,
      "eval_samples_per_second": 69.353,
      "eval_steps_per_second": 8.776,
      "step": 1700
    },
    {
      "epoch": 6.38,
      "grad_norm": 4.6551995277404785,
      "learning_rate": 3.6231343283582095e-05,
      "loss": 0.1631,
      "step": 1710
    },
    {
      "epoch": 6.42,
      "grad_norm": 1.098407506942749,
      "learning_rate": 3.585820895522388e-05,
      "loss": 0.0912,
      "step": 1720
    },
    {
      "epoch": 6.46,
      "grad_norm": 0.37138649821281433,
      "learning_rate": 3.548507462686567e-05,
      "loss": 0.2621,
      "step": 1730
    },
    {
      "epoch": 6.49,
      "grad_norm": 7.4571757316589355,
      "learning_rate": 3.511194029850746e-05,
      "loss": 0.268,
      "step": 1740
    },
    {
      "epoch": 6.53,
      "grad_norm": 0.5180323123931885,
      "learning_rate": 3.4738805970149254e-05,
      "loss": 0.2135,
      "step": 1750
    },
    {
      "epoch": 6.57,
      "grad_norm": 1.0866820812225342,
      "learning_rate": 3.4365671641791046e-05,
      "loss": 0.1489,
      "step": 1760
    },
    {
      "epoch": 6.6,
      "grad_norm": 8.90451717376709,
      "learning_rate": 3.399253731343284e-05,
      "loss": 0.288,
      "step": 1770
    },
    {
      "epoch": 6.64,
      "grad_norm": 1.1608803272247314,
      "learning_rate": 3.361940298507463e-05,
      "loss": 0.18,
      "step": 1780
    },
    {
      "epoch": 6.68,
      "grad_norm": 2.9207170009613037,
      "learning_rate": 3.3246268656716414e-05,
      "loss": 0.2414,
      "step": 1790
    },
    {
      "epoch": 6.72,
      "grad_norm": 0.2674783170223236,
      "learning_rate": 3.287313432835821e-05,
      "loss": 0.2359,
      "step": 1800
    },
    {
      "epoch": 6.72,
      "eval_accuracy": 0.8137082601054482,
      "eval_loss": 0.7501537203788757,
      "eval_runtime": 8.1528,
      "eval_samples_per_second": 69.792,
      "eval_steps_per_second": 8.831,
      "step": 1800
    },
    {
      "epoch": 6.75,
      "grad_norm": 8.241676330566406,
      "learning_rate": 3.2500000000000004e-05,
      "loss": 0.1975,
      "step": 1810
    },
    {
      "epoch": 6.79,
      "grad_norm": 2.0347325801849365,
      "learning_rate": 3.2126865671641796e-05,
      "loss": 0.218,
      "step": 1820
    },
    {
      "epoch": 6.83,
      "grad_norm": 1.0338706970214844,
      "learning_rate": 3.175373134328358e-05,
      "loss": 0.1437,
      "step": 1830
    },
    {
      "epoch": 6.87,
      "grad_norm": 0.34902578592300415,
      "learning_rate": 3.138059701492537e-05,
      "loss": 0.1883,
      "step": 1840
    },
    {
      "epoch": 6.9,
      "grad_norm": 6.642534255981445,
      "learning_rate": 3.100746268656717e-05,
      "loss": 0.2513,
      "step": 1850
    },
    {
      "epoch": 6.94,
      "grad_norm": 4.432920455932617,
      "learning_rate": 3.0634328358208955e-05,
      "loss": 0.1058,
      "step": 1860
    },
    {
      "epoch": 6.98,
      "grad_norm": 4.381640434265137,
      "learning_rate": 3.0261194029850747e-05,
      "loss": 0.2114,
      "step": 1870
    },
    {
      "epoch": 7.01,
      "grad_norm": 7.730411529541016,
      "learning_rate": 2.9888059701492538e-05,
      "loss": 0.2542,
      "step": 1880
    },
    {
      "epoch": 7.05,
      "grad_norm": 7.122923851013184,
      "learning_rate": 2.9514925373134326e-05,
      "loss": 0.2594,
      "step": 1890
    },
    {
      "epoch": 7.09,
      "grad_norm": 1.411278486251831,
      "learning_rate": 2.9141791044776125e-05,
      "loss": 0.2322,
      "step": 1900
    },
    {
      "epoch": 7.09,
      "eval_accuracy": 0.8347978910369068,
      "eval_loss": 0.6952534317970276,
      "eval_runtime": 8.3769,
      "eval_samples_per_second": 67.925,
      "eval_steps_per_second": 8.595,
      "step": 1900
    },
    {
      "epoch": 7.13,
      "grad_norm": 2.219285011291504,
      "learning_rate": 2.8768656716417913e-05,
      "loss": 0.1344,
      "step": 1910
    },
    {
      "epoch": 7.16,
      "grad_norm": 6.302455902099609,
      "learning_rate": 2.8395522388059705e-05,
      "loss": 0.2098,
      "step": 1920
    },
    {
      "epoch": 7.2,
      "grad_norm": 1.2837783098220825,
      "learning_rate": 2.8022388059701493e-05,
      "loss": 0.0906,
      "step": 1930
    },
    {
      "epoch": 7.24,
      "grad_norm": 6.604355335235596,
      "learning_rate": 2.7649253731343284e-05,
      "loss": 0.2352,
      "step": 1940
    },
    {
      "epoch": 7.28,
      "grad_norm": 9.916419982910156,
      "learning_rate": 2.727611940298508e-05,
      "loss": 0.1422,
      "step": 1950
    },
    {
      "epoch": 7.31,
      "grad_norm": 2.7665014266967773,
      "learning_rate": 2.6902985074626868e-05,
      "loss": 0.1722,
      "step": 1960
    },
    {
      "epoch": 7.35,
      "grad_norm": 0.24231348931789398,
      "learning_rate": 2.652985074626866e-05,
      "loss": 0.2935,
      "step": 1970
    },
    {
      "epoch": 7.39,
      "grad_norm": 0.8025885224342346,
      "learning_rate": 2.6156716417910447e-05,
      "loss": 0.157,
      "step": 1980
    },
    {
      "epoch": 7.43,
      "grad_norm": 1.6752264499664307,
      "learning_rate": 2.578358208955224e-05,
      "loss": 0.1256,
      "step": 1990
    },
    {
      "epoch": 7.46,
      "grad_norm": 2.404883861541748,
      "learning_rate": 2.5410447761194027e-05,
      "loss": 0.1514,
      "step": 2000
    },
    {
      "epoch": 7.46,
      "eval_accuracy": 0.8260105448154658,
      "eval_loss": 0.7120960354804993,
      "eval_runtime": 8.1425,
      "eval_samples_per_second": 69.88,
      "eval_steps_per_second": 8.842,
      "step": 2000
    },
    {
      "epoch": 7.5,
      "grad_norm": 5.409728050231934,
      "learning_rate": 2.5037313432835825e-05,
      "loss": 0.222,
      "step": 2010
    },
    {
      "epoch": 7.54,
      "grad_norm": 3.949014663696289,
      "learning_rate": 2.4664179104477614e-05,
      "loss": 0.245,
      "step": 2020
    },
    {
      "epoch": 7.57,
      "grad_norm": 8.40086555480957,
      "learning_rate": 2.4291044776119405e-05,
      "loss": 0.1408,
      "step": 2030
    },
    {
      "epoch": 7.61,
      "grad_norm": 7.694955348968506,
      "learning_rate": 2.3917910447761197e-05,
      "loss": 0.2072,
      "step": 2040
    },
    {
      "epoch": 7.65,
      "grad_norm": 1.9109055995941162,
      "learning_rate": 2.3544776119402985e-05,
      "loss": 0.145,
      "step": 2050
    },
    {
      "epoch": 7.69,
      "grad_norm": 12.803776741027832,
      "learning_rate": 2.3171641791044777e-05,
      "loss": 0.1274,
      "step": 2060
    },
    {
      "epoch": 7.72,
      "grad_norm": 3.3325235843658447,
      "learning_rate": 2.2798507462686568e-05,
      "loss": 0.1564,
      "step": 2070
    },
    {
      "epoch": 7.76,
      "grad_norm": 1.105327844619751,
      "learning_rate": 2.242537313432836e-05,
      "loss": 0.2008,
      "step": 2080
    },
    {
      "epoch": 7.8,
      "grad_norm": 1.7592620849609375,
      "learning_rate": 2.2052238805970148e-05,
      "loss": 0.203,
      "step": 2090
    },
    {
      "epoch": 7.84,
      "grad_norm": 0.13264060020446777,
      "learning_rate": 2.1679104477611943e-05,
      "loss": 0.2089,
      "step": 2100
    },
    {
      "epoch": 7.84,
      "eval_accuracy": 0.827768014059754,
      "eval_loss": 0.693087637424469,
      "eval_runtime": 8.2375,
      "eval_samples_per_second": 69.074,
      "eval_steps_per_second": 8.741,
      "step": 2100
    },
    {
      "epoch": 7.87,
      "grad_norm": 5.904381275177002,
      "learning_rate": 2.130597014925373e-05,
      "loss": 0.1754,
      "step": 2110
    },
    {
      "epoch": 7.91,
      "grad_norm": 1.7469266653060913,
      "learning_rate": 2.0932835820895526e-05,
      "loss": 0.1322,
      "step": 2120
    },
    {
      "epoch": 7.95,
      "grad_norm": 4.313326835632324,
      "learning_rate": 2.0559701492537314e-05,
      "loss": 0.1418,
      "step": 2130
    },
    {
      "epoch": 7.99,
      "grad_norm": 0.14211903512477875,
      "learning_rate": 2.0186567164179106e-05,
      "loss": 0.1534,
      "step": 2140
    },
    {
      "epoch": 8.02,
      "grad_norm": 5.527184009552002,
      "learning_rate": 1.9813432835820897e-05,
      "loss": 0.2122,
      "step": 2150
    },
    {
      "epoch": 8.06,
      "grad_norm": 0.2312430739402771,
      "learning_rate": 1.9440298507462686e-05,
      "loss": 0.1617,
      "step": 2160
    },
    {
      "epoch": 8.1,
      "grad_norm": 0.23949085175991058,
      "learning_rate": 1.906716417910448e-05,
      "loss": 0.1286,
      "step": 2170
    },
    {
      "epoch": 8.13,
      "grad_norm": 0.1903185099363327,
      "learning_rate": 1.869402985074627e-05,
      "loss": 0.0846,
      "step": 2180
    },
    {
      "epoch": 8.17,
      "grad_norm": 0.08518023788928986,
      "learning_rate": 1.832089552238806e-05,
      "loss": 0.0801,
      "step": 2190
    },
    {
      "epoch": 8.21,
      "grad_norm": 4.424215793609619,
      "learning_rate": 1.7947761194029852e-05,
      "loss": 0.2245,
      "step": 2200
    },
    {
      "epoch": 8.21,
      "eval_accuracy": 0.8330404217926186,
      "eval_loss": 0.7087014317512512,
      "eval_runtime": 8.1117,
      "eval_samples_per_second": 70.145,
      "eval_steps_per_second": 8.876,
      "step": 2200
    },
    {
      "epoch": 8.25,
      "grad_norm": 7.247931480407715,
      "learning_rate": 1.7574626865671644e-05,
      "loss": 0.0722,
      "step": 2210
    },
    {
      "epoch": 8.28,
      "grad_norm": 4.80264949798584,
      "learning_rate": 1.7201492537313435e-05,
      "loss": 0.0844,
      "step": 2220
    },
    {
      "epoch": 8.32,
      "grad_norm": 8.001790046691895,
      "learning_rate": 1.6828358208955223e-05,
      "loss": 0.1077,
      "step": 2230
    },
    {
      "epoch": 8.36,
      "grad_norm": 5.419641017913818,
      "learning_rate": 1.6455223880597015e-05,
      "loss": 0.1627,
      "step": 2240
    },
    {
      "epoch": 8.4,
      "grad_norm": 0.031686268746852875,
      "learning_rate": 1.6082089552238806e-05,
      "loss": 0.0984,
      "step": 2250
    },
    {
      "epoch": 8.43,
      "grad_norm": 6.095193862915039,
      "learning_rate": 1.5708955223880598e-05,
      "loss": 0.1756,
      "step": 2260
    },
    {
      "epoch": 8.47,
      "grad_norm": 5.179446220397949,
      "learning_rate": 1.5335820895522386e-05,
      "loss": 0.1708,
      "step": 2270
    },
    {
      "epoch": 8.51,
      "grad_norm": 4.06497049331665,
      "learning_rate": 1.496268656716418e-05,
      "loss": 0.1493,
      "step": 2280
    },
    {
      "epoch": 8.54,
      "grad_norm": 1.4721342325210571,
      "learning_rate": 1.458955223880597e-05,
      "loss": 0.2587,
      "step": 2290
    },
    {
      "epoch": 8.58,
      "grad_norm": 4.418783664703369,
      "learning_rate": 1.4216417910447763e-05,
      "loss": 0.1328,
      "step": 2300
    },
    {
      "epoch": 8.58,
      "eval_accuracy": 0.8312829525483304,
      "eval_loss": 0.700339674949646,
      "eval_runtime": 8.481,
      "eval_samples_per_second": 67.091,
      "eval_steps_per_second": 8.49,
      "step": 2300
    },
    {
      "epoch": 8.62,
      "grad_norm": 1.5734038352966309,
      "learning_rate": 1.3843283582089553e-05,
      "loss": 0.165,
      "step": 2310
    },
    {
      "epoch": 8.66,
      "grad_norm": 2.624784231185913,
      "learning_rate": 1.3470149253731342e-05,
      "loss": 0.0837,
      "step": 2320
    },
    {
      "epoch": 8.69,
      "grad_norm": 2.7039573192596436,
      "learning_rate": 1.3097014925373136e-05,
      "loss": 0.2098,
      "step": 2330
    },
    {
      "epoch": 8.73,
      "grad_norm": 6.542816638946533,
      "learning_rate": 1.2723880597014926e-05,
      "loss": 0.129,
      "step": 2340
    },
    {
      "epoch": 8.77,
      "grad_norm": 2.9511120319366455,
      "learning_rate": 1.2350746268656717e-05,
      "loss": 0.1762,
      "step": 2350
    },
    {
      "epoch": 8.81,
      "grad_norm": 3.435502529144287,
      "learning_rate": 1.1977611940298509e-05,
      "loss": 0.1345,
      "step": 2360
    },
    {
      "epoch": 8.84,
      "grad_norm": 2.1689364910125732,
      "learning_rate": 1.1604477611940299e-05,
      "loss": 0.1011,
      "step": 2370
    },
    {
      "epoch": 8.88,
      "grad_norm": 2.3366479873657227,
      "learning_rate": 1.123134328358209e-05,
      "loss": 0.1733,
      "step": 2380
    },
    {
      "epoch": 8.92,
      "grad_norm": 5.928171634674072,
      "learning_rate": 1.085820895522388e-05,
      "loss": 0.1089,
      "step": 2390
    },
    {
      "epoch": 8.96,
      "grad_norm": 0.08636012673377991,
      "learning_rate": 1.0485074626865672e-05,
      "loss": 0.1304,
      "step": 2400
    },
    {
      "epoch": 8.96,
      "eval_accuracy": 0.8224956063268892,
      "eval_loss": 0.7306046485900879,
      "eval_runtime": 8.4262,
      "eval_samples_per_second": 67.528,
      "eval_steps_per_second": 8.545,
      "step": 2400
    },
    {
      "epoch": 8.99,
      "grad_norm": 0.14256200194358826,
      "learning_rate": 1.0111940298507463e-05,
      "loss": 0.1506,
      "step": 2410
    },
    {
      "epoch": 9.03,
      "grad_norm": 0.4166848659515381,
      "learning_rate": 9.738805970149255e-06,
      "loss": 0.2058,
      "step": 2420
    },
    {
      "epoch": 9.07,
      "grad_norm": 0.3997032344341278,
      "learning_rate": 9.365671641791045e-06,
      "loss": 0.0482,
      "step": 2430
    },
    {
      "epoch": 9.1,
      "grad_norm": 9.076058387756348,
      "learning_rate": 8.992537313432836e-06,
      "loss": 0.2201,
      "step": 2440
    },
    {
      "epoch": 9.14,
      "grad_norm": 4.368849277496338,
      "learning_rate": 8.619402985074628e-06,
      "loss": 0.1288,
      "step": 2450
    },
    {
      "epoch": 9.18,
      "grad_norm": 4.311466693878174,
      "learning_rate": 8.24626865671642e-06,
      "loss": 0.3058,
      "step": 2460
    },
    {
      "epoch": 9.22,
      "grad_norm": 0.2911408543586731,
      "learning_rate": 7.87313432835821e-06,
      "loss": 0.1303,
      "step": 2470
    },
    {
      "epoch": 9.25,
      "grad_norm": 5.493233680725098,
      "learning_rate": 7.5e-06,
      "loss": 0.0915,
      "step": 2480
    },
    {
      "epoch": 9.29,
      "grad_norm": 0.09431172162294388,
      "learning_rate": 7.126865671641792e-06,
      "loss": 0.0954,
      "step": 2490
    },
    {
      "epoch": 9.33,
      "grad_norm": 1.8603869676589966,
      "learning_rate": 6.7537313432835825e-06,
      "loss": 0.1514,
      "step": 2500
    },
    {
      "epoch": 9.33,
      "eval_accuracy": 0.8260105448154658,
      "eval_loss": 0.7162156701087952,
      "eval_runtime": 8.3201,
      "eval_samples_per_second": 68.389,
      "eval_steps_per_second": 8.654,
      "step": 2500
    },
    {
      "epoch": 9.37,
      "grad_norm": 4.870584964752197,
      "learning_rate": 6.380597014925374e-06,
      "loss": 0.1354,
      "step": 2510
    },
    {
      "epoch": 9.4,
      "grad_norm": 2.316840410232544,
      "learning_rate": 6.007462686567165e-06,
      "loss": 0.1348,
      "step": 2520
    },
    {
      "epoch": 9.44,
      "grad_norm": 1.9005101919174194,
      "learning_rate": 5.6343283582089556e-06,
      "loss": 0.1755,
      "step": 2530
    },
    {
      "epoch": 9.48,
      "grad_norm": 0.1674620360136032,
      "learning_rate": 5.261194029850746e-06,
      "loss": 0.0878,
      "step": 2540
    },
    {
      "epoch": 9.51,
      "grad_norm": 5.729959011077881,
      "learning_rate": 4.888059701492537e-06,
      "loss": 0.1637,
      "step": 2550
    },
    {
      "epoch": 9.55,
      "grad_norm": 0.02724504843354225,
      "learning_rate": 4.514925373134329e-06,
      "loss": 0.1603,
      "step": 2560
    },
    {
      "epoch": 9.59,
      "grad_norm": 2.728663921356201,
      "learning_rate": 4.141791044776119e-06,
      "loss": 0.1152,
      "step": 2570
    },
    {
      "epoch": 9.63,
      "grad_norm": 8.920695304870605,
      "learning_rate": 3.7686567164179105e-06,
      "loss": 0.1964,
      "step": 2580
    },
    {
      "epoch": 9.66,
      "grad_norm": 2.3974239826202393,
      "learning_rate": 3.3955223880597013e-06,
      "loss": 0.0842,
      "step": 2590
    },
    {
      "epoch": 9.7,
      "grad_norm": 1.6431355476379395,
      "learning_rate": 3.022388059701493e-06,
      "loss": 0.2571,
      "step": 2600
    },
    {
      "epoch": 9.7,
      "eval_accuracy": 0.8347978910369068,
      "eval_loss": 0.7012546062469482,
      "eval_runtime": 8.3265,
      "eval_samples_per_second": 68.336,
      "eval_steps_per_second": 8.647,
      "step": 2600
    },
    {
      "epoch": 9.74,
      "grad_norm": 0.10621854662895203,
      "learning_rate": 2.6492537313432836e-06,
      "loss": 0.2632,
      "step": 2610
    },
    {
      "epoch": 9.78,
      "grad_norm": 4.150152206420898,
      "learning_rate": 2.2761194029850747e-06,
      "loss": 0.2804,
      "step": 2620
    },
    {
      "epoch": 9.81,
      "grad_norm": 4.01139497756958,
      "learning_rate": 1.9029850746268657e-06,
      "loss": 0.1696,
      "step": 2630
    },
    {
      "epoch": 9.85,
      "grad_norm": 4.7402262687683105,
      "learning_rate": 1.5298507462686568e-06,
      "loss": 0.1891,
      "step": 2640
    },
    {
      "epoch": 9.89,
      "grad_norm": 4.460111141204834,
      "learning_rate": 1.1567164179104478e-06,
      "loss": 0.1178,
      "step": 2650
    },
    {
      "epoch": 9.93,
      "grad_norm": 5.822507858276367,
      "learning_rate": 7.835820895522387e-07,
      "loss": 0.089,
      "step": 2660
    },
    {
      "epoch": 9.96,
      "grad_norm": 2.4408085346221924,
      "learning_rate": 4.1044776119402984e-07,
      "loss": 0.158,
      "step": 2670
    },
    {
      "epoch": 10.0,
      "grad_norm": 10.792135238647461,
      "learning_rate": 3.7313432835820895e-08,
      "loss": 0.2038,
      "step": 2680
    },
    {
      "epoch": 10.0,
      "step": 2680,
      "total_flos": 3.3230947683690086e+18,
      "train_loss": 0.23535207314277762,
      "train_runtime": 1371.8304,
      "train_samples_per_second": 31.258,
      "train_steps_per_second": 1.954
    }
  ],
  "logging_steps": 10,
  "max_steps": 2680,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 10,
  "save_steps": 100,
  "total_flos": 3.3230947683690086e+18,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}