{
  "best_metric": 0.8066528066528067,
  "best_model_checkpoint": "test-hasy-5/checkpoint-18935",
  "epoch": 100.0,
  "eval_steps": 500,
  "global_step": 54100,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.92,
      "grad_norm": 4.6960930824279785,
      "learning_rate": 1.9815157116451017e-05,
      "loss": 3.9645,
      "step": 500
    },
    {
      "epoch": 1.0,
      "eval_accuracy": 0.3970893970893971,
      "eval_loss": 3.429507255554199,
      "eval_runtime": 2.0488,
      "eval_samples_per_second": 234.77,
      "eval_steps_per_second": 29.773,
      "step": 541
    },
    {
      "epoch": 1.85,
      "grad_norm": 3.364806652069092,
      "learning_rate": 1.9630314232902035e-05,
      "loss": 3.4258,
      "step": 1000
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.4781704781704782,
      "eval_loss": 2.879011392593384,
      "eval_runtime": 1.9708,
      "eval_samples_per_second": 244.059,
      "eval_steps_per_second": 30.951,
      "step": 1082
    },
    {
      "epoch": 2.77,
      "grad_norm": 3.35432767868042,
      "learning_rate": 1.944547134935305e-05,
      "loss": 3.04,
      "step": 1500
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.5467775467775468,
      "eval_loss": 2.4893012046813965,
      "eval_runtime": 2.0175,
      "eval_samples_per_second": 238.411,
      "eval_steps_per_second": 30.235,
      "step": 1623
    },
    {
      "epoch": 3.7,
      "grad_norm": 4.459615230560303,
      "learning_rate": 1.9260628465804068e-05,
      "loss": 2.793,
      "step": 2000
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.5738045738045738,
      "eval_loss": 2.2005958557128906,
      "eval_runtime": 1.962,
      "eval_samples_per_second": 245.161,
      "eval_steps_per_second": 31.091,
      "step": 2164
    },
    {
      "epoch": 4.62,
      "grad_norm": 4.481846332550049,
      "learning_rate": 1.9075785582255083e-05,
      "loss": 2.5551,
      "step": 2500
    },
    {
      "epoch": 5.0,
      "eval_accuracy": 0.6340956340956341,
      "eval_loss": 1.9055824279785156,
      "eval_runtime": 2.0221,
      "eval_samples_per_second": 237.875,
      "eval_steps_per_second": 30.167,
      "step": 2705
    },
    {
      "epoch": 5.55,
      "grad_norm": 4.1784281730651855,
      "learning_rate": 1.88909426987061e-05,
      "loss": 2.3662,
      "step": 3000
    },
    {
      "epoch": 6.0,
      "eval_accuracy": 0.6632016632016632,
      "eval_loss": 1.7023240327835083,
      "eval_runtime": 1.9666,
      "eval_samples_per_second": 244.588,
      "eval_steps_per_second": 31.018,
      "step": 3246
    },
    {
      "epoch": 6.47,
      "grad_norm": 6.06294059753418,
      "learning_rate": 1.8706099815157116e-05,
      "loss": 2.1965,
      "step": 3500
    },
    {
      "epoch": 7.0,
      "eval_accuracy": 0.6798336798336798,
      "eval_loss": 1.5739575624465942,
      "eval_runtime": 1.9941,
      "eval_samples_per_second": 241.216,
      "eval_steps_per_second": 30.591,
      "step": 3787
    },
    {
      "epoch": 7.39,
      "grad_norm": 4.912960052490234,
      "learning_rate": 1.8521256931608135e-05,
      "loss": 2.1397,
      "step": 4000
    },
    {
      "epoch": 8.0,
      "eval_accuracy": 0.6943866943866944,
      "eval_loss": 1.4560521841049194,
      "eval_runtime": 1.9835,
      "eval_samples_per_second": 242.507,
      "eval_steps_per_second": 30.754,
      "step": 4328
    },
    {
      "epoch": 8.32,
      "grad_norm": 5.236889362335205,
      "learning_rate": 1.833641404805915e-05,
      "loss": 1.9955,
      "step": 4500
    },
    {
      "epoch": 9.0,
      "eval_accuracy": 0.7234927234927235,
      "eval_loss": 1.3202540874481201,
      "eval_runtime": 2.0536,
      "eval_samples_per_second": 234.218,
      "eval_steps_per_second": 29.703,
      "step": 4869
    },
    {
      "epoch": 9.24,
      "grad_norm": 5.675503253936768,
      "learning_rate": 1.8151571164510168e-05,
      "loss": 1.9282,
      "step": 5000
    },
    {
      "epoch": 10.0,
      "eval_accuracy": 0.738045738045738,
      "eval_loss": 1.2246184349060059,
      "eval_runtime": 2.0017,
      "eval_samples_per_second": 240.293,
      "eval_steps_per_second": 30.474,
      "step": 5410
    },
    {
      "epoch": 10.17,
      "grad_norm": 4.67825174331665,
      "learning_rate": 1.7966728280961186e-05,
      "loss": 1.8368,
      "step": 5500
    },
    {
      "epoch": 11.0,
      "eval_accuracy": 0.738045738045738,
      "eval_loss": 1.1823257207870483,
      "eval_runtime": 1.9774,
      "eval_samples_per_second": 243.246,
      "eval_steps_per_second": 30.848,
      "step": 5951
    },
    {
      "epoch": 11.09,
      "grad_norm": 4.809859275817871,
      "learning_rate": 1.77818853974122e-05,
      "loss": 1.812,
      "step": 6000
    },
    {
      "epoch": 12.0,
      "eval_accuracy": 0.7214137214137214,
      "eval_loss": 1.1297953128814697,
      "eval_runtime": 2.0307,
      "eval_samples_per_second": 236.864,
      "eval_steps_per_second": 30.039,
      "step": 6492
    },
    {
      "epoch": 12.01,
      "grad_norm": 5.255190849304199,
      "learning_rate": 1.759704251386322e-05,
      "loss": 1.7353,
      "step": 6500
    },
    {
      "epoch": 12.94,
      "grad_norm": 8.597217559814453,
      "learning_rate": 1.7412199630314234e-05,
      "loss": 1.7195,
      "step": 7000
    },
    {
      "epoch": 13.0,
      "eval_accuracy": 0.7484407484407485,
      "eval_loss": 1.0423070192337036,
      "eval_runtime": 2.0193,
      "eval_samples_per_second": 238.201,
      "eval_steps_per_second": 30.208,
      "step": 7033
    },
    {
      "epoch": 13.86,
      "grad_norm": 6.453842639923096,
      "learning_rate": 1.7227356746765253e-05,
      "loss": 1.6314,
      "step": 7500
    },
    {
      "epoch": 14.0,
      "eval_accuracy": 0.7422037422037422,
      "eval_loss": 1.0077309608459473,
      "eval_runtime": 2.0783,
      "eval_samples_per_second": 231.439,
      "eval_steps_per_second": 29.351,
      "step": 7574
    },
    {
      "epoch": 14.79,
      "grad_norm": 8.70645523071289,
      "learning_rate": 1.7042513863216268e-05,
      "loss": 1.5979,
      "step": 8000
    },
    {
      "epoch": 15.0,
      "eval_accuracy": 0.7463617463617463,
      "eval_loss": 1.00509512424469,
      "eval_runtime": 1.9889,
      "eval_samples_per_second": 241.847,
      "eval_steps_per_second": 30.671,
      "step": 8115
    },
    {
      "epoch": 15.71,
      "grad_norm": 7.348147392272949,
      "learning_rate": 1.6857670979667286e-05,
      "loss": 1.5656,
      "step": 8500
    },
    {
      "epoch": 16.0,
      "eval_accuracy": 0.7692307692307693,
      "eval_loss": 0.9325113296508789,
      "eval_runtime": 1.9923,
      "eval_samples_per_second": 241.43,
      "eval_steps_per_second": 30.618,
      "step": 8656
    },
    {
      "epoch": 16.64,
      "grad_norm": 6.420931816101074,
      "learning_rate": 1.66728280961183e-05,
      "loss": 1.5414,
      "step": 9000
    },
    {
      "epoch": 17.0,
      "eval_accuracy": 0.7733887733887734,
      "eval_loss": 0.8889437913894653,
      "eval_runtime": 1.9727,
      "eval_samples_per_second": 243.822,
      "eval_steps_per_second": 30.921,
      "step": 9197
    },
    {
      "epoch": 17.56,
      "grad_norm": 8.127350807189941,
      "learning_rate": 1.6487985212569316e-05,
      "loss": 1.5342,
      "step": 9500
    },
    {
      "epoch": 18.0,
      "eval_accuracy": 0.7484407484407485,
      "eval_loss": 0.9072721600532532,
      "eval_runtime": 1.9933,
      "eval_samples_per_second": 241.303,
      "eval_steps_per_second": 30.602,
      "step": 9738
    },
    {
      "epoch": 18.48,
      "grad_norm": 6.122061252593994,
      "learning_rate": 1.6303142329020334e-05,
      "loss": 1.4898,
      "step": 10000
    },
    {
      "epoch": 19.0,
      "eval_accuracy": 0.7713097713097713,
      "eval_loss": 0.8425627946853638,
      "eval_runtime": 1.9868,
      "eval_samples_per_second": 242.099,
      "eval_steps_per_second": 30.703,
      "step": 10279
    },
    {
      "epoch": 19.41,
      "grad_norm": 6.640945911407471,
      "learning_rate": 1.611829944547135e-05,
      "loss": 1.4731,
      "step": 10500
    },
    {
      "epoch": 20.0,
      "eval_accuracy": 0.7442827442827443,
      "eval_loss": 0.862506091594696,
      "eval_runtime": 1.9786,
      "eval_samples_per_second": 243.096,
      "eval_steps_per_second": 30.829,
      "step": 10820
    },
    {
      "epoch": 20.33,
      "grad_norm": 6.019400119781494,
      "learning_rate": 1.5933456561922367e-05,
      "loss": 1.451,
      "step": 11000
    },
    {
      "epoch": 21.0,
      "eval_accuracy": 0.762993762993763,
      "eval_loss": 0.8015209436416626,
      "eval_runtime": 1.9644,
      "eval_samples_per_second": 244.864,
      "eval_steps_per_second": 31.053,
      "step": 11361
    },
    {
      "epoch": 21.26,
      "grad_norm": 5.140503406524658,
      "learning_rate": 1.5748613678373382e-05,
      "loss": 1.4578,
      "step": 11500
    },
    {
      "epoch": 22.0,
      "eval_accuracy": 0.7588357588357588,
      "eval_loss": 0.8520306944847107,
      "eval_runtime": 2.0001,
      "eval_samples_per_second": 240.484,
      "eval_steps_per_second": 30.498,
      "step": 11902
    },
    {
      "epoch": 22.18,
      "grad_norm": 15.190984725952148,
      "learning_rate": 1.55637707948244e-05,
      "loss": 1.4126,
      "step": 12000
    },
    {
      "epoch": 23.0,
      "eval_accuracy": 0.7713097713097713,
      "eval_loss": 0.7928301692008972,
      "eval_runtime": 1.9822,
      "eval_samples_per_second": 242.66,
      "eval_steps_per_second": 30.774,
      "step": 12443
    },
    {
      "epoch": 23.11,
      "grad_norm": 11.220525741577148,
      "learning_rate": 1.5378927911275416e-05,
      "loss": 1.3626,
      "step": 12500
    },
    {
      "epoch": 24.0,
      "eval_accuracy": 0.7837837837837838,
      "eval_loss": 0.754388689994812,
      "eval_runtime": 1.975,
      "eval_samples_per_second": 243.545,
      "eval_steps_per_second": 30.886,
      "step": 12984
    },
    {
      "epoch": 24.03,
      "grad_norm": 3.5185582637786865,
      "learning_rate": 1.5194085027726432e-05,
      "loss": 1.3905,
      "step": 13000
    },
    {
      "epoch": 24.95,
      "grad_norm": 8.19352912902832,
      "learning_rate": 1.5009242144177449e-05,
      "loss": 1.3694,
      "step": 13500
    },
    {
      "epoch": 25.0,
      "eval_accuracy": 0.7775467775467776,
      "eval_loss": 0.7698755860328674,
      "eval_runtime": 2.0179,
      "eval_samples_per_second": 238.368,
      "eval_steps_per_second": 30.23,
      "step": 13525
    },
    {
      "epoch": 25.88,
      "grad_norm": 6.003907680511475,
      "learning_rate": 1.4824399260628467e-05,
      "loss": 1.3612,
      "step": 14000
    },
    {
      "epoch": 26.0,
      "eval_accuracy": 0.7775467775467776,
      "eval_loss": 0.7602183818817139,
      "eval_runtime": 1.9833,
      "eval_samples_per_second": 242.521,
      "eval_steps_per_second": 30.756,
      "step": 14066
    },
    {
      "epoch": 26.8,
      "grad_norm": 6.613931655883789,
      "learning_rate": 1.4639556377079484e-05,
      "loss": 1.2963,
      "step": 14500
    },
    {
      "epoch": 27.0,
      "eval_accuracy": 0.7713097713097713,
      "eval_loss": 0.7532169818878174,
      "eval_runtime": 2.0706,
      "eval_samples_per_second": 232.305,
      "eval_steps_per_second": 29.461,
      "step": 14607
    },
    {
      "epoch": 27.73,
      "grad_norm": 7.66683292388916,
      "learning_rate": 1.44547134935305e-05,
      "loss": 1.3009,
      "step": 15000
    },
    {
      "epoch": 28.0,
      "eval_accuracy": 0.7920997920997921,
      "eval_loss": 0.7012535929679871,
      "eval_runtime": 1.9606,
      "eval_samples_per_second": 245.335,
      "eval_steps_per_second": 31.113,
      "step": 15148
    },
    {
      "epoch": 28.65,
      "grad_norm": 7.342077255249023,
      "learning_rate": 1.4269870609981517e-05,
      "loss": 1.2598,
      "step": 15500
    },
    {
      "epoch": 29.0,
      "eval_accuracy": 0.7796257796257796,
      "eval_loss": 0.7084705233573914,
      "eval_runtime": 1.9824,
      "eval_samples_per_second": 242.632,
      "eval_steps_per_second": 30.77,
      "step": 15689
    },
    {
      "epoch": 29.57,
      "grad_norm": 5.679790019989014,
      "learning_rate": 1.4085027726432534e-05,
      "loss": 1.2565,
      "step": 16000
    },
    {
      "epoch": 30.0,
      "eval_accuracy": 0.7775467775467776,
      "eval_loss": 0.7023281455039978,
      "eval_runtime": 1.9659,
      "eval_samples_per_second": 244.668,
      "eval_steps_per_second": 31.029,
      "step": 16230
    },
    {
      "epoch": 30.5,
      "grad_norm": 5.493412971496582,
      "learning_rate": 1.390018484288355e-05,
      "loss": 1.2735,
      "step": 16500
    },
    {
      "epoch": 31.0,
      "eval_accuracy": 0.7775467775467776,
      "eval_loss": 0.7047860026359558,
      "eval_runtime": 1.9718,
      "eval_samples_per_second": 243.937,
      "eval_steps_per_second": 30.936,
      "step": 16771
    },
    {
      "epoch": 31.42,
      "grad_norm": 6.2688093185424805,
      "learning_rate": 1.3715341959334567e-05,
      "loss": 1.2743,
      "step": 17000
    },
    {
      "epoch": 32.0,
      "eval_accuracy": 0.7920997920997921,
      "eval_loss": 0.6794067621231079,
      "eval_runtime": 1.9764,
      "eval_samples_per_second": 243.372,
      "eval_steps_per_second": 30.864,
      "step": 17312
    },
    {
      "epoch": 32.35,
      "grad_norm": 10.169917106628418,
      "learning_rate": 1.3530499075785584e-05,
      "loss": 1.2441,
      "step": 17500
    },
    {
      "epoch": 33.0,
      "eval_accuracy": 0.7858627858627859,
      "eval_loss": 0.693196713924408,
      "eval_runtime": 1.972,
      "eval_samples_per_second": 243.92,
      "eval_steps_per_second": 30.934,
      "step": 17853
    },
    {
      "epoch": 33.27,
      "grad_norm": 8.05045223236084,
      "learning_rate": 1.33456561922366e-05,
      "loss": 1.2282,
      "step": 18000
    },
    {
      "epoch": 34.0,
      "eval_accuracy": 0.7941787941787942,
      "eval_loss": 0.7038751840591431,
      "eval_runtime": 1.992,
      "eval_samples_per_second": 241.466,
      "eval_steps_per_second": 30.623,
      "step": 18394
    },
    {
      "epoch": 34.2,
      "grad_norm": 5.410665035247803,
      "learning_rate": 1.3160813308687617e-05,
      "loss": 1.2204,
      "step": 18500
    },
    {
      "epoch": 35.0,
      "eval_accuracy": 0.8066528066528067,
      "eval_loss": 0.6860660910606384,
      "eval_runtime": 1.9773,
      "eval_samples_per_second": 243.258,
      "eval_steps_per_second": 30.85,
      "step": 18935
    },
    {
      "epoch": 35.12,
      "grad_norm": 11.123208045959473,
      "learning_rate": 1.2975970425138634e-05,
      "loss": 1.1808,
      "step": 19000
    },
    {
      "epoch": 36.0,
      "eval_accuracy": 0.7962577962577962,
      "eval_loss": 0.6589930057525635,
      "eval_runtime": 1.9769,
      "eval_samples_per_second": 243.305,
      "eval_steps_per_second": 30.856,
      "step": 19476
    },
    {
      "epoch": 36.04,
      "grad_norm": 6.165465354919434,
      "learning_rate": 1.279112754158965e-05,
      "loss": 1.1933,
      "step": 19500
    },
    {
      "epoch": 36.97,
      "grad_norm": 6.407803535461426,
      "learning_rate": 1.2606284658040667e-05,
      "loss": 1.1928,
      "step": 20000
    },
    {
      "epoch": 37.0,
      "eval_accuracy": 0.7817047817047817,
      "eval_loss": 0.678415834903717,
      "eval_runtime": 1.9844,
      "eval_samples_per_second": 242.388,
      "eval_steps_per_second": 30.739,
      "step": 20017
    },
    {
      "epoch": 37.89,
      "grad_norm": 4.849668979644775,
      "learning_rate": 1.2421441774491683e-05,
      "loss": 1.1914,
      "step": 20500
    },
    {
      "epoch": 38.0,
      "eval_accuracy": 0.7962577962577962,
      "eval_loss": 0.6559053659439087,
      "eval_runtime": 1.9912,
      "eval_samples_per_second": 241.56,
      "eval_steps_per_second": 30.634,
      "step": 20558
    },
    {
      "epoch": 38.82,
      "grad_norm": 9.1309232711792,
      "learning_rate": 1.2236598890942698e-05,
      "loss": 1.1856,
      "step": 21000
    },
    {
      "epoch": 39.0,
      "eval_accuracy": 0.7962577962577962,
      "eval_loss": 0.6769025325775146,
      "eval_runtime": 2.0066,
      "eval_samples_per_second": 239.713,
      "eval_steps_per_second": 30.4,
      "step": 21099
    },
    {
      "epoch": 39.74,
      "grad_norm": 5.001546382904053,
      "learning_rate": 1.2051756007393715e-05,
      "loss": 1.1585,
      "step": 21500
    },
    {
      "epoch": 40.0,
      "eval_accuracy": 0.8004158004158004,
      "eval_loss": 0.64976966381073,
      "eval_runtime": 1.9804,
      "eval_samples_per_second": 242.874,
      "eval_steps_per_second": 30.801,
      "step": 21640
    },
    {
      "epoch": 40.67,
      "grad_norm": 14.044866561889648,
      "learning_rate": 1.1866913123844732e-05,
      "loss": 1.1713,
      "step": 22000
    },
    {
      "epoch": 41.0,
      "eval_accuracy": 0.7920997920997921,
      "eval_loss": 0.6447434425354004,
      "eval_runtime": 1.9973,
      "eval_samples_per_second": 240.829,
      "eval_steps_per_second": 30.542,
      "step": 22181
    },
    {
      "epoch": 41.59,
      "grad_norm": 10.289350509643555,
      "learning_rate": 1.1682070240295748e-05,
      "loss": 1.1183,
      "step": 22500
    },
    {
      "epoch": 42.0,
      "eval_accuracy": 0.7713097713097713,
      "eval_loss": 0.6748064756393433,
      "eval_runtime": 1.9672,
      "eval_samples_per_second": 244.509,
      "eval_steps_per_second": 31.008,
      "step": 22722
    },
    {
      "epoch": 42.51,
      "grad_norm": 12.7116117477417,
      "learning_rate": 1.1497227356746765e-05,
      "loss": 1.1564,
      "step": 23000
    },
    {
      "epoch": 43.0,
      "eval_accuracy": 0.7920997920997921,
      "eval_loss": 0.6545261740684509,
      "eval_runtime": 1.9659,
      "eval_samples_per_second": 244.669,
      "eval_steps_per_second": 31.029,
      "step": 23263
    },
    {
      "epoch": 43.44,
      "grad_norm": 3.0720624923706055,
      "learning_rate": 1.1312384473197783e-05,
      "loss": 1.1215,
      "step": 23500
    },
    {
      "epoch": 44.0,
      "eval_accuracy": 0.7879417879417879,
      "eval_loss": 0.6690270900726318,
      "eval_runtime": 1.9635,
      "eval_samples_per_second": 244.971,
      "eval_steps_per_second": 31.067,
      "step": 23804
    },
    {
      "epoch": 44.36,
      "grad_norm": 7.927094459533691,
      "learning_rate": 1.11275415896488e-05,
      "loss": 1.1008,
      "step": 24000
    },
    {
      "epoch": 45.0,
      "eval_accuracy": 0.7879417879417879,
      "eval_loss": 0.659792423248291,
      "eval_runtime": 1.9747,
      "eval_samples_per_second": 243.578,
      "eval_steps_per_second": 30.89,
      "step": 24345
    },
    {
      "epoch": 45.29,
      "grad_norm": 8.912357330322266,
      "learning_rate": 1.0942698706099817e-05,
      "loss": 1.1344,
      "step": 24500
    },
    {
      "epoch": 46.0,
      "eval_accuracy": 0.8024948024948025,
      "eval_loss": 0.6550182104110718,
      "eval_runtime": 2.0112,
      "eval_samples_per_second": 239.156,
      "eval_steps_per_second": 30.33,
      "step": 24886
    },
    {
      "epoch": 46.21,
      "grad_norm": 9.598004341125488,
      "learning_rate": 1.0757855822550833e-05,
      "loss": 1.126,
      "step": 25000
    },
    {
      "epoch": 47.0,
      "eval_accuracy": 0.7858627858627859,
      "eval_loss": 0.6521425247192383,
      "eval_runtime": 1.9713,
      "eval_samples_per_second": 244.004,
      "eval_steps_per_second": 30.944,
      "step": 25427
    },
    {
      "epoch": 47.13,
      "grad_norm": 4.670881271362305,
      "learning_rate": 1.057301293900185e-05,
      "loss": 1.125,
      "step": 25500
    },
    {
      "epoch": 48.0,
      "eval_accuracy": 0.7817047817047817,
      "eval_loss": 0.6812848448753357,
      "eval_runtime": 2.016,
      "eval_samples_per_second": 238.588,
      "eval_steps_per_second": 30.258,
      "step": 25968
    },
    {
      "epoch": 48.06,
      "grad_norm": 8.11451244354248,
      "learning_rate": 1.0388170055452866e-05,
      "loss": 1.0682,
      "step": 26000
    },
    {
      "epoch": 48.98,
      "grad_norm": 8.960821151733398,
      "learning_rate": 1.0203327171903883e-05,
      "loss": 1.0855,
      "step": 26500
    },
    {
      "epoch": 49.0,
      "eval_accuracy": 0.7858627858627859,
      "eval_loss": 0.6419298052787781,
      "eval_runtime": 1.974,
      "eval_samples_per_second": 243.673,
      "eval_steps_per_second": 30.902,
      "step": 26509
    },
    {
      "epoch": 49.91,
      "grad_norm": 3.053118944168091,
      "learning_rate": 1.00184842883549e-05,
      "loss": 1.0452,
      "step": 27000
    },
    {
      "epoch": 50.0,
      "eval_accuracy": 0.8004158004158004,
      "eval_loss": 0.6550863981246948,
      "eval_runtime": 2.0504,
      "eval_samples_per_second": 234.587,
      "eval_steps_per_second": 29.75,
      "step": 27050
    },
    {
      "epoch": 50.83,
      "grad_norm": 5.4594340324401855,
      "learning_rate": 9.833641404805916e-06,
      "loss": 1.0626,
      "step": 27500
    },
    {
      "epoch": 51.0,
      "eval_accuracy": 0.7920997920997921,
      "eval_loss": 0.6675499081611633,
      "eval_runtime": 1.9991,
      "eval_samples_per_second": 240.605,
      "eval_steps_per_second": 30.513,
      "step": 27591
    },
    {
      "epoch": 51.76,
      "grad_norm": 8.158236503601074,
      "learning_rate": 9.648798521256933e-06,
      "loss": 1.0155,
      "step": 28000
    },
    {
      "epoch": 52.0,
      "eval_accuracy": 0.7920997920997921,
      "eval_loss": 0.6945971846580505,
      "eval_runtime": 1.9873,
      "eval_samples_per_second": 242.042,
      "eval_steps_per_second": 30.696,
      "step": 28132
    },
    {
      "epoch": 52.68,
      "grad_norm": 5.626604080200195,
      "learning_rate": 9.46395563770795e-06,
      "loss": 1.0319,
      "step": 28500
    },
    {
      "epoch": 53.0,
      "eval_accuracy": 0.7796257796257796,
      "eval_loss": 0.6942130923271179,
      "eval_runtime": 1.966,
      "eval_samples_per_second": 244.665,
      "eval_steps_per_second": 31.028,
      "step": 28673
    },
    {
      "epoch": 53.6,
      "grad_norm": 6.82182502746582,
      "learning_rate": 9.279112754158966e-06,
      "loss": 1.0488,
      "step": 29000
    },
    {
      "epoch": 54.0,
      "eval_accuracy": 0.7983367983367984,
      "eval_loss": 0.6496003866195679,
      "eval_runtime": 2.0069,
      "eval_samples_per_second": 239.673,
      "eval_steps_per_second": 30.395,
      "step": 29214
    },
    {
      "epoch": 54.53,
      "grad_norm": 7.865675926208496,
      "learning_rate": 9.094269870609981e-06,
      "loss": 1.0558,
      "step": 29500
    },
    {
      "epoch": 55.0,
      "eval_accuracy": 0.8045738045738046,
      "eval_loss": 0.6465332508087158,
      "eval_runtime": 1.9938,
      "eval_samples_per_second": 241.25,
      "eval_steps_per_second": 30.595,
      "step": 29755
    },
    {
      "epoch": 55.45,
      "grad_norm": 7.172035217285156,
      "learning_rate": 8.909426987060998e-06,
      "loss": 0.9913,
      "step": 30000
    },
    {
      "epoch": 56.0,
      "eval_accuracy": 0.7920997920997921,
      "eval_loss": 0.6654109954833984,
      "eval_runtime": 1.9693,
      "eval_samples_per_second": 244.248,
      "eval_steps_per_second": 30.975,
      "step": 30296
    },
    {
      "epoch": 56.38,
      "grad_norm": 6.30518102645874,
      "learning_rate": 8.724584103512016e-06,
      "loss": 1.0555,
      "step": 30500
    },
    {
      "epoch": 57.0,
      "eval_accuracy": 0.7962577962577962,
      "eval_loss": 0.656141996383667,
      "eval_runtime": 1.9741,
      "eval_samples_per_second": 243.66,
      "eval_steps_per_second": 30.901,
      "step": 30837
    },
    {
      "epoch": 57.3,
      "grad_norm": 3.0917370319366455,
      "learning_rate": 8.539741219963033e-06,
      "loss": 0.9803,
      "step": 31000
    },
    {
      "epoch": 58.0,
      "eval_accuracy": 0.7941787941787942,
      "eval_loss": 0.673220157623291,
      "eval_runtime": 1.993,
      "eval_samples_per_second": 241.346,
      "eval_steps_per_second": 30.607,
      "step": 31378
    },
    {
      "epoch": 58.23,
      "grad_norm": 8.285308837890625,
      "learning_rate": 8.35489833641405e-06,
      "loss": 1.0393,
      "step": 31500
    },
    {
      "epoch": 59.0,
      "eval_accuracy": 0.7817047817047817,
      "eval_loss": 0.6892696619033813,
      "eval_runtime": 1.9798,
      "eval_samples_per_second": 242.949,
      "eval_steps_per_second": 30.811,
      "step": 31919
    },
    {
      "epoch": 59.15,
      "grad_norm": 3.1396327018737793,
      "learning_rate": 8.170055452865066e-06,
      "loss": 0.9677,
      "step": 32000
    },
    {
      "epoch": 60.0,
      "eval_accuracy": 0.8045738045738046,
      "eval_loss": 0.6823599934577942,
      "eval_runtime": 2.0127,
      "eval_samples_per_second": 238.985,
      "eval_steps_per_second": 30.308,
      "step": 32460
    },
    {
      "epoch": 60.07,
      "grad_norm": 12.875879287719727,
      "learning_rate": 7.985212569316083e-06,
      "loss": 1.0366,
      "step": 32500
    },
    {
      "epoch": 61.0,
      "grad_norm": 8.770364761352539,
      "learning_rate": 7.8003696857671e-06,
      "loss": 1.0082,
      "step": 33000
    },
    {
      "epoch": 61.0,
      "eval_accuracy": 0.7941787941787942,
      "eval_loss": 0.6618274450302124,
      "eval_runtime": 2.0008,
      "eval_samples_per_second": 240.403,
      "eval_steps_per_second": 30.488,
      "step": 33001
    },
    {
      "epoch": 61.92,
      "grad_norm": 6.0600972175598145,
      "learning_rate": 7.615526802218115e-06,
      "loss": 1.0096,
      "step": 33500
    },
    {
      "epoch": 62.0,
      "eval_accuracy": 0.7837837837837838,
      "eval_loss": 0.6691136360168457,
      "eval_runtime": 1.9817,
      "eval_samples_per_second": 242.719,
      "eval_steps_per_second": 30.781,
      "step": 33542
    },
    {
      "epoch": 62.85,
      "grad_norm": 10.777630805969238,
      "learning_rate": 7.430683918669132e-06,
      "loss": 0.9685,
      "step": 34000
    },
    {
      "epoch": 63.0,
      "eval_accuracy": 0.8024948024948025,
      "eval_loss": 0.6792653203010559,
      "eval_runtime": 2.0645,
      "eval_samples_per_second": 232.985,
      "eval_steps_per_second": 29.547,
      "step": 34083
    },
    {
      "epoch": 63.77,
      "grad_norm": 3.9615447521209717,
      "learning_rate": 7.245841035120148e-06,
      "loss": 0.9847,
      "step": 34500
    },
    {
      "epoch": 64.0,
      "eval_accuracy": 0.7837837837837838,
      "eval_loss": 0.6894533634185791,
      "eval_runtime": 2.0054,
      "eval_samples_per_second": 239.847,
      "eval_steps_per_second": 30.417,
      "step": 34624
    },
    {
      "epoch": 64.7,
      "grad_norm": 9.38687801361084,
      "learning_rate": 7.060998151571166e-06,
      "loss": 0.9639,
      "step": 35000
    },
    {
      "epoch": 65.0,
      "eval_accuracy": 0.7733887733887734,
      "eval_loss": 0.7297117114067078,
      "eval_runtime": 2.0147,
      "eval_samples_per_second": 238.744,
      "eval_steps_per_second": 30.277,
      "step": 35165
    },
    {
      "epoch": 65.62,
      "grad_norm": 12.292973518371582,
      "learning_rate": 6.876155268022182e-06,
      "loss": 0.9776,
      "step": 35500
    },
    {
      "epoch": 66.0,
      "eval_accuracy": 0.7920997920997921,
      "eval_loss": 0.6561179757118225,
      "eval_runtime": 1.9845,
      "eval_samples_per_second": 242.381,
      "eval_steps_per_second": 30.739,
      "step": 35706
    },
    {
      "epoch": 66.54,
      "grad_norm": 14.023015022277832,
      "learning_rate": 6.691312384473199e-06,
      "loss": 1.0074,
      "step": 36000
    },
    {
      "epoch": 67.0,
      "eval_accuracy": 0.7775467775467776,
      "eval_loss": 0.6998913884162903,
      "eval_runtime": 1.9686,
      "eval_samples_per_second": 244.338,
      "eval_steps_per_second": 30.987,
      "step": 36247
    },
    {
      "epoch": 67.47,
      "grad_norm": 13.870222091674805,
      "learning_rate": 6.506469500924215e-06,
      "loss": 0.9466,
      "step": 36500
    },
    {
      "epoch": 68.0,
      "eval_accuracy": 0.7941787941787942,
      "eval_loss": 0.6880961656570435,
      "eval_runtime": 1.9686,
      "eval_samples_per_second": 244.34,
      "eval_steps_per_second": 30.987,
      "step": 36788
    },
    {
      "epoch": 68.39,
      "grad_norm": 6.1949639320373535,
      "learning_rate": 6.321626617375231e-06,
      "loss": 0.9425,
      "step": 37000
    },
    {
      "epoch": 69.0,
      "eval_accuracy": 0.7962577962577962,
      "eval_loss": 0.6805587410926819,
      "eval_runtime": 1.9709,
      "eval_samples_per_second": 244.052,
      "eval_steps_per_second": 30.95,
      "step": 37329
    },
    {
      "epoch": 69.32,
      "grad_norm": 7.145143508911133,
      "learning_rate": 6.136783733826248e-06,
      "loss": 0.9594,
      "step": 37500
    },
    {
      "epoch": 70.0,
      "eval_accuracy": 0.7900207900207901,
      "eval_loss": 0.7202461361885071,
      "eval_runtime": 2.0125,
      "eval_samples_per_second": 239.001,
      "eval_steps_per_second": 30.31,
      "step": 37870
    },
    {
      "epoch": 70.24,
      "grad_norm": 9.215810775756836,
      "learning_rate": 5.951940850277265e-06,
      "loss": 0.9311,
      "step": 38000
    },
    {
      "epoch": 71.0,
      "eval_accuracy": 0.7754677754677755,
      "eval_loss": 0.7161967754364014,
      "eval_runtime": 1.977,
      "eval_samples_per_second": 243.297,
      "eval_steps_per_second": 30.855,
      "step": 38411
    },
    {
      "epoch": 71.16,
      "grad_norm": 6.461187362670898,
      "learning_rate": 5.767097966728281e-06,
      "loss": 0.9429,
      "step": 38500
    },
    {
      "epoch": 72.0,
      "eval_accuracy": 0.7920997920997921,
      "eval_loss": 0.7284368276596069,
      "eval_runtime": 2.0663,
      "eval_samples_per_second": 232.783,
      "eval_steps_per_second": 29.521,
      "step": 38952
    },
    {
      "epoch": 72.09,
      "grad_norm": 11.850204467773438,
      "learning_rate": 5.582255083179298e-06,
      "loss": 0.9666,
      "step": 39000
    },
    {
      "epoch": 73.0,
      "eval_accuracy": 0.7962577962577962,
      "eval_loss": 0.6871474981307983,
      "eval_runtime": 1.97,
      "eval_samples_per_second": 244.162,
      "eval_steps_per_second": 30.964,
      "step": 39493
    },
    {
      "epoch": 73.01,
      "grad_norm": 8.0579252243042,
      "learning_rate": 5.3974121996303146e-06,
      "loss": 0.932,
      "step": 39500
    },
    {
      "epoch": 73.94,
      "grad_norm": 1.1972132921218872,
      "learning_rate": 5.212569316081332e-06,
      "loss": 0.945,
      "step": 40000
    },
    {
      "epoch": 74.0,
      "eval_accuracy": 0.7941787941787942,
      "eval_loss": 0.6778899431228638,
      "eval_runtime": 2.0376,
      "eval_samples_per_second": 236.067,
      "eval_steps_per_second": 29.938,
      "step": 40034
    },
    {
      "epoch": 74.86,
      "grad_norm": 5.484439849853516,
      "learning_rate": 5.027726432532349e-06,
      "loss": 0.9387,
      "step": 40500
    },
    {
      "epoch": 75.0,
      "eval_accuracy": 0.7941787941787942,
      "eval_loss": 0.735752522945404,
      "eval_runtime": 1.9762,
      "eval_samples_per_second": 243.395,
      "eval_steps_per_second": 30.867,
      "step": 40575
    },
    {
      "epoch": 75.79,
      "grad_norm": 2.0908420085906982,
      "learning_rate": 4.8428835489833645e-06,
      "loss": 0.9132,
      "step": 41000
    },
    {
      "epoch": 76.0,
      "eval_accuracy": 0.7941787941787942,
      "eval_loss": 0.7043733596801758,
      "eval_runtime": 1.9764,
      "eval_samples_per_second": 243.367,
      "eval_steps_per_second": 30.864,
      "step": 41116
    },
    {
      "epoch": 76.71,
      "grad_norm": 10.380330085754395,
      "learning_rate": 4.658040665434381e-06,
      "loss": 0.9181,
      "step": 41500
    },
    {
      "epoch": 77.0,
      "eval_accuracy": 0.7962577962577962,
      "eval_loss": 0.7041053771972656,
      "eval_runtime": 2.0006,
      "eval_samples_per_second": 240.43,
      "eval_steps_per_second": 30.491,
      "step": 41657
    },
    {
      "epoch": 77.63,
      "grad_norm": 9.135781288146973,
      "learning_rate": 4.473197781885398e-06,
      "loss": 0.9218,
      "step": 42000
    },
    {
      "epoch": 78.0,
      "eval_accuracy": 0.7941787941787942,
      "eval_loss": 0.6986111998558044,
      "eval_runtime": 1.9688,
      "eval_samples_per_second": 244.309,
      "eval_steps_per_second": 30.983,
      "step": 42198
    },
    {
      "epoch": 78.56,
      "grad_norm": 17.338001251220703,
      "learning_rate": 4.288354898336414e-06,
      "loss": 0.8621,
      "step": 42500
    },
    {
      "epoch": 79.0,
      "eval_accuracy": 0.8004158004158004,
      "eval_loss": 0.6909247040748596,
      "eval_runtime": 1.997,
      "eval_samples_per_second": 240.86,
      "eval_steps_per_second": 30.546,
      "step": 42739
    },
    {
      "epoch": 79.48,
      "grad_norm": 6.793923854827881,
      "learning_rate": 4.103512014787431e-06,
      "loss": 0.9236,
      "step": 43000
    },
    {
      "epoch": 80.0,
      "eval_accuracy": 0.7983367983367984,
      "eval_loss": 0.7135599851608276,
      "eval_runtime": 1.9949,
      "eval_samples_per_second": 241.121,
      "eval_steps_per_second": 30.579,
      "step": 43280
    },
    {
      "epoch": 80.41,
      "grad_norm": 3.9345781803131104,
      "learning_rate": 3.918669131238448e-06,
      "loss": 0.8667,
      "step": 43500
    },
    {
      "epoch": 81.0,
      "eval_accuracy": 0.8024948024948025,
      "eval_loss": 0.7008742094039917,
      "eval_runtime": 1.992,
      "eval_samples_per_second": 241.461,
      "eval_steps_per_second": 30.622,
      "step": 43821
    },
    {
      "epoch": 81.33,
      "grad_norm": 16.883420944213867,
      "learning_rate": 3.7338262476894642e-06,
      "loss": 0.8856,
      "step": 44000
    },
    {
      "epoch": 82.0,
      "eval_accuracy": 0.7920997920997921,
      "eval_loss": 0.7127683162689209,
      "eval_runtime": 2.0451,
      "eval_samples_per_second": 235.201,
      "eval_steps_per_second": 29.828,
      "step": 44362
    },
    {
      "epoch": 82.26,
      "grad_norm": 7.969069480895996,
      "learning_rate": 3.548983364140481e-06,
      "loss": 0.917,
      "step": 44500
    },
    {
      "epoch": 83.0,
      "eval_accuracy": 0.7983367983367984,
      "eval_loss": 0.7134777307510376,
      "eval_runtime": 2.0529,
      "eval_samples_per_second": 234.298,
      "eval_steps_per_second": 29.714,
      "step": 44903
    },
    {
      "epoch": 83.18,
      "grad_norm": 1.545163631439209,
      "learning_rate": 3.3641404805914975e-06,
      "loss": 0.8835,
      "step": 45000
    },
    {
      "epoch": 84.0,
      "eval_accuracy": 0.7900207900207901,
      "eval_loss": 0.7295302748680115,
      "eval_runtime": 1.9747,
      "eval_samples_per_second": 243.583,
      "eval_steps_per_second": 30.891,
      "step": 45444
    },
    {
      "epoch": 84.1,
      "grad_norm": 5.072544097900391,
      "learning_rate": 3.1792975970425146e-06,
      "loss": 0.8879,
      "step": 45500
    },
    {
      "epoch": 85.0,
      "eval_accuracy": 0.7900207900207901,
      "eval_loss": 0.7449509501457214,
      "eval_runtime": 2.0759,
      "eval_samples_per_second": 231.71,
      "eval_steps_per_second": 29.385,
      "step": 45985
    },
    {
      "epoch": 85.03,
      "grad_norm": 5.645694732666016,
      "learning_rate": 2.9944547134935308e-06,
      "loss": 0.9114,
      "step": 46000
    },
    {
      "epoch": 85.95,
      "grad_norm": 5.065194129943848,
      "learning_rate": 2.8096118299445474e-06,
      "loss": 0.8764,
      "step": 46500
    },
    {
      "epoch": 86.0,
      "eval_accuracy": 0.7941787941787942,
      "eval_loss": 0.7362204194068909,
      "eval_runtime": 1.9869,
      "eval_samples_per_second": 242.081,
      "eval_steps_per_second": 30.7,
      "step": 46526
    },
    {
      "epoch": 86.88,
      "grad_norm": 5.654088020324707,
      "learning_rate": 2.624768946395564e-06,
      "loss": 0.8674,
      "step": 47000
    },
    {
      "epoch": 87.0,
      "eval_accuracy": 0.7941787941787942,
      "eval_loss": 0.7232093811035156,
      "eval_runtime": 2.0232,
      "eval_samples_per_second": 237.746,
      "eval_steps_per_second": 30.151,
      "step": 47067
    },
    {
      "epoch": 87.8,
      "grad_norm": 12.72859001159668,
      "learning_rate": 2.4399260628465807e-06,
      "loss": 0.8583,
      "step": 47500
    },
    {
      "epoch": 88.0,
      "eval_accuracy": 0.7941787941787942,
      "eval_loss": 0.7407870888710022,
      "eval_runtime": 1.9934,
      "eval_samples_per_second": 241.296,
      "eval_steps_per_second": 30.601,
      "step": 47608
    },
    {
      "epoch": 88.72,
      "grad_norm": 6.526777744293213,
      "learning_rate": 2.2550831792975973e-06,
      "loss": 0.881,
      "step": 48000
    },
    {
      "epoch": 89.0,
      "eval_accuracy": 0.8004158004158004,
      "eval_loss": 0.7377821803092957,
      "eval_runtime": 1.9802,
      "eval_samples_per_second": 242.901,
      "eval_steps_per_second": 30.804,
      "step": 48149
    },
    {
      "epoch": 89.65,
      "grad_norm": 8.497318267822266,
      "learning_rate": 2.070240295748614e-06,
      "loss": 0.8668,
      "step": 48500
    },
    {
      "epoch": 90.0,
      "eval_accuracy": 0.7900207900207901,
      "eval_loss": 0.7473007440567017,
      "eval_runtime": 2.0137,
      "eval_samples_per_second": 238.867,
      "eval_steps_per_second": 30.293,
      "step": 48690
    },
    {
      "epoch": 90.57,
      "grad_norm": 6.455136775970459,
      "learning_rate": 1.8853974121996305e-06,
      "loss": 0.8779,
      "step": 49000
    },
    {
      "epoch": 91.0,
      "eval_accuracy": 0.7983367983367984,
      "eval_loss": 0.7438368201255798,
      "eval_runtime": 1.9731,
      "eval_samples_per_second": 243.774,
      "eval_steps_per_second": 30.915,
      "step": 49231
    },
    {
      "epoch": 91.5,
      "grad_norm": 5.713993072509766,
      "learning_rate": 1.700554528650647e-06,
      "loss": 0.8717,
      "step": 49500
    },
    {
      "epoch": 92.0,
      "eval_accuracy": 0.8004158004158004,
      "eval_loss": 0.7389739751815796,
      "eval_runtime": 1.9686,
      "eval_samples_per_second": 244.34,
      "eval_steps_per_second": 30.987,
      "step": 49772
    },
    {
      "epoch": 92.42,
      "grad_norm": 5.342690467834473,
      "learning_rate": 1.5157116451016638e-06,
      "loss": 0.8781,
      "step": 50000
    },
    {
      "epoch": 93.0,
      "eval_accuracy": 0.7983367983367984,
      "eval_loss": 0.7473535537719727,
      "eval_runtime": 1.98,
      "eval_samples_per_second": 242.926,
      "eval_steps_per_second": 30.808,
      "step": 50313
    },
    {
      "epoch": 93.35,
      "grad_norm": 9.870634078979492,
      "learning_rate": 1.3308687615526802e-06,
      "loss": 0.8845,
      "step": 50500
    },
    {
      "epoch": 94.0,
      "eval_accuracy": 0.7900207900207901,
      "eval_loss": 0.7445840835571289,
      "eval_runtime": 1.9776,
      "eval_samples_per_second": 243.222,
      "eval_steps_per_second": 30.845,
      "step": 50854
    },
    {
      "epoch": 94.27,
      "grad_norm": 8.909347534179688,
      "learning_rate": 1.1460258780036969e-06,
      "loss": 0.8623,
      "step": 51000
    },
    {
      "epoch": 95.0,
      "eval_accuracy": 0.7920997920997921,
      "eval_loss": 0.7315581440925598,
      "eval_runtime": 1.9728,
      "eval_samples_per_second": 243.814,
      "eval_steps_per_second": 30.92,
      "step": 51395
    },
    {
      "epoch": 95.19,
      "grad_norm": 10.748625755310059,
      "learning_rate": 9.611829944547135e-07,
      "loss": 0.8341,
      "step": 51500
    },
    {
      "epoch": 96.0,
      "eval_accuracy": 0.7879417879417879,
      "eval_loss": 0.7457364201545715,
      "eval_runtime": 2.0017,
      "eval_samples_per_second": 240.29,
      "eval_steps_per_second": 30.473,
      "step": 51936
    },
    {
      "epoch": 96.12,
      "grad_norm": 3.179774761199951,
      "learning_rate": 7.763401109057302e-07,
      "loss": 0.8766,
      "step": 52000
    },
    {
      "epoch": 97.0,
      "eval_accuracy": 0.7920997920997921,
      "eval_loss": 0.743617832660675,
      "eval_runtime": 1.999,
      "eval_samples_per_second": 240.625,
      "eval_steps_per_second": 30.516,
      "step": 52477
    },
    {
      "epoch": 97.04,
      "grad_norm": 12.243720054626465,
      "learning_rate": 5.914972273567468e-07,
      "loss": 0.8101,
      "step": 52500
    },
    {
      "epoch": 97.97,
      "grad_norm": 18.670886993408203,
      "learning_rate": 4.066543438077634e-07,
      "loss": 0.8681,
      "step": 53000
    },
    {
      "epoch": 98.0,
      "eval_accuracy": 0.7900207900207901,
      "eval_loss": 0.7483807802200317,
      "eval_runtime": 2.0039,
      "eval_samples_per_second": 240.035,
      "eval_steps_per_second": 30.441,
      "step": 53018
    },
    {
      "epoch": 98.89,
      "grad_norm": 8.483085632324219,
      "learning_rate": 2.2181146025878005e-07,
      "loss": 0.8635,
      "step": 53500
    },
    {
      "epoch": 99.0,
      "eval_accuracy": 0.7941787941787942,
      "eval_loss": 0.7391884922981262,
      "eval_runtime": 1.9875,
      "eval_samples_per_second": 242.013,
      "eval_steps_per_second": 30.692,
      "step": 53559
    },
    {
      "epoch": 99.82,
      "grad_norm": 10.068202018737793,
      "learning_rate": 3.696857670979668e-08,
      "loss": 0.8091,
      "step": 54000
    },
    {
      "epoch": 100.0,
      "eval_accuracy": 0.7920997920997921,
      "eval_loss": 0.7390549182891846,
      "eval_runtime": 2.0448,
      "eval_samples_per_second": 235.228,
      "eval_steps_per_second": 29.831,
      "step": 54100
    },
    {
      "epoch": 100.0,
      "step": 54100,
      "total_flos": 3.355193271048192e+19,
      "train_loss": 1.2517024893769495,
      "train_runtime": 5380.7558,
      "train_samples_per_second": 80.379,
      "train_steps_per_second": 10.054
    }
  ],
  "logging_steps": 500,
  "max_steps": 54100,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 100,
  "save_steps": 500,
  "total_flos": 3.355193271048192e+19,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}