{
  "best_metric": NaN,
  "best_model_checkpoint": "add_bert_12_layer_model_complete_training_new/checkpoint-10000",
  "epoch": 1.5293301581753038,
  "global_step": 140001,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.01,
      "learning_rate": 2.5e-05,
      "loss": 8.2896,
      "step": 500
    },
    {
      "epoch": 0.01,
      "learning_rate": 5e-05,
      "loss": 6.8372,
      "step": 1000
    },
    {
      "epoch": 0.02,
      "learning_rate": 7.5e-05,
      "loss": 6.683,
      "step": 1500
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0001,
      "loss": 6.5955,
      "step": 2000
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.000125,
      "loss": 6.5373,
      "step": 2500
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00015,
      "loss": 6.4804,
      "step": 3000
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.000175,
      "loss": 6.4463,
      "step": 3500
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0002,
      "loss": 6.408,
      "step": 4000
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.00022500000000000002,
      "loss": 6.3827,
      "step": 4500
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.00025,
      "loss": 6.3731,
      "step": 5000
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.000275,
      "loss": 6.3479,
      "step": 5500
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0003,
      "loss": 6.3401,
      "step": 6000
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0003239,
      "loss": 7.0795,
      "step": 6500
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.00034155000000000003,
      "loss": 10.0665,
      "step": 7000
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.00036655,
      "loss": 0.0,
      "step": 7500
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.00039155,
      "loss": 0.0,
      "step": 8000
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.00041654999999999996,
      "loss": 0.0,
      "step": 8500
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.00044155,
      "loss": 0.0,
      "step": 9000
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.00046655000000000004,
      "loss": 0.0,
      "step": 9500
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.00049155,
      "loss": 0.0,
      "step": 10000
    },
    {
      "epoch": 0.11,
      "eval_accuracy": 3.0592783198016594e-05,
      "eval_loss": NaN,
      "eval_runtime": 1245.7969,
      "eval_samples_per_second": 247.517,
      "eval_steps_per_second": 3.868,
      "step": 10000
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0004996303493254713,
      "loss": 0.0,
      "step": 10500
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.0004990719646207451,
      "loss": 0.0,
      "step": 11000
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.000498513579916019,
      "loss": 0.0,
      "step": 11500
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.0004979551952112928,
      "loss": 0.0,
      "step": 12000
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.0004973968105065666,
      "loss": 0.0,
      "step": 12500
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.0004968384258018405,
      "loss": 0.0,
      "step": 13000
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.0004962800410971143,
      "loss": 0.0,
      "step": 13500
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.0004957216563923881,
      "loss": 0.0,
      "step": 14000
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.0004951632716876619,
      "loss": 0.0,
      "step": 14500
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.0004946048869829357,
      "loss": 0.0,
      "step": 15000
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.0004940465022782096,
      "loss": 0.0,
      "step": 15500
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.0004934881175734834,
      "loss": 0.0,
      "step": 16000
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.0004929297328687572,
      "loss": 0.0,
      "step": 16500
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.0004923713481640312,
      "loss": 0.0,
      "step": 17000
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.000491812963459305,
      "loss": 0.0,
      "step": 17500
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.0004912545787545788,
      "loss": 0.0,
      "step": 18000
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.0004906961940498526,
      "loss": 0.0,
      "step": 18500
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.0004901378093451264,
      "loss": 0.0,
      "step": 19000
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.0004895794246404003,
      "loss": 0.0,
      "step": 19500
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.0004890210399356741,
      "loss": 0.0,
      "step": 20000
    },
    {
      "epoch": 0.22,
      "eval_accuracy": 3.5159707526351004e-05,
      "eval_loss": NaN,
      "eval_runtime": 1244.1268,
      "eval_samples_per_second": 247.849,
      "eval_steps_per_second": 3.873,
      "step": 20000
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.0004884626552309479,
      "loss": 0.0,
      "step": 20500
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.00048790427052622175,
      "loss": 0.0,
      "step": 21000
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.00048734588582149556,
      "loss": 0.0,
      "step": 21500
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.0004867875011167694,
      "loss": 0.0,
      "step": 22000
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.0004862291164120433,
      "loss": 0.0,
      "step": 22500
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.0004856707317073171,
      "loss": 0.0,
      "step": 23000
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.00048511234700259094,
      "loss": 0.0,
      "step": 23500
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.00048455396229786475,
      "loss": 0.0,
      "step": 24000
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.00048399557759313855,
      "loss": 0.0,
      "step": 24500
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.0004834371928884124,
      "loss": 0.0,
      "step": 25000
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.0004828788081836862,
      "loss": 0.0,
      "step": 25500
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.0004823204234789601,
      "loss": 0.0,
      "step": 26000
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.00048176203877423393,
      "loss": 0.0,
      "step": 26500
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.00048120365406950774,
      "loss": 0.0,
      "step": 27000
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.0004806452693647816,
      "loss": 0.0,
      "step": 27500
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.0004800868846600554,
      "loss": 0.0,
      "step": 28000
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.0004795284999553292,
      "loss": 0.0,
      "step": 28500
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.00047897011525060306,
      "loss": 0.0,
      "step": 29000
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.00047841173054587687,
      "loss": 0.0,
      "step": 29500
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.0004778533458411508,
      "loss": 0.0,
      "step": 30000
    },
    {
      "epoch": 0.33,
      "eval_accuracy": 3.357992413338889e-05,
      "eval_loss": NaN,
      "eval_runtime": 1245.2057,
      "eval_samples_per_second": 247.635,
      "eval_steps_per_second": 3.87,
      "step": 30000
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.0004772949611364246,
      "loss": 0.0,
      "step": 30500
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.0004767365764316984,
      "loss": 0.0,
      "step": 31000
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.00047617819172697225,
      "loss": 0.0,
      "step": 31500
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.00047561980702224606,
      "loss": 0.0,
      "step": 32000
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.00047506142231751986,
      "loss": 0.0,
      "step": 32500
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.0004745030376127937,
      "loss": 0.0,
      "step": 33000
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.0004739446529080675,
      "loss": 0.0,
      "step": 33500
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.0004733862682033414,
      "loss": 0.0,
      "step": 34000
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.00047282788349861524,
      "loss": 0.0,
      "step": 34500
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.00047226949879388905,
      "loss": 0.0,
      "step": 35000
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.0004717111140891629,
      "loss": 0.0,
      "step": 35500
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.0004711527293844367,
      "loss": 0.0,
      "step": 36000
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.0004705943446797105,
      "loss": 0.0,
      "step": 36500
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.0004700359599749844,
      "loss": 0.0,
      "step": 37000
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.0004694775752702582,
      "loss": 0.0,
      "step": 37500
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.00046891919056553204,
      "loss": 0.0,
      "step": 38000
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.0004683608058608059,
      "loss": 0.0,
      "step": 38500
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.0004678024211560797,
      "loss": 0.0,
      "step": 39000
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.00046724403645135356,
      "loss": 0.0,
      "step": 39500
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.00046668565174662736,
      "loss": 0.0,
      "step": 40000
    },
    {
      "epoch": 0.44,
      "eval_accuracy": 3.1386399970587474e-05,
      "eval_loss": NaN,
      "eval_runtime": 1244.2525,
      "eval_samples_per_second": 247.824,
      "eval_steps_per_second": 3.873,
      "step": 40000
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.00046612726704190117,
      "loss": 0.0,
      "step": 40500
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.00046556888233717503,
      "loss": 0.0,
      "step": 41000
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.00046501049763244883,
      "loss": 0.0,
      "step": 41500
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.0004644521129277227,
      "loss": 0.0,
      "step": 42000
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.00046389372822299655,
      "loss": 0.0,
      "step": 42500
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.00046333534351827036,
      "loss": 0.0,
      "step": 43000
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.0004627769588135442,
      "loss": 0.0,
      "step": 43500
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.000462218574108818,
      "loss": 0.0,
      "step": 44000
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.0004616601894040919,
      "loss": 0.0,
      "step": 44500
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.0004611018046993657,
      "loss": 0.0,
      "step": 45000
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.0004605434199946395,
      "loss": 0.0,
      "step": 45500
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.00045998503528991335,
      "loss": 0.0,
      "step": 46000
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.00045942665058518715,
      "loss": 0.0,
      "step": 46500
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.000458868265880461,
      "loss": 0.0,
      "step": 47000
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.00045830988117573487,
      "loss": 0.0,
      "step": 47500
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.0004577514964710087,
      "loss": 0.0,
      "step": 48000
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.00045719311176628253,
      "loss": 0.0,
      "step": 48500
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.00045663472706155634,
      "loss": 0.0,
      "step": 49000
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.00045607634235683014,
      "loss": 0.0,
      "step": 49500
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.000455517957652104,
      "loss": 0.0,
      "step": 50000
    },
    {
      "epoch": 0.55,
      "eval_accuracy": 2.9965971727327976e-05,
      "eval_loss": NaN,
      "eval_runtime": 1242.0864,
      "eval_samples_per_second": 248.256,
      "eval_steps_per_second": 3.88,
      "step": 50000
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.0004549595729473778,
      "loss": 0.0,
      "step": 50500
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.00045440118824265167,
      "loss": 0.0,
      "step": 51000
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.0004538428035379255,
      "loss": 0.0,
      "step": 51500
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.00045328441883319933,
      "loss": 0.0,
      "step": 52000
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.0004527260341284732,
      "loss": 0.0,
      "step": 52500
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.000452167649423747,
      "loss": 0.0,
      "step": 53000
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.0004516092647190208,
      "loss": 0.0,
      "step": 53500
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.00045105088001429466,
      "loss": 0.0,
      "step": 54000
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.00045049249530956846,
      "loss": 0.0,
      "step": 54500
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.0004499341106048423,
      "loss": 0.0,
      "step": 55000
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.0004493757259001162,
      "loss": 0.0,
      "step": 55500
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.00044881734119539,
      "loss": 0.0,
      "step": 56000
    },
    {
      "epoch": 0.62,
      "learning_rate": 0.00044825895649066384,
      "loss": 0.0,
      "step": 56500
    },
    {
      "epoch": 0.62,
      "learning_rate": 0.00044770057178593765,
      "loss": 0.0,
      "step": 57000
    },
    {
      "epoch": 0.63,
      "learning_rate": 0.00044714218708121145,
      "loss": 0.0,
      "step": 57500
    },
    {
      "epoch": 0.63,
      "learning_rate": 0.0004465838023764853,
      "loss": 0.0,
      "step": 58000
    },
    {
      "epoch": 0.64,
      "learning_rate": 0.0004460254176717591,
      "loss": 0.0,
      "step": 58500
    },
    {
      "epoch": 0.64,
      "learning_rate": 0.00044546703296703303,
      "loss": 0.0,
      "step": 59000
    },
    {
      "epoch": 0.65,
      "learning_rate": 0.00044490864826230683,
      "loss": 0.0,
      "step": 59500
    },
    {
      "epoch": 0.66,
      "learning_rate": 0.00044435026355758064,
      "loss": 0.0,
      "step": 60000
    },
    {
      "epoch": 0.66,
      "eval_accuracy": 3.177880317382685e-05,
      "eval_loss": NaN,
      "eval_runtime": 1238.4379,
      "eval_samples_per_second": 248.988,
      "eval_steps_per_second": 3.891,
      "step": 60000
    },
    {
      "epoch": 0.66,
      "learning_rate": 0.0004437918788528545,
      "loss": 0.0,
      "step": 60500
    },
    {
      "epoch": 0.67,
      "learning_rate": 0.0004432334941481283,
      "loss": 0.0,
      "step": 61000
    },
    {
      "epoch": 0.67,
      "learning_rate": 0.0004426751094434021,
      "loss": 0.0,
      "step": 61500
    },
    {
      "epoch": 0.68,
      "learning_rate": 0.00044211672473867597,
      "loss": 0.0,
      "step": 62000
    },
    {
      "epoch": 0.68,
      "learning_rate": 0.00044155834003394977,
      "loss": 0.0,
      "step": 62500
    },
    {
      "epoch": 0.69,
      "learning_rate": 0.00044099995532922363,
      "loss": 0.0,
      "step": 63000
    },
    {
      "epoch": 0.69,
      "learning_rate": 0.0004404415706244975,
      "loss": 0.0,
      "step": 63500
    },
    {
      "epoch": 0.7,
      "learning_rate": 0.0004398831859197713,
      "loss": 0.0,
      "step": 64000
    },
    {
      "epoch": 0.7,
      "learning_rate": 0.00043932480121504515,
      "loss": 0.0,
      "step": 64500
    },
    {
      "epoch": 0.71,
      "learning_rate": 0.00043876641651031896,
      "loss": 0.0,
      "step": 65000
    },
    {
      "epoch": 0.72,
      "learning_rate": 0.00043820803180559276,
      "loss": 0.0,
      "step": 65500
    },
    {
      "epoch": 0.72,
      "learning_rate": 0.0004376496471008666,
      "loss": 0.0,
      "step": 66000
    },
    {
      "epoch": 0.73,
      "learning_rate": 0.0004370912623961404,
      "loss": 0.0,
      "step": 66500
    },
    {
      "epoch": 0.73,
      "learning_rate": 0.0004365328776914143,
      "loss": 0.0,
      "step": 67000
    },
    {
      "epoch": 0.74,
      "learning_rate": 0.00043597449298668814,
      "loss": 0.0,
      "step": 67500
    },
    {
      "epoch": 0.74,
      "learning_rate": 0.00043541610828196195,
      "loss": 0.0,
      "step": 68000
    },
    {
      "epoch": 0.75,
      "learning_rate": 0.0004348577235772358,
      "loss": 0.0,
      "step": 68500
    },
    {
      "epoch": 0.75,
      "learning_rate": 0.0004342993388725096,
      "loss": 0.0,
      "step": 69000
    },
    {
      "epoch": 0.76,
      "learning_rate": 0.0004337409541677834,
      "loss": 0.0,
      "step": 69500
    },
    {
      "epoch": 0.76,
      "learning_rate": 0.0004331825694630573,
      "loss": 0.0,
      "step": 70000
    },
    {
      "epoch": 0.76,
      "eval_accuracy": 3.253472148144988e-05,
      "eval_loss": NaN,
      "eval_runtime": 1240.7983,
      "eval_samples_per_second": 248.514,
      "eval_steps_per_second": 3.884,
      "step": 70000
    },
    {
      "epoch": 0.77,
      "learning_rate": 0.0004326241847583311,
      "loss": 0.0,
      "step": 70500
    },
    {
      "epoch": 0.78,
      "learning_rate": 0.00043206580005360494,
      "loss": 0.0,
      "step": 71000
    },
    {
      "epoch": 0.78,
      "learning_rate": 0.0004315074153488788,
      "loss": 0.0,
      "step": 71500
    },
    {
      "epoch": 0.79,
      "learning_rate": 0.0004309490306441526,
      "loss": 0.0,
      "step": 72000
    },
    {
      "epoch": 0.79,
      "learning_rate": 0.00043039064593942646,
      "loss": 0.0,
      "step": 72500
    },
    {
      "epoch": 0.8,
      "learning_rate": 0.00042983226123470027,
      "loss": 0.0,
      "step": 73000
    },
    {
      "epoch": 0.8,
      "learning_rate": 0.00042927387652997407,
      "loss": 0.0,
      "step": 73500
    },
    {
      "epoch": 0.81,
      "learning_rate": 0.00042871549182524793,
      "loss": 0.0,
      "step": 74000
    },
    {
      "epoch": 0.81,
      "learning_rate": 0.00042815710712052174,
      "loss": 0.0,
      "step": 74500
    },
    {
      "epoch": 0.82,
      "learning_rate": 0.0004275987224157956,
      "loss": 0.0,
      "step": 75000
    },
    {
      "epoch": 0.82,
      "learning_rate": 0.0004270403377110694,
      "loss": 0.0,
      "step": 75500
    },
    {
      "epoch": 0.83,
      "learning_rate": 0.00042648195300634326,
      "loss": 0.0,
      "step": 76000
    },
    {
      "epoch": 0.84,
      "learning_rate": 0.0004259235683016171,
      "loss": 0.0,
      "step": 76500
    },
    {
      "epoch": 0.84,
      "learning_rate": 0.0004253651835968909,
      "loss": 0.0,
      "step": 77000
    },
    {
      "epoch": 0.85,
      "learning_rate": 0.0004248067988921648,
      "loss": 0.0,
      "step": 77500
    },
    {
      "epoch": 0.85,
      "learning_rate": 0.0004242484141874386,
      "loss": 0.0,
      "step": 78000
    },
    {
      "epoch": 0.86,
      "learning_rate": 0.0004236900294827124,
      "loss": 0.0,
      "step": 78500
    },
    {
      "epoch": 0.86,
      "learning_rate": 0.00042313164477798625,
      "loss": 0.0,
      "step": 79000
    },
    {
      "epoch": 0.87,
      "learning_rate": 0.00042257326007326005,
      "loss": 0.0,
      "step": 79500
    },
    {
      "epoch": 0.87,
      "learning_rate": 0.0004220148753685339,
      "loss": 0.0,
      "step": 80000
    },
    {
      "epoch": 0.87,
      "eval_accuracy": 2.7615362733125802e-05,
      "eval_loss": NaN,
      "eval_runtime": 1242.4281,
      "eval_samples_per_second": 248.188,
      "eval_steps_per_second": 3.879,
      "step": 80000
    },
    {
      "epoch": 0.88,
      "learning_rate": 0.00042145649066380777,
      "loss": 0.0,
      "step": 80500
    },
    {
      "epoch": 0.88,
      "learning_rate": 0.0004208981059590816,
      "loss": 0.0,
      "step": 81000
    },
    {
      "epoch": 0.89,
      "learning_rate": 0.00042033972125435544,
      "loss": 0.0,
      "step": 81500
    },
    {
      "epoch": 0.9,
      "learning_rate": 0.00041978133654962924,
      "loss": 0.0,
      "step": 82000
    },
    {
      "epoch": 0.9,
      "learning_rate": 0.00041922295184490305,
      "loss": 0.0,
      "step": 82500
    },
    {
      "epoch": 0.91,
      "learning_rate": 0.0004186645671401769,
      "loss": 0.0,
      "step": 83000
    },
    {
      "epoch": 0.91,
      "learning_rate": 0.0004181061824354507,
      "loss": 0.0,
      "step": 83500
    },
    {
      "epoch": 0.92,
      "learning_rate": 0.00041754779773072457,
      "loss": 0.0,
      "step": 84000
    },
    {
      "epoch": 0.92,
      "learning_rate": 0.00041698941302599843,
      "loss": 0.0,
      "step": 84500
    },
    {
      "epoch": 0.93,
      "learning_rate": 0.00041643102832127223,
      "loss": 0.0,
      "step": 85000
    },
    {
      "epoch": 0.93,
      "learning_rate": 0.0004158726436165461,
      "loss": 0.0,
      "step": 85500
    },
    {
      "epoch": 0.94,
      "learning_rate": 0.0004153142589118199,
      "loss": 0.0,
      "step": 86000
    },
    {
      "epoch": 0.94,
      "learning_rate": 0.0004147558742070937,
      "loss": 0.0,
      "step": 86500
    },
    {
      "epoch": 0.95,
      "learning_rate": 0.00041419748950236756,
      "loss": 0.0,
      "step": 87000
    },
    {
      "epoch": 0.96,
      "learning_rate": 0.00041363910479764136,
      "loss": 0.0,
      "step": 87500
    },
    {
      "epoch": 0.96,
      "learning_rate": 0.0004130807200929152,
      "loss": 0.0,
      "step": 88000
    },
    {
      "epoch": 0.97,
      "learning_rate": 0.0004125223353881891,
      "loss": 0.0,
      "step": 88500
    },
    {
      "epoch": 0.97,
      "learning_rate": 0.0004119639506834629,
      "loss": 0.0,
      "step": 89000
    },
    {
      "epoch": 0.98,
      "learning_rate": 0.00041140556597873675,
      "loss": 0.0,
      "step": 89500
    },
    {
      "epoch": 0.98,
      "learning_rate": 0.00041084718127401055,
      "loss": 0.0,
      "step": 90000
    },
    {
      "epoch": 0.98,
      "eval_accuracy": 2.9214303322906894e-05,
      "eval_loss": NaN,
      "eval_runtime": 1238.8828,
      "eval_samples_per_second": 248.898,
      "eval_steps_per_second": 3.89,
      "step": 90000
    },
    {
      "epoch": 0.99,
      "learning_rate": 0.00041028879656928436,
      "loss": 0.0,
      "step": 90500
    },
    {
      "epoch": 0.99,
      "learning_rate": 0.0004097304118645582,
      "loss": 0.0,
      "step": 91000
    },
    {
      "epoch": 1.0,
      "learning_rate": 0.000409172027159832,
      "loss": 0.0,
      "step": 91500
    },
    {
      "epoch": 1.0,
      "learning_rate": 0.0004086136424551059,
      "loss": 0.0,
      "step": 92000
    },
    {
      "epoch": 1.01,
      "learning_rate": 0.00040805525775037974,
      "loss": 0.0,
      "step": 92500
    },
    {
      "epoch": 1.02,
      "learning_rate": 0.00040749687304565354,
      "loss": 0.0,
      "step": 93000
    },
    {
      "epoch": 1.02,
      "learning_rate": 0.0004069384883409274,
      "loss": 0.0,
      "step": 93500
    },
    {
      "epoch": 1.03,
      "learning_rate": 0.0004063801036362012,
      "loss": 0.0,
      "step": 94000
    },
    {
      "epoch": 1.03,
      "learning_rate": 0.000405821718931475,
      "loss": 0.0,
      "step": 94500
    },
    {
      "epoch": 1.04,
      "learning_rate": 0.00040526333422674887,
      "loss": 0.0,
      "step": 95000
    },
    {
      "epoch": 1.04,
      "learning_rate": 0.0004047049495220227,
      "loss": 0.0,
      "step": 95500
    },
    {
      "epoch": 1.05,
      "learning_rate": 0.00040414656481729653,
      "loss": 0.0,
      "step": 96000
    },
    {
      "epoch": 1.05,
      "learning_rate": 0.0004035881801125704,
      "loss": 0.0,
      "step": 96500
    },
    {
      "epoch": 1.06,
      "learning_rate": 0.0004030297954078442,
      "loss": 0.0,
      "step": 97000
    },
    {
      "epoch": 1.07,
      "learning_rate": 0.00040247141070311806,
      "loss": 0.0,
      "step": 97500
    },
    {
      "epoch": 1.07,
      "learning_rate": 0.00040191302599839186,
      "loss": 0.0,
      "step": 98000
    },
    {
      "epoch": 1.08,
      "learning_rate": 0.00040135464129366567,
      "loss": 0.0,
      "step": 98500
    },
    {
      "epoch": 1.08,
      "learning_rate": 0.0004007962565889395,
      "loss": 0.0,
      "step": 99000
    },
    {
      "epoch": 1.09,
      "learning_rate": 0.00040023787188421333,
      "loss": 0.0,
      "step": 99500
    },
    {
      "epoch": 1.09,
      "learning_rate": 0.0003996794871794872,
      "loss": 0.0,
      "step": 100000
    },
    {
      "epoch": 1.09,
      "eval_accuracy": 3.071726548590269e-05,
      "eval_loss": NaN,
      "eval_runtime": 1240.4665,
      "eval_samples_per_second": 248.581,
      "eval_steps_per_second": 3.885,
      "step": 100000
    },
    {
      "epoch": 1.1,
      "learning_rate": 0.00039912110247476105,
      "loss": 0.0,
      "step": 100500
    },
    {
      "epoch": 1.1,
      "learning_rate": 0.00039856271777003485,
      "loss": 0.0,
      "step": 101000
    },
    {
      "epoch": 1.11,
      "learning_rate": 0.0003980043330653087,
      "loss": 0.0,
      "step": 101500
    },
    {
      "epoch": 1.11,
      "learning_rate": 0.0003974459483605825,
      "loss": 0.0,
      "step": 102000
    },
    {
      "epoch": 1.12,
      "learning_rate": 0.0003968875636558563,
      "loss": 0.0,
      "step": 102500
    },
    {
      "epoch": 1.13,
      "learning_rate": 0.0003963291789511302,
      "loss": 0.0,
      "step": 103000
    },
    {
      "epoch": 1.13,
      "learning_rate": 0.000395770794246404,
      "loss": 0.0,
      "step": 103500
    },
    {
      "epoch": 1.14,
      "learning_rate": 0.00039521240954167784,
      "loss": 0.0,
      "step": 104000
    },
    {
      "epoch": 1.14,
      "learning_rate": 0.0003946540248369517,
      "loss": 0.0,
      "step": 104500
    },
    {
      "epoch": 1.15,
      "learning_rate": 0.0003940956401322255,
      "loss": 0.0,
      "step": 105000
    },
    {
      "epoch": 1.15,
      "learning_rate": 0.00039353725542749937,
      "loss": 0.0,
      "step": 105500
    },
    {
      "epoch": 1.16,
      "learning_rate": 0.00039297887072277317,
      "loss": 0.0,
      "step": 106000
    },
    {
      "epoch": 1.16,
      "learning_rate": 0.00039242048601804703,
      "loss": 0.0,
      "step": 106500
    },
    {
      "epoch": 1.17,
      "learning_rate": 0.00039186210131332083,
      "loss": 0.0,
      "step": 107000
    },
    {
      "epoch": 1.17,
      "learning_rate": 0.00039130371660859464,
      "loss": 0.0,
      "step": 107500
    },
    {
      "epoch": 1.18,
      "learning_rate": 0.0003907453319038685,
      "loss": 0.0,
      "step": 108000
    },
    {
      "epoch": 1.19,
      "learning_rate": 0.0003901869471991423,
      "loss": 0.0,
      "step": 108500
    },
    {
      "epoch": 1.19,
      "learning_rate": 0.00038962856249441616,
      "loss": 0.0,
      "step": 109000
    },
    {
      "epoch": 1.2,
      "learning_rate": 0.00038907017778969,
      "loss": 0.0,
      "step": 109500
    },
    {
      "epoch": 1.2,
      "learning_rate": 0.0003885117930849638,
      "loss": 0.0,
      "step": 110000
    },
    {
      "epoch": 1.2,
      "eval_accuracy": 3.188648588911819e-05,
      "eval_loss": NaN,
      "eval_runtime": 1241.2976,
      "eval_samples_per_second": 248.414,
      "eval_steps_per_second": 3.882,
      "step": 110000
    },
    {
      "epoch": 1.21,
      "learning_rate": 0.0003879534083802377,
      "loss": 0.0,
      "step": 110500
    },
    {
      "epoch": 1.21,
      "learning_rate": 0.0003873950236755115,
      "loss": 0.0,
      "step": 111000
    },
    {
      "epoch": 1.22,
      "learning_rate": 0.0003868366389707853,
      "loss": 0.0,
      "step": 111500
    },
    {
      "epoch": 1.22,
      "learning_rate": 0.00038627825426605915,
      "loss": 0.0,
      "step": 112000
    },
    {
      "epoch": 1.23,
      "learning_rate": 0.00038571986956133296,
      "loss": 0.0,
      "step": 112500
    },
    {
      "epoch": 1.23,
      "learning_rate": 0.0003851614848566068,
      "loss": 0.0,
      "step": 113000
    },
    {
      "epoch": 1.24,
      "learning_rate": 0.0003846031001518807,
      "loss": 0.0,
      "step": 113500
    },
    {
      "epoch": 1.25,
      "learning_rate": 0.0003840447154471545,
      "loss": 0.0,
      "step": 114000
    },
    {
      "epoch": 1.25,
      "learning_rate": 0.00038348633074242834,
      "loss": 0.0,
      "step": 114500
    },
    {
      "epoch": 1.26,
      "learning_rate": 0.00038292794603770214,
      "loss": 0.0,
      "step": 115000
    },
    {
      "epoch": 1.26,
      "learning_rate": 0.00038236956133297595,
      "loss": 0.0,
      "step": 115500
    },
    {
      "epoch": 1.27,
      "learning_rate": 0.0003818111766282498,
      "loss": 0.0,
      "step": 116000
    },
    {
      "epoch": 1.27,
      "learning_rate": 0.0003812527919235236,
      "loss": 0.0,
      "step": 116500
    },
    {
      "epoch": 1.28,
      "learning_rate": 0.00038069440721879747,
      "loss": 0.0,
      "step": 117000
    },
    {
      "epoch": 1.28,
      "learning_rate": 0.00038013602251407133,
      "loss": 0.0,
      "step": 117500
    },
    {
      "epoch": 1.29,
      "learning_rate": 0.00037957763780934514,
      "loss": 0.0,
      "step": 118000
    },
    {
      "epoch": 1.29,
      "learning_rate": 0.000379019253104619,
      "loss": 0.0,
      "step": 118500
    },
    {
      "epoch": 1.3,
      "learning_rate": 0.0003784608683998928,
      "loss": 0.0,
      "step": 119000
    },
    {
      "epoch": 1.31,
      "learning_rate": 0.0003779024836951666,
      "loss": 0.0,
      "step": 119500
    },
    {
      "epoch": 1.31,
      "learning_rate": 0.00037734409899044046,
      "loss": 0.0,
      "step": 120000
    },
    {
      "epoch": 1.31,
      "eval_accuracy": 2.9570698381633475e-05,
      "eval_loss": NaN,
      "eval_runtime": 1238.6519,
      "eval_samples_per_second": 248.945,
      "eval_steps_per_second": 3.891,
      "step": 120000
    },
    {
      "epoch": 1.32,
      "learning_rate": 0.00037678571428571427,
      "loss": 0.0,
      "step": 120500
    },
    {
      "epoch": 1.32,
      "learning_rate": 0.00037622732958098807,
      "loss": 0.0,
      "step": 121000
    },
    {
      "epoch": 1.33,
      "learning_rate": 0.000375668944876262,
      "loss": 0.0,
      "step": 121500
    },
    {
      "epoch": 1.33,
      "learning_rate": 0.0003751105601715358,
      "loss": 0.0,
      "step": 122000
    },
    {
      "epoch": 1.34,
      "learning_rate": 0.00037455217546680965,
      "loss": 0.0,
      "step": 122500
    },
    {
      "epoch": 1.34,
      "learning_rate": 0.00037399379076208345,
      "loss": 0.0,
      "step": 123000
    },
    {
      "epoch": 1.35,
      "learning_rate": 0.00037343540605735726,
      "loss": 0.0,
      "step": 123500
    },
    {
      "epoch": 1.35,
      "learning_rate": 0.0003728770213526311,
      "loss": 0.0,
      "step": 124000
    },
    {
      "epoch": 1.36,
      "learning_rate": 0.0003723186366479049,
      "loss": 0.0,
      "step": 124500
    },
    {
      "epoch": 1.37,
      "learning_rate": 0.0003717602519431788,
      "loss": 0.0,
      "step": 125000
    },
    {
      "epoch": 1.37,
      "learning_rate": 0.00037120186723845264,
      "loss": 0.0,
      "step": 125500
    },
    {
      "epoch": 1.38,
      "learning_rate": 0.00037064348253372644,
      "loss": 0.0,
      "step": 126000
    },
    {
      "epoch": 1.38,
      "learning_rate": 0.0003700850978290003,
      "loss": 0.0,
      "step": 126500
    },
    {
      "epoch": 1.39,
      "learning_rate": 0.0003695267131242741,
      "loss": 0.0,
      "step": 127000
    },
    {
      "epoch": 1.39,
      "learning_rate": 0.0003689683284195479,
      "loss": 0.0,
      "step": 127500
    },
    {
      "epoch": 1.4,
      "learning_rate": 0.00036840994371482177,
      "loss": 0.0,
      "step": 128000
    },
    {
      "epoch": 1.4,
      "learning_rate": 0.0003678515590100956,
      "loss": 0.0,
      "step": 128500
    },
    {
      "epoch": 1.41,
      "learning_rate": 0.00036729317430536944,
      "loss": 0.0,
      "step": 129000
    },
    {
      "epoch": 1.41,
      "learning_rate": 0.0003667347896006433,
      "loss": 0.0,
      "step": 129500
    },
    {
      "epoch": 1.42,
      "learning_rate": 0.0003661764048959171,
      "loss": 0.0,
      "step": 130000
    },
    {
      "epoch": 1.42,
      "eval_accuracy": 3.2269763129715425e-05,
      "eval_loss": NaN,
      "eval_runtime": 1246.6351,
      "eval_samples_per_second": 247.351,
      "eval_steps_per_second": 3.866,
      "step": 130000
    },
    {
      "epoch": 1.43,
      "learning_rate": 0.00036561802019119096,
      "loss": 0.0,
      "step": 130500
    },
    {
      "epoch": 1.43,
      "learning_rate": 0.00036505963548646476,
      "loss": 0.0,
      "step": 131000
    },
    {
      "epoch": 1.44,
      "learning_rate": 0.00036450125078173857,
      "loss": 0.0,
      "step": 131500
    },
    {
      "epoch": 1.44,
      "learning_rate": 0.0003639428660770124,
      "loss": 0.0,
      "step": 132000
    },
    {
      "epoch": 1.45,
      "learning_rate": 0.00036338448137228623,
      "loss": 0.0,
      "step": 132500
    },
    {
      "epoch": 1.45,
      "learning_rate": 0.0003628260966675601,
      "loss": 0.0,
      "step": 133000
    },
    {
      "epoch": 1.46,
      "learning_rate": 0.00036226771196283395,
      "loss": 0.0,
      "step": 133500
    },
    {
      "epoch": 1.46,
      "learning_rate": 0.00036170932725810775,
      "loss": 0.0,
      "step": 134000
    },
    {
      "epoch": 1.47,
      "learning_rate": 0.0003611509425533816,
      "loss": 0.0,
      "step": 134500
    },
    {
      "epoch": 1.47,
      "learning_rate": 0.0003605925578486554,
      "loss": 0.0,
      "step": 135000
    },
    {
      "epoch": 1.48,
      "learning_rate": 0.0003600341731439292,
      "loss": 0.0,
      "step": 135500
    },
    {
      "epoch": 1.49,
      "learning_rate": 0.0003594757884392031,
      "loss": 0.0,
      "step": 136000
    },
    {
      "epoch": 1.49,
      "learning_rate": 0.0003589174037344769,
      "loss": 0.0,
      "step": 136500
    },
    {
      "epoch": 1.5,
      "learning_rate": 0.00035835901902975075,
      "loss": 0.0,
      "step": 137000
    },
    {
      "epoch": 1.5,
      "learning_rate": 0.00035780063432502455,
      "loss": 0.0,
      "step": 137500
    },
    {
      "epoch": 1.51,
      "learning_rate": 0.0003572422496202984,
      "loss": 0.0,
      "step": 138000
    },
    {
      "epoch": 1.51,
      "learning_rate": 0.00035668386491557227,
      "loss": 0.0,
      "step": 138500
    },
    {
      "epoch": 1.52,
      "learning_rate": 0.0003561254802108461,
      "loss": 0.0,
      "step": 139000
    },
    {
      "epoch": 1.52,
      "learning_rate": 0.00035556709550611993,
      "loss": 0.0,
      "step": 139500
    },
    {
      "epoch": 1.53,
      "learning_rate": 0.00035500871080139374,
      "loss": 0.0,
      "step": 140000
    },
    {
      "epoch": 1.53,
      "eval_accuracy": 3.290421786718595e-05,
      "eval_loss": NaN,
      "eval_runtime": 1247.689,
      "eval_samples_per_second": 247.142,
      "eval_steps_per_second": 3.862,
      "step": 140000
    },
    {
      "epoch": 1.53,
      "step": 140001,
      "total_flos": 2.560247267189588e+18,
      "train_loss": 0.3459514281929236,
      "train_runtime": 108836.6872,
      "train_samples_per_second": 269.154,
      "train_steps_per_second": 4.206
    }
  ],
  "max_steps": 457720,
  "num_train_epochs": 5,
  "total_flos": 2.560247267189588e+18,
  "trial_name": null,
  "trial_params": null
}