{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 7.0,
  "global_step": 89859,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.04,
      "learning_rate": 0.0002983307181250626,
      "loss": 3.5314,
      "step": 500
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.00029666143625012515,
      "loss": 3.2698,
      "step": 1000
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.00029499215437518776,
      "loss": 3.1741,
      "step": 1500
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.0002933228725002504,
      "loss": 3.1591,
      "step": 2000
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.000291653590625313,
      "loss": 3.0795,
      "step": 2500
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.00028998430875037555,
      "loss": 3.0526,
      "step": 3000
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.00028831502687543816,
      "loss": 3.0228,
      "step": 3500
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.0002866457450005008,
      "loss": 2.9966,
      "step": 4000
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.0002849764631255634,
      "loss": 2.9799,
      "step": 4500
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.00028330718125062595,
      "loss": 2.9632,
      "step": 5000
    },
    {
      "epoch": 0.39,
      "eval_gen_len": 18.7655,
      "eval_loss": 2.559084892272949,
      "eval_rouge1": 25.8521,
      "eval_rouge2": 11.6024,
      "eval_rougeL": 21.0887,
      "eval_rougeLsum": 22.857,
      "eval_runtime": 625.5093,
      "eval_samples_per_second": 20.521,
      "eval_steps_per_second": 2.566,
      "step": 5000
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.00028163789937568856,
      "loss": 2.9402,
      "step": 5500
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.0002799686175007512,
      "loss": 2.9157,
      "step": 6000
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.00027829933562581373,
      "loss": 2.9143,
      "step": 6500
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.00027663005375087635,
      "loss": 2.8869,
      "step": 7000
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.0002749607718759389,
      "loss": 2.9195,
      "step": 7500
    },
    {
      "epoch": 0.62,
      "learning_rate": 0.0002732914900010015,
      "loss": 2.8558,
      "step": 8000
    },
    {
      "epoch": 0.66,
      "learning_rate": 0.00027162220812606414,
      "loss": 2.8594,
      "step": 8500
    },
    {
      "epoch": 0.7,
      "learning_rate": 0.00026995292625112675,
      "loss": 2.8485,
      "step": 9000
    },
    {
      "epoch": 0.74,
      "learning_rate": 0.0002682836443761893,
      "loss": 2.8491,
      "step": 9500
    },
    {
      "epoch": 0.78,
      "learning_rate": 0.0002666143625012519,
      "loss": 2.8327,
      "step": 10000
    },
    {
      "epoch": 0.78,
      "eval_gen_len": 18.8331,
      "eval_loss": 2.4890213012695312,
      "eval_rouge1": 26.508,
      "eval_rouge2": 12.2564,
      "eval_rougeL": 21.7467,
      "eval_rougeLsum": 23.5474,
      "eval_runtime": 624.7506,
      "eval_samples_per_second": 20.546,
      "eval_steps_per_second": 2.569,
      "step": 10000
    },
    {
      "epoch": 0.82,
      "learning_rate": 0.00026494508062631454,
      "loss": 2.8157,
      "step": 10500
    },
    {
      "epoch": 0.86,
      "learning_rate": 0.00026327579875137715,
      "loss": 2.8001,
      "step": 11000
    },
    {
      "epoch": 0.9,
      "learning_rate": 0.0002616065168764397,
      "loss": 2.84,
      "step": 11500
    },
    {
      "epoch": 0.93,
      "learning_rate": 0.0002599372350015023,
      "loss": 2.8051,
      "step": 12000
    },
    {
      "epoch": 0.97,
      "learning_rate": 0.00025826795312656494,
      "loss": 2.8138,
      "step": 12500
    },
    {
      "epoch": 1.01,
      "learning_rate": 0.00025659867125162755,
      "loss": 2.7677,
      "step": 13000
    },
    {
      "epoch": 1.05,
      "learning_rate": 0.0002549293893766901,
      "loss": 2.6905,
      "step": 13500
    },
    {
      "epoch": 1.09,
      "learning_rate": 0.0002532601075017527,
      "loss": 2.709,
      "step": 14000
    },
    {
      "epoch": 1.13,
      "learning_rate": 0.00025159082562681534,
      "loss": 2.7136,
      "step": 14500
    },
    {
      "epoch": 1.17,
      "learning_rate": 0.00024992154375187795,
      "loss": 2.6873,
      "step": 15000
    },
    {
      "epoch": 1.17,
      "eval_gen_len": 18.8424,
      "eval_loss": 2.4520416259765625,
      "eval_rouge1": 26.8614,
      "eval_rouge2": 12.7032,
      "eval_rougeL": 22.0965,
      "eval_rougeLsum": 23.832,
      "eval_runtime": 623.6597,
      "eval_samples_per_second": 20.582,
      "eval_steps_per_second": 2.574,
      "step": 15000
    },
    {
      "epoch": 1.21,
      "learning_rate": 0.0002482522618769405,
      "loss": 2.6962,
      "step": 15500
    },
    {
      "epoch": 1.25,
      "learning_rate": 0.0002465829800020031,
      "loss": 2.6779,
      "step": 16000
    },
    {
      "epoch": 1.29,
      "learning_rate": 0.00024491369812706574,
      "loss": 2.6964,
      "step": 16500
    },
    {
      "epoch": 1.32,
      "learning_rate": 0.00024324441625212832,
      "loss": 2.7048,
      "step": 17000
    },
    {
      "epoch": 1.36,
      "learning_rate": 0.00024157513437719094,
      "loss": 2.6687,
      "step": 17500
    },
    {
      "epoch": 1.4,
      "learning_rate": 0.00023990585250225352,
      "loss": 2.6869,
      "step": 18000
    },
    {
      "epoch": 1.44,
      "learning_rate": 0.00023823657062731608,
      "loss": 2.678,
      "step": 18500
    },
    {
      "epoch": 1.48,
      "learning_rate": 0.0002365672887523787,
      "loss": 2.6544,
      "step": 19000
    },
    {
      "epoch": 1.52,
      "learning_rate": 0.00023489800687744128,
      "loss": 2.6591,
      "step": 19500
    },
    {
      "epoch": 1.56,
      "learning_rate": 0.0002332287250025039,
      "loss": 2.6572,
      "step": 20000
    },
    {
      "epoch": 1.56,
      "eval_gen_len": 18.727,
      "eval_loss": 2.4031243324279785,
      "eval_rouge1": 27.0114,
      "eval_rouge2": 12.8148,
      "eval_rougeL": 22.2407,
      "eval_rougeLsum": 24.0602,
      "eval_runtime": 626.2755,
      "eval_samples_per_second": 20.496,
      "eval_steps_per_second": 2.563,
      "step": 20000
    },
    {
      "epoch": 1.6,
      "learning_rate": 0.00023155944312756648,
      "loss": 2.628,
      "step": 20500
    },
    {
      "epoch": 1.64,
      "learning_rate": 0.0002298901612526291,
      "loss": 2.6544,
      "step": 21000
    },
    {
      "epoch": 1.67,
      "learning_rate": 0.00022822087937769168,
      "loss": 2.6792,
      "step": 21500
    },
    {
      "epoch": 1.71,
      "learning_rate": 0.0002265515975027543,
      "loss": 2.6493,
      "step": 22000
    },
    {
      "epoch": 1.75,
      "learning_rate": 0.00022488231562781688,
      "loss": 2.6385,
      "step": 22500
    },
    {
      "epoch": 1.79,
      "learning_rate": 0.0002232130337528795,
      "loss": 2.6368,
      "step": 23000
    },
    {
      "epoch": 1.83,
      "learning_rate": 0.00022154375187794208,
      "loss": 2.6319,
      "step": 23500
    },
    {
      "epoch": 1.87,
      "learning_rate": 0.0002198744700030047,
      "loss": 2.6764,
      "step": 24000
    },
    {
      "epoch": 1.91,
      "learning_rate": 0.00021820518812806729,
      "loss": 2.6729,
      "step": 24500
    },
    {
      "epoch": 1.95,
      "learning_rate": 0.0002165359062531299,
      "loss": 2.6461,
      "step": 25000
    },
    {
      "epoch": 1.95,
      "eval_gen_len": 18.7416,
      "eval_loss": 2.391615629196167,
      "eval_rouge1": 27.2287,
      "eval_rouge2": 12.9935,
      "eval_rougeL": 22.4718,
      "eval_rougeLsum": 24.2517,
      "eval_runtime": 622.8089,
      "eval_samples_per_second": 20.61,
      "eval_steps_per_second": 2.577,
      "step": 25000
    },
    {
      "epoch": 1.99,
      "learning_rate": 0.00021486662437819249,
      "loss": 2.6244,
      "step": 25500
    },
    {
      "epoch": 2.03,
      "learning_rate": 0.0002131973425032551,
      "loss": 2.5805,
      "step": 26000
    },
    {
      "epoch": 2.06,
      "learning_rate": 0.00021152806062831769,
      "loss": 2.5407,
      "step": 26500
    },
    {
      "epoch": 2.1,
      "learning_rate": 0.00020985877875338027,
      "loss": 2.5537,
      "step": 27000
    },
    {
      "epoch": 2.14,
      "learning_rate": 0.00020818949687844289,
      "loss": 2.5253,
      "step": 27500
    },
    {
      "epoch": 2.18,
      "learning_rate": 0.00020652021500350547,
      "loss": 2.5401,
      "step": 28000
    },
    {
      "epoch": 2.22,
      "learning_rate": 0.00020485093312856809,
      "loss": 2.5245,
      "step": 28500
    },
    {
      "epoch": 2.26,
      "learning_rate": 0.00020318165125363067,
      "loss": 2.547,
      "step": 29000
    },
    {
      "epoch": 2.3,
      "learning_rate": 0.00020151236937869329,
      "loss": 2.5377,
      "step": 29500
    },
    {
      "epoch": 2.34,
      "learning_rate": 0.00019984308750375587,
      "loss": 2.5374,
      "step": 30000
    },
    {
      "epoch": 2.34,
      "eval_gen_len": 18.8003,
      "eval_loss": 2.3686139583587646,
      "eval_rouge1": 27.5061,
      "eval_rouge2": 13.241,
      "eval_rougeL": 22.6877,
      "eval_rougeLsum": 24.4465,
      "eval_runtime": 629.1948,
      "eval_samples_per_second": 20.401,
      "eval_steps_per_second": 2.551,
      "step": 30000
    },
    {
      "epoch": 2.38,
      "learning_rate": 0.00019817380562881846,
      "loss": 2.5457,
      "step": 30500
    },
    {
      "epoch": 2.41,
      "learning_rate": 0.00019650452375388105,
      "loss": 2.5105,
      "step": 31000
    },
    {
      "epoch": 2.45,
      "learning_rate": 0.00019483524187894366,
      "loss": 2.5367,
      "step": 31500
    },
    {
      "epoch": 2.49,
      "learning_rate": 0.00019316596000400625,
      "loss": 2.5471,
      "step": 32000
    },
    {
      "epoch": 2.53,
      "learning_rate": 0.00019149667812906886,
      "loss": 2.5488,
      "step": 32500
    },
    {
      "epoch": 2.57,
      "learning_rate": 0.00018982739625413145,
      "loss": 2.5402,
      "step": 33000
    },
    {
      "epoch": 2.61,
      "learning_rate": 0.00018815811437919406,
      "loss": 2.5437,
      "step": 33500
    },
    {
      "epoch": 2.65,
      "learning_rate": 0.00018648883250425665,
      "loss": 2.5244,
      "step": 34000
    },
    {
      "epoch": 2.69,
      "learning_rate": 0.00018481955062931923,
      "loss": 2.5389,
      "step": 34500
    },
    {
      "epoch": 2.73,
      "learning_rate": 0.00018315026875438185,
      "loss": 2.5081,
      "step": 35000
    },
    {
      "epoch": 2.73,
      "eval_gen_len": 18.7821,
      "eval_loss": 2.3596315383911133,
      "eval_rouge1": 27.4715,
      "eval_rouge2": 13.2862,
      "eval_rougeL": 22.7022,
      "eval_rougeLsum": 24.4252,
      "eval_runtime": 624.9994,
      "eval_samples_per_second": 20.538,
      "eval_steps_per_second": 2.568,
      "step": 35000
    },
    {
      "epoch": 2.77,
      "learning_rate": 0.00018148098687944443,
      "loss": 2.5425,
      "step": 35500
    },
    {
      "epoch": 2.8,
      "learning_rate": 0.00017981170500450705,
      "loss": 2.5245,
      "step": 36000
    },
    {
      "epoch": 2.84,
      "learning_rate": 0.00017814242312956963,
      "loss": 2.506,
      "step": 36500
    },
    {
      "epoch": 2.88,
      "learning_rate": 0.00017647314125463225,
      "loss": 2.542,
      "step": 37000
    },
    {
      "epoch": 2.92,
      "learning_rate": 0.00017480385937969483,
      "loss": 2.5252,
      "step": 37500
    },
    {
      "epoch": 2.96,
      "learning_rate": 0.00017313457750475745,
      "loss": 2.5175,
      "step": 38000
    },
    {
      "epoch": 3.0,
      "learning_rate": 0.00017146529562982003,
      "loss": 2.5091,
      "step": 38500
    },
    {
      "epoch": 3.04,
      "learning_rate": 0.00016979601375488265,
      "loss": 2.4468,
      "step": 39000
    },
    {
      "epoch": 3.08,
      "learning_rate": 0.00016812673187994523,
      "loss": 2.447,
      "step": 39500
    },
    {
      "epoch": 3.12,
      "learning_rate": 0.00016645745000500785,
      "loss": 2.4152,
      "step": 40000
    },
    {
      "epoch": 3.12,
      "eval_gen_len": 18.8203,
      "eval_loss": 2.326728105545044,
      "eval_rouge1": 27.9595,
      "eval_rouge2": 13.5813,
      "eval_rougeL": 23.0493,
      "eval_rougeLsum": 24.9203,
      "eval_runtime": 625.9414,
      "eval_samples_per_second": 20.507,
      "eval_steps_per_second": 2.564,
      "step": 40000
    },
    {
      "epoch": 3.15,
      "learning_rate": 0.00016478816813007043,
      "loss": 2.4379,
      "step": 40500
    },
    {
      "epoch": 3.19,
      "learning_rate": 0.00016311888625513305,
      "loss": 2.4489,
      "step": 41000
    },
    {
      "epoch": 3.23,
      "learning_rate": 0.00016144960438019564,
      "loss": 2.4212,
      "step": 41500
    },
    {
      "epoch": 3.27,
      "learning_rate": 0.00015978032250525825,
      "loss": 2.4203,
      "step": 42000
    },
    {
      "epoch": 3.31,
      "learning_rate": 0.0001581110406303208,
      "loss": 2.433,
      "step": 42500
    },
    {
      "epoch": 3.35,
      "learning_rate": 0.0001564417587553834,
      "loss": 2.432,
      "step": 43000
    },
    {
      "epoch": 3.39,
      "learning_rate": 0.000154772476880446,
      "loss": 2.4299,
      "step": 43500
    },
    {
      "epoch": 3.43,
      "learning_rate": 0.0001531031950055086,
      "loss": 2.4201,
      "step": 44000
    },
    {
      "epoch": 3.47,
      "learning_rate": 0.0001514339131305712,
      "loss": 2.4314,
      "step": 44500
    },
    {
      "epoch": 3.51,
      "learning_rate": 0.00014976463125563382,
      "loss": 2.4387,
      "step": 45000
    },
    {
      "epoch": 3.51,
      "eval_gen_len": 18.8376,
      "eval_loss": 2.317692518234253,
      "eval_rouge1": 28.1616,
      "eval_rouge2": 13.668,
      "eval_rougeL": 23.1738,
      "eval_rougeLsum": 25.0342,
      "eval_runtime": 622.4609,
      "eval_samples_per_second": 20.621,
      "eval_steps_per_second": 2.578,
      "step": 45000
    },
    {
      "epoch": 3.54,
      "learning_rate": 0.0001480953493806964,
      "loss": 2.4389,
      "step": 45500
    },
    {
      "epoch": 3.58,
      "learning_rate": 0.000146426067505759,
      "loss": 2.4363,
      "step": 46000
    },
    {
      "epoch": 3.62,
      "learning_rate": 0.0001447567856308216,
      "loss": 2.4395,
      "step": 46500
    },
    {
      "epoch": 3.66,
      "learning_rate": 0.0001430875037558842,
      "loss": 2.4418,
      "step": 47000
    },
    {
      "epoch": 3.7,
      "learning_rate": 0.0001414182218809468,
      "loss": 2.4201,
      "step": 47500
    },
    {
      "epoch": 3.74,
      "learning_rate": 0.0001397489400060094,
      "loss": 2.4169,
      "step": 48000
    },
    {
      "epoch": 3.78,
      "learning_rate": 0.000138079658131072,
      "loss": 2.4009,
      "step": 48500
    },
    {
      "epoch": 3.82,
      "learning_rate": 0.0001364103762561346,
      "loss": 2.4279,
      "step": 49000
    },
    {
      "epoch": 3.86,
      "learning_rate": 0.0001347410943811972,
      "loss": 2.4307,
      "step": 49500
    },
    {
      "epoch": 3.89,
      "learning_rate": 0.0001330718125062598,
      "loss": 2.4387,
      "step": 50000
    },
    {
      "epoch": 3.89,
      "eval_gen_len": 18.7872,
      "eval_loss": 2.3016672134399414,
      "eval_rouge1": 28.1111,
      "eval_rouge2": 13.569,
      "eval_rougeL": 23.1312,
      "eval_rougeLsum": 24.9912,
      "eval_runtime": 628.1204,
      "eval_samples_per_second": 20.436,
      "eval_steps_per_second": 2.555,
      "step": 50000
    },
    {
      "epoch": 3.93,
      "learning_rate": 0.0001314025306313224,
      "loss": 2.4143,
      "step": 50500
    },
    {
      "epoch": 3.97,
      "learning_rate": 0.000129733248756385,
      "loss": 2.4197,
      "step": 51000
    },
    {
      "epoch": 4.01,
      "learning_rate": 0.00012806396688144758,
      "loss": 2.4084,
      "step": 51500
    },
    {
      "epoch": 4.05,
      "learning_rate": 0.00012639468500651017,
      "loss": 2.3544,
      "step": 52000
    },
    {
      "epoch": 4.09,
      "learning_rate": 0.00012472540313157278,
      "loss": 2.332,
      "step": 52500
    },
    {
      "epoch": 4.13,
      "learning_rate": 0.00012305612125663537,
      "loss": 2.3597,
      "step": 53000
    },
    {
      "epoch": 4.17,
      "learning_rate": 0.00012138683938169798,
      "loss": 2.3492,
      "step": 53500
    },
    {
      "epoch": 4.21,
      "learning_rate": 0.00011971755750676058,
      "loss": 2.3679,
      "step": 54000
    },
    {
      "epoch": 4.25,
      "learning_rate": 0.00011804827563182318,
      "loss": 2.3633,
      "step": 54500
    },
    {
      "epoch": 4.28,
      "learning_rate": 0.00011637899375688578,
      "loss": 2.3467,
      "step": 55000
    },
    {
      "epoch": 4.28,
      "eval_gen_len": 18.8334,
      "eval_loss": 2.3123602867126465,
      "eval_rouge1": 28.0679,
      "eval_rouge2": 13.7123,
      "eval_rougeL": 23.1516,
      "eval_rougeLsum": 25.0002,
      "eval_runtime": 622.7792,
      "eval_samples_per_second": 20.611,
      "eval_steps_per_second": 2.577,
      "step": 55000
    },
    {
      "epoch": 4.32,
      "learning_rate": 0.00011470971188194838,
      "loss": 2.3579,
      "step": 55500
    },
    {
      "epoch": 4.36,
      "learning_rate": 0.00011304043000701098,
      "loss": 2.3501,
      "step": 56000
    },
    {
      "epoch": 4.4,
      "learning_rate": 0.00011137114813207358,
      "loss": 2.3592,
      "step": 56500
    },
    {
      "epoch": 4.44,
      "learning_rate": 0.00010970186625713618,
      "loss": 2.344,
      "step": 57000
    },
    {
      "epoch": 4.48,
      "learning_rate": 0.00010803258438219876,
      "loss": 2.3578,
      "step": 57500
    },
    {
      "epoch": 4.52,
      "learning_rate": 0.00010636330250726136,
      "loss": 2.3407,
      "step": 58000
    },
    {
      "epoch": 4.56,
      "learning_rate": 0.00010469402063232396,
      "loss": 2.3452,
      "step": 58500
    },
    {
      "epoch": 4.6,
      "learning_rate": 0.00010302473875738656,
      "loss": 2.3465,
      "step": 59000
    },
    {
      "epoch": 4.64,
      "learning_rate": 0.00010135545688244916,
      "loss": 2.3687,
      "step": 59500
    },
    {
      "epoch": 4.67,
      "learning_rate": 9.968617500751176e-05,
      "loss": 2.3367,
      "step": 60000
    },
    {
      "epoch": 4.67,
      "eval_gen_len": 18.835,
      "eval_loss": 2.2966153621673584,
      "eval_rouge1": 28.293,
      "eval_rouge2": 13.9084,
      "eval_rougeL": 23.3359,
      "eval_rougeLsum": 25.1789,
      "eval_runtime": 625.9275,
      "eval_samples_per_second": 20.507,
      "eval_steps_per_second": 2.564,
      "step": 60000
    },
    {
      "epoch": 4.71,
      "learning_rate": 9.801689313257436e-05,
      "loss": 2.3306,
      "step": 60500
    },
    {
      "epoch": 4.75,
      "learning_rate": 9.634761125763696e-05,
      "loss": 2.3497,
      "step": 61000
    },
    {
      "epoch": 4.79,
      "learning_rate": 9.467832938269956e-05,
      "loss": 2.3313,
      "step": 61500
    },
    {
      "epoch": 4.83,
      "learning_rate": 9.300904750776216e-05,
      "loss": 2.3427,
      "step": 62000
    },
    {
      "epoch": 4.87,
      "learning_rate": 9.133976563282476e-05,
      "loss": 2.3259,
      "step": 62500
    },
    {
      "epoch": 4.91,
      "learning_rate": 8.967048375788736e-05,
      "loss": 2.3544,
      "step": 63000
    },
    {
      "epoch": 4.95,
      "learning_rate": 8.800120188294995e-05,
      "loss": 2.3307,
      "step": 63500
    },
    {
      "epoch": 4.99,
      "learning_rate": 8.633192000801255e-05,
      "loss": 2.3477,
      "step": 64000
    },
    {
      "epoch": 5.02,
      "learning_rate": 8.466263813307513e-05,
      "loss": 2.3064,
      "step": 64500
    },
    {
      "epoch": 5.06,
      "learning_rate": 8.299335625813773e-05,
      "loss": 2.2882,
      "step": 65000
    },
    {
      "epoch": 5.06,
      "eval_gen_len": 18.7974,
      "eval_loss": 2.2921857833862305,
      "eval_rouge1": 28.3828,
      "eval_rouge2": 14.0129,
      "eval_rougeL": 23.443,
      "eval_rougeLsum": 25.3001,
      "eval_runtime": 621.9943,
      "eval_samples_per_second": 20.637,
      "eval_steps_per_second": 2.58,
      "step": 65000
    },
    {
      "epoch": 5.1,
      "learning_rate": 8.132407438320033e-05,
      "loss": 2.2733,
      "step": 65500
    },
    {
      "epoch": 5.14,
      "learning_rate": 7.965479250826293e-05,
      "loss": 2.2869,
      "step": 66000
    },
    {
      "epoch": 5.18,
      "learning_rate": 7.798551063332553e-05,
      "loss": 2.2904,
      "step": 66500
    },
    {
      "epoch": 5.22,
      "learning_rate": 7.631622875838813e-05,
      "loss": 2.2516,
      "step": 67000
    },
    {
      "epoch": 5.26,
      "learning_rate": 7.464694688345073e-05,
      "loss": 2.2835,
      "step": 67500
    },
    {
      "epoch": 5.3,
      "learning_rate": 7.297766500851333e-05,
      "loss": 2.2802,
      "step": 68000
    },
    {
      "epoch": 5.34,
      "learning_rate": 7.130838313357593e-05,
      "loss": 2.2779,
      "step": 68500
    },
    {
      "epoch": 5.38,
      "learning_rate": 6.963910125863853e-05,
      "loss": 2.274,
      "step": 69000
    },
    {
      "epoch": 5.41,
      "learning_rate": 6.796981938370112e-05,
      "loss": 2.2908,
      "step": 69500
    },
    {
      "epoch": 5.45,
      "learning_rate": 6.630053750876372e-05,
      "loss": 2.2782,
      "step": 70000
    },
    {
      "epoch": 5.45,
      "eval_gen_len": 18.8495,
      "eval_loss": 2.2865357398986816,
      "eval_rouge1": 28.3987,
      "eval_rouge2": 13.9705,
      "eval_rougeL": 23.4227,
      "eval_rougeLsum": 25.3263,
      "eval_runtime": 625.1399,
      "eval_samples_per_second": 20.533,
      "eval_steps_per_second": 2.567,
      "step": 70000
    },
    {
      "epoch": 5.49,
      "learning_rate": 6.463125563382632e-05,
      "loss": 2.2882,
      "step": 70500
    },
    {
      "epoch": 5.53,
      "learning_rate": 6.296197375888892e-05,
      "loss": 2.2802,
      "step": 71000
    },
    {
      "epoch": 5.57,
      "learning_rate": 6.129269188395152e-05,
      "loss": 2.2774,
      "step": 71500
    },
    {
      "epoch": 5.61,
      "learning_rate": 5.9623410009014114e-05,
      "loss": 2.31,
      "step": 72000
    },
    {
      "epoch": 5.65,
      "learning_rate": 5.7954128134076714e-05,
      "loss": 2.2829,
      "step": 72500
    },
    {
      "epoch": 5.69,
      "learning_rate": 5.6284846259139314e-05,
      "loss": 2.2971,
      "step": 73000
    },
    {
      "epoch": 5.73,
      "learning_rate": 5.4615564384201915e-05,
      "loss": 2.2824,
      "step": 73500
    },
    {
      "epoch": 5.76,
      "learning_rate": 5.294628250926451e-05,
      "loss": 2.2754,
      "step": 74000
    },
    {
      "epoch": 5.8,
      "learning_rate": 5.127700063432711e-05,
      "loss": 2.2893,
      "step": 74500
    },
    {
      "epoch": 5.84,
      "learning_rate": 4.960771875938971e-05,
      "loss": 2.2788,
      "step": 75000
    },
    {
      "epoch": 5.84,
      "eval_gen_len": 18.7967,
      "eval_loss": 2.278130531311035,
      "eval_rouge1": 28.4256,
      "eval_rouge2": 14.0668,
      "eval_rougeL": 23.4947,
      "eval_rougeLsum": 25.3403,
      "eval_runtime": 622.5919,
      "eval_samples_per_second": 20.617,
      "eval_steps_per_second": 2.578,
      "step": 75000
    },
    {
      "epoch": 5.88,
      "learning_rate": 4.793843688445231e-05,
      "loss": 2.2898,
      "step": 75500
    },
    {
      "epoch": 5.92,
      "learning_rate": 4.62691550095149e-05,
      "loss": 2.281,
      "step": 76000
    },
    {
      "epoch": 5.96,
      "learning_rate": 4.45998731345775e-05,
      "loss": 2.28,
      "step": 76500
    },
    {
      "epoch": 6.0,
      "learning_rate": 4.2930591259640095e-05,
      "loss": 2.269,
      "step": 77000
    },
    {
      "epoch": 6.04,
      "learning_rate": 4.1261309384702695e-05,
      "loss": 2.2428,
      "step": 77500
    },
    {
      "epoch": 6.08,
      "learning_rate": 3.9592027509765295e-05,
      "loss": 2.2627,
      "step": 78000
    },
    {
      "epoch": 6.12,
      "learning_rate": 3.7922745634827896e-05,
      "loss": 2.2219,
      "step": 78500
    },
    {
      "epoch": 6.15,
      "learning_rate": 3.625346375989049e-05,
      "loss": 2.218,
      "step": 79000
    },
    {
      "epoch": 6.19,
      "learning_rate": 3.458418188495309e-05,
      "loss": 2.2205,
      "step": 79500
    },
    {
      "epoch": 6.23,
      "learning_rate": 3.291490001001569e-05,
      "loss": 2.239,
      "step": 80000
    },
    {
      "epoch": 6.23,
      "eval_gen_len": 18.8384,
      "eval_loss": 2.2816860675811768,
      "eval_rouge1": 28.4681,
      "eval_rouge2": 14.0835,
      "eval_rougeL": 23.5141,
      "eval_rougeLsum": 25.4023,
      "eval_runtime": 624.366,
      "eval_samples_per_second": 20.558,
      "eval_steps_per_second": 2.571,
      "step": 80000
    },
    {
      "epoch": 6.27,
      "learning_rate": 3.124561813507828e-05,
      "loss": 2.2095,
      "step": 80500
    },
    {
      "epoch": 6.31,
      "learning_rate": 2.9576336260140883e-05,
      "loss": 2.2441,
      "step": 81000
    },
    {
      "epoch": 6.35,
      "learning_rate": 2.7907054385203483e-05,
      "loss": 2.2292,
      "step": 81500
    },
    {
      "epoch": 6.39,
      "learning_rate": 2.623777251026608e-05,
      "loss": 2.2482,
      "step": 82000
    },
    {
      "epoch": 6.43,
      "learning_rate": 2.456849063532868e-05,
      "loss": 2.2243,
      "step": 82500
    },
    {
      "epoch": 6.47,
      "learning_rate": 2.289920876039128e-05,
      "loss": 2.2177,
      "step": 83000
    },
    {
      "epoch": 6.5,
      "learning_rate": 2.1229926885453873e-05,
      "loss": 2.2317,
      "step": 83500
    },
    {
      "epoch": 6.54,
      "learning_rate": 1.9560645010516473e-05,
      "loss": 2.2311,
      "step": 84000
    },
    {
      "epoch": 6.58,
      "learning_rate": 1.7891363135579073e-05,
      "loss": 2.2446,
      "step": 84500
    },
    {
      "epoch": 6.62,
      "learning_rate": 1.622208126064167e-05,
      "loss": 2.2324,
      "step": 85000
    },
    {
      "epoch": 6.62,
      "eval_gen_len": 18.8369,
      "eval_loss": 2.27907395362854,
      "eval_rouge1": 28.5356,
      "eval_rouge2": 14.1871,
      "eval_rougeL": 23.5477,
      "eval_rougeLsum": 25.4279,
      "eval_runtime": 621.3714,
      "eval_samples_per_second": 20.658,
      "eval_steps_per_second": 2.583,
      "step": 85000
    },
    {
      "epoch": 6.66,
      "learning_rate": 1.4552799385704269e-05,
      "loss": 2.241,
      "step": 85500
    },
    {
      "epoch": 6.7,
      "learning_rate": 1.2883517510766869e-05,
      "loss": 2.2262,
      "step": 86000
    },
    {
      "epoch": 6.74,
      "learning_rate": 1.1214235635829465e-05,
      "loss": 2.2456,
      "step": 86500
    },
    {
      "epoch": 6.78,
      "learning_rate": 9.544953760892062e-06,
      "loss": 2.2237,
      "step": 87000
    },
    {
      "epoch": 6.82,
      "learning_rate": 7.875671885954662e-06,
      "loss": 2.2294,
      "step": 87500
    },
    {
      "epoch": 6.86,
      "learning_rate": 6.20639001101726e-06,
      "loss": 2.2184,
      "step": 88000
    },
    {
      "epoch": 6.89,
      "learning_rate": 4.537108136079858e-06,
      "loss": 2.2167,
      "step": 88500
    },
    {
      "epoch": 6.93,
      "learning_rate": 2.867826261142456e-06,
      "loss": 2.2478,
      "step": 89000
    },
    {
      "epoch": 6.97,
      "learning_rate": 1.1985443862050543e-06,
      "loss": 2.2596,
      "step": 89500
    },
    {
      "epoch": 7.0,
      "step": 89859,
      "total_flos": 2.6510315204815258e+17,
      "train_loss": 2.493601185993256,
      "train_runtime": 53594.8094,
      "train_samples_per_second": 13.413,
      "train_steps_per_second": 1.677
    }
  ],
  "max_steps": 89859,
  "num_train_epochs": 7,
  "total_flos": 2.6510315204815258e+17,
  "trial_name": null,
  "trial_params": null
}