Upload last-checkpoint with huggingface_hub

Browse files

Files changed (12) hide show

last-checkpoint/config.json +36 -0
last-checkpoint/generation_config.json +11 -0
last-checkpoint/optimizer.pt +3 -0
last-checkpoint/pytorch_model.bin +3 -0
last-checkpoint/rng_state.pth +3 -0
last-checkpoint/scheduler.pt +3 -0
last-checkpoint/special_tokens_map.json +5 -0
last-checkpoint/spiece.model +3 -0
last-checkpoint/tokenizer.json +3 -0
last-checkpoint/tokenizer_config.json +12 -0
last-checkpoint/trainer_state.json +3616 -0
last-checkpoint/training_args.bin +3 -0

last-checkpoint/config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+  "_name_or_path": "google/mt5-base",
+  "architectures": [
+    "MT5ForConditionalGeneration"
+  ],
+  "d_ff": 2048,
+  "d_kv": 64,
+  "d_model": 768,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "length_penalty": 0.6,
+  "max_length": 128,
+  "model_type": "mt5",
+  "no_repeat_ngram_size": 2,
+  "num_beams": 15,
+  "num_decoder_layers": 12,
+  "num_heads": 12,
+  "num_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "tokenizer_class": "T5Tokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.26.1",
+  "use_cache": true,
+  "vocab_size": 250112
+}

last-checkpoint/generation_config.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "_from_model_config": true,
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "length_penalty": 0.6,
+  "max_length": 128,
+  "no_repeat_ngram_size": 2,
+  "num_beams": 15,
+  "pad_token_id": 0,
+  "transformers_version": "4.26.1"
+}

last-checkpoint/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:35d81815d2717de634f2a36953a7237bebc0aed6d6f05bf4b444356bcd0bbcf5
+size 4115013

last-checkpoint/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c87f4fb413b45320b3f6b962097316ca8762605322043e16b3d8b94d7c09674a
+size 2329702453

last-checkpoint/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e0d39dfe3569fd98eb88e2a2c2eaaf8e508e20a76576f7fbb2655866ff3eba6b
+size 14575

last-checkpoint/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6982685cb2f1f3ac97aedb27d2a37d776ee4b9327cce88693a07d917b95ae056
+size 627

last-checkpoint/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

last-checkpoint/spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef78f86560d809067d12bac6c09f19a462cb3af3f54d2b8acbba26e1433125d6
+size 4309802

last-checkpoint/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:faaa6405f5f79c9e788c7980874a9a3b5b0aea07b53bd9243bf1abb8f5c49c81
+size 16330467

last-checkpoint/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "additional_special_tokens": null,
+  "eos_token": "</s>",
+  "extra_ids": 0,
+  "model_max_length": 1000000000000000019884624838656,
+  "name_or_path": "google/mt5-base",
+  "pad_token": "<pad>",
+  "sp_model_kwargs": {},
+  "special_tokens_map_file": "/home/patrick/.cache/torch/transformers/685ac0ca8568ec593a48b61b0a3c272beee9bc194a3c7241d15dcadb5f875e53.f76030f3ec1b96a8199b2593390c610e76ca8028ef3d24680000619ffb646276",
+  "tokenizer_class": "T5Tokenizer",
+  "unk_token": "<unk>"
+}

last-checkpoint/trainer_state.json ADDED Viewed

	@@ -0,0 +1,3616 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 9.879792873874985,
+  "global_step": 5000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "learning_rate": 5.555555555555555e-05,
+      "loss": 13.7427,
+      "step": 10
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0001111111111111111,
+      "loss": 8.8821,
+      "step": 20
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00016666666666666666,
+      "loss": 2.5857,
+      "step": 30
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0002222222222222222,
+      "loss": 1.3518,
+      "step": 40
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0002777777777777778,
+      "loss": 1.0054,
+      "step": 50
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0003333333333333333,
+      "loss": 0.864,
+      "step": 60
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0003888888888888889,
+      "loss": 0.8669,
+      "step": 70
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0004444444444444444,
+      "loss": 0.9395,
+      "step": 80
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0005,
+      "loss": 1.0424,
+      "step": 90
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0004985515643105447,
+      "loss": 0.6298,
+      "step": 100
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 1.61441171169281,
+      "eval_rouge1": 0.07727272727272727,
+      "eval_rouge2": 0.061111111111111116,
+      "eval_rougeL": 0.06893939393939394,
+      "eval_rougeLsum": 0.08333333333333333,
+      "eval_runtime": 91.9317,
+      "eval_samples_per_second": 0.218,
+      "eval_steps_per_second": 0.218,
+      "step": 100
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0004971031286210893,
+      "loss": 0.5699,
+      "step": 110
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0004956546929316338,
+      "loss": 0.6074,
+      "step": 120
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0004942062572421785,
+      "loss": 0.6291,
+      "step": 130
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0004927578215527231,
+      "loss": 0.5098,
+      "step": 140
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0004913093858632677,
+      "loss": 0.4448,
+      "step": 150
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0004898609501738123,
+      "loss": 0.4508,
+      "step": 160
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0004884125144843569,
+      "loss": 0.4255,
+      "step": 170
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00048696407879490153,
+      "loss": 0.3705,
+      "step": 180
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0004855156431054461,
+      "loss": 0.4009,
+      "step": 190
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00048406720741599077,
+      "loss": 0.4317,
+      "step": 200
+    },
+    {
+      "epoch": 0.39,
+      "eval_loss": 1.176011323928833,
+      "eval_rouge1": 0.16153846153846152,
+      "eval_rouge2": 0.06988636363636364,
+      "eval_rougeL": 0.15999999999999998,
+      "eval_rougeLsum": 0.15999999999999998,
+      "eval_runtime": 88.2692,
+      "eval_samples_per_second": 0.227,
+      "eval_steps_per_second": 0.227,
+      "step": 200
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00048261877172653536,
+      "loss": 0.3679,
+      "step": 210
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00048117033603707995,
+      "loss": 0.3252,
+      "step": 220
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0004797219003476246,
+      "loss": 0.3707,
+      "step": 230
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0004782734646581692,
+      "loss": 0.3543,
+      "step": 240
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0004768250289687138,
+      "loss": 0.3434,
+      "step": 250
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0004753765932792584,
+      "loss": 0.4007,
+      "step": 260
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.000473928157589803,
+      "loss": 0.3552,
+      "step": 270
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00047247972190034765,
+      "loss": 0.388,
+      "step": 280
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00047103128621089224,
+      "loss": 0.307,
+      "step": 290
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.0004695828505214368,
+      "loss": 0.2588,
+      "step": 300
+    },
+    {
+      "epoch": 0.59,
+      "eval_loss": 1.0633952617645264,
+      "eval_rouge1": 0.08,
+      "eval_rouge2": 0.05555555555555556,
+      "eval_rougeL": 0.08414141414141416,
+      "eval_rougeLsum": 0.08383838383838385,
+      "eval_runtime": 88.5138,
+      "eval_samples_per_second": 0.226,
+      "eval_steps_per_second": 0.226,
+      "step": 300
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00046813441483198147,
+      "loss": 0.2965,
+      "step": 310
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00046668597914252606,
+      "loss": 0.3096,
+      "step": 320
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.0004652375434530707,
+      "loss": 0.301,
+      "step": 330
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00046378910776361535,
+      "loss": 0.3153,
+      "step": 340
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00046234067207415994,
+      "loss": 0.3549,
+      "step": 350
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.0004608922363847045,
+      "loss": 0.356,
+      "step": 360
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00045944380069524917,
+      "loss": 0.3278,
+      "step": 370
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00045799536500579376,
+      "loss": 0.2985,
+      "step": 380
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00045654692931633835,
+      "loss": 0.3152,
+      "step": 390
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.000455098493626883,
+      "loss": 0.2665,
+      "step": 400
+    },
+    {
+      "epoch": 0.79,
+      "eval_loss": 1.044259786605835,
+      "eval_rouge1": 0.06307692307692307,
+      "eval_rouge2": 0.021590909090909088,
+      "eval_rougeL": 0.06307692307692307,
+      "eval_rougeLsum": 0.06307692307692307,
+      "eval_runtime": 80.5878,
+      "eval_samples_per_second": 0.248,
+      "eval_steps_per_second": 0.248,
+      "step": 400
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.0004536500579374276,
+      "loss": 0.2323,
+      "step": 410
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.00045220162224797217,
+      "loss": 0.2222,
+      "step": 420
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.0004507531865585168,
+      "loss": 0.2516,
+      "step": 430
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.0004493047508690614,
+      "loss": 0.2851,
+      "step": 440
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.000447856315179606,
+      "loss": 0.2677,
+      "step": 450
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.00044640787949015064,
+      "loss": 0.2447,
+      "step": 460
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.00044495944380069523,
+      "loss": 0.3186,
+      "step": 470
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.0004435110081112398,
+      "loss": 0.3035,
+      "step": 480
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.0004420625724217845,
+      "loss": 0.3036,
+      "step": 490
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.0004406141367323291,
+      "loss": 0.1972,
+      "step": 500
+    },
+    {
+      "epoch": 0.99,
+      "eval_loss": 1.0465357303619385,
+      "eval_rouge1": 0.1908791208791209,
+      "eval_rouge2": 0.10681818181818181,
+      "eval_rougeL": 0.17934065934065935,
+      "eval_rougeLsum": 0.19159340659340657,
+      "eval_runtime": 84.3482,
+      "eval_samples_per_second": 0.237,
+      "eval_steps_per_second": 0.237,
+      "step": 500
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.00043916570104287375,
+      "loss": 0.279,
+      "step": 510
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.00043771726535341834,
+      "loss": 0.272,
+      "step": 520
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.00043626882966396293,
+      "loss": 0.2272,
+      "step": 530
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.0004348203939745076,
+      "loss": 0.2495,
+      "step": 540
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.00043337195828505216,
+      "loss": 0.1965,
+      "step": 550
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.00043192352259559675,
+      "loss": 0.2364,
+      "step": 560
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.0004304750869061414,
+      "loss": 0.2478,
+      "step": 570
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.000429026651216686,
+      "loss": 0.2046,
+      "step": 580
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.0004275782155272306,
+      "loss": 0.2661,
+      "step": 590
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.0004261297798377752,
+      "loss": 0.2041,
+      "step": 600
+    },
+    {
+      "epoch": 1.19,
+      "eval_loss": 0.9551488757133484,
+      "eval_rouge1": 0.09038461538461538,
+      "eval_rouge2": 0.05051948051948052,
+      "eval_rougeL": 0.09679487179487178,
+      "eval_rougeLsum": 0.09871794871794871,
+      "eval_runtime": 89.0139,
+      "eval_samples_per_second": 0.225,
+      "eval_steps_per_second": 0.225,
+      "step": 600
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.0004246813441483198,
+      "loss": 0.2816,
+      "step": 610
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.0004232329084588644,
+      "loss": 0.1904,
+      "step": 620
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.00042178447276940904,
+      "loss": 0.21,
+      "step": 630
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.0004203360370799537,
+      "loss": 0.1662,
+      "step": 640
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.0004188876013904983,
+      "loss": 0.3052,
+      "step": 650
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.0004174391657010429,
+      "loss": 0.1744,
+      "step": 660
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.0004159907300115875,
+      "loss": 0.288,
+      "step": 670
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.0004145422943221321,
+      "loss": 0.2303,
+      "step": 680
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.00041309385863267674,
+      "loss": 0.2866,
+      "step": 690
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.00041164542294322133,
+      "loss": 0.238,
+      "step": 700
+    },
+    {
+      "epoch": 1.38,
+      "eval_loss": 0.9423090219497681,
+      "eval_rouge1": 0.1,
+      "eval_rouge2": 0.07291666666666667,
+      "eval_rougeL": 0.1,
+      "eval_rougeLsum": 0.10333333333333335,
+      "eval_runtime": 88.0456,
+      "eval_samples_per_second": 0.227,
+      "eval_steps_per_second": 0.227,
+      "step": 700
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.0004101969872537659,
+      "loss": 0.2342,
+      "step": 710
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.00040874855156431057,
+      "loss": 0.2716,
+      "step": 720
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.00040730011587485516,
+      "loss": 0.2453,
+      "step": 730
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.00040585168018539974,
+      "loss": 0.2313,
+      "step": 740
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.0004044032444959444,
+      "loss": 0.2306,
+      "step": 750
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.000402954808806489,
+      "loss": 0.1773,
+      "step": 760
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.00040150637311703357,
+      "loss": 0.1957,
+      "step": 770
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.0004000579374275782,
+      "loss": 0.2758,
+      "step": 780
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.0003986095017381228,
+      "loss": 0.2649,
+      "step": 790
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.0003971610660486675,
+      "loss": 0.275,
+      "step": 800
+    },
+    {
+      "epoch": 1.58,
+      "eval_loss": 0.9273136258125305,
+      "eval_rouge1": 0.14666666666666667,
+      "eval_rouge2": 0.10977272727272727,
+      "eval_rougeL": 0.15038461538461537,
+      "eval_rougeLsum": 0.15153846153846154,
+      "eval_runtime": 87.8017,
+      "eval_samples_per_second": 0.228,
+      "eval_steps_per_second": 0.228,
+      "step": 800
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.0003957126303592121,
+      "loss": 0.2102,
+      "step": 810
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.0003942641946697567,
+      "loss": 0.2146,
+      "step": 820
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.0003928157589803013,
+      "loss": 0.1918,
+      "step": 830
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 0.0003913673232908459,
+      "loss": 0.2512,
+      "step": 840
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.0003899188876013905,
+      "loss": 0.2499,
+      "step": 850
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.00038847045191193515,
+      "loss": 0.228,
+      "step": 860
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.00038702201622247974,
+      "loss": 0.2507,
+      "step": 870
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.0003855735805330243,
+      "loss": 0.1735,
+      "step": 880
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.00038412514484356897,
+      "loss": 0.2752,
+      "step": 890
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 0.00038267670915411356,
+      "loss": 0.2379,
+      "step": 900
+    },
+    {
+      "epoch": 1.78,
+      "eval_loss": 0.9023244976997375,
+      "eval_rouge1": 0.1,
+      "eval_rouge2": 0.08333333333333333,
+      "eval_rougeL": 0.1,
+      "eval_rougeLsum": 0.1,
+      "eval_runtime": 80.7798,
+      "eval_samples_per_second": 0.248,
+      "eval_steps_per_second": 0.248,
+      "step": 900
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 0.00038122827346465815,
+      "loss": 0.1993,
+      "step": 910
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 0.0003797798377752028,
+      "loss": 0.2058,
+      "step": 920
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.0003783314020857474,
+      "loss": 0.2675,
+      "step": 930
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.00037688296639629197,
+      "loss": 0.1928,
+      "step": 940
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.0003754345307068366,
+      "loss": 0.1903,
+      "step": 950
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.00037398609501738126,
+      "loss": 0.1967,
+      "step": 960
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.00037253765932792585,
+      "loss": 0.2044,
+      "step": 970
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.0003710892236384705,
+      "loss": 0.2027,
+      "step": 980
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.0003696407879490151,
+      "loss": 0.25,
+      "step": 990
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.00036819235225955967,
+      "loss": 0.2896,
+      "step": 1000
+    },
+    {
+      "epoch": 1.97,
+      "eval_loss": 0.9184179306030273,
+      "eval_rouge1": 0.19,
+      "eval_rouge2": 0.1,
+      "eval_rougeL": 0.18893939393939393,
+      "eval_rougeLsum": 0.19848484848484846,
+      "eval_runtime": 81.9559,
+      "eval_samples_per_second": 0.244,
+      "eval_steps_per_second": 0.244,
+      "step": 1000
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.0003667439165701043,
+      "loss": 0.1462,
+      "step": 1010
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 0.0003652954808806489,
+      "loss": 0.1944,
+      "step": 1020
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 0.0003638470451911935,
+      "loss": 0.2296,
+      "step": 1030
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 0.00036239860950173814,
+      "loss": 0.2446,
+      "step": 1040
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 0.00036095017381228273,
+      "loss": 0.1448,
+      "step": 1050
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 0.0003595017381228273,
+      "loss": 0.1507,
+      "step": 1060
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 0.00035805330243337196,
+      "loss": 0.1636,
+      "step": 1070
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 0.00035660486674391655,
+      "loss": 0.1909,
+      "step": 1080
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 0.0003551564310544612,
+      "loss": 0.1895,
+      "step": 1090
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 0.0003537079953650058,
+      "loss": 0.2663,
+      "step": 1100
+    },
+    {
+      "epoch": 2.17,
+      "eval_loss": 0.9002671241760254,
+      "eval_rouge1": 0.07948717948717948,
+      "eval_rouge2": 0.06779220779220778,
+      "eval_rougeL": 0.08782051282051281,
+      "eval_rougeLsum": 0.08333333333333333,
+      "eval_runtime": 84.9078,
+      "eval_samples_per_second": 0.236,
+      "eval_steps_per_second": 0.236,
+      "step": 1100
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 0.0003522595596755504,
+      "loss": 0.1672,
+      "step": 1110
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 0.00035081112398609507,
+      "loss": 0.1909,
+      "step": 1120
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 0.00034936268829663966,
+      "loss": 0.1675,
+      "step": 1130
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 0.00034791425260718425,
+      "loss": 0.2636,
+      "step": 1140
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 0.0003464658169177289,
+      "loss": 0.2119,
+      "step": 1150
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 0.0003450173812282735,
+      "loss": 0.2114,
+      "step": 1160
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 0.0003435689455388181,
+      "loss": 0.1456,
+      "step": 1170
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 0.0003421205098493627,
+      "loss": 0.1993,
+      "step": 1180
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 0.0003406720741599073,
+      "loss": 0.1467,
+      "step": 1190
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 0.0003392236384704519,
+      "loss": 0.237,
+      "step": 1200
+    },
+    {
+      "epoch": 2.37,
+      "eval_loss": 0.9139176607131958,
+      "eval_rouge1": 0.19904761904761903,
+      "eval_rouge2": 0.10285714285714284,
+      "eval_rougeL": 0.19511904761904764,
+      "eval_rougeLsum": 0.20619047619047615,
+      "eval_runtime": 85.9903,
+      "eval_samples_per_second": 0.233,
+      "eval_steps_per_second": 0.233,
+      "step": 1200
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 0.00033777520278099654,
+      "loss": 0.1996,
+      "step": 1210
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 0.00033632676709154113,
+      "loss": 0.1725,
+      "step": 1220
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 0.0003348783314020857,
+      "loss": 0.2089,
+      "step": 1230
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 0.00033342989571263036,
+      "loss": 0.183,
+      "step": 1240
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 0.00033198146002317495,
+      "loss": 0.1631,
+      "step": 1250
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 0.00033053302433371954,
+      "loss": 0.1889,
+      "step": 1260
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 0.00032908458864426424,
+      "loss": 0.172,
+      "step": 1270
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 0.00032763615295480883,
+      "loss": 0.1236,
+      "step": 1280
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 0.0003261877172653534,
+      "loss": 0.1682,
+      "step": 1290
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 0.00032473928157589806,
+      "loss": 0.2019,
+      "step": 1300
+    },
+    {
+      "epoch": 2.57,
+      "eval_loss": 0.920964241027832,
+      "eval_rouge1": 0.11282051282051282,
+      "eval_rouge2": 0.03636363636363636,
+      "eval_rougeL": 0.1128205128205128,
+      "eval_rougeLsum": 0.11607142857142858,
+      "eval_runtime": 82.9262,
+      "eval_samples_per_second": 0.241,
+      "eval_steps_per_second": 0.241,
+      "step": 1300
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 0.00032329084588644265,
+      "loss": 0.1681,
+      "step": 1310
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 0.00032184241019698724,
+      "loss": 0.2372,
+      "step": 1320
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 0.0003203939745075319,
+      "loss": 0.1343,
+      "step": 1330
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 0.0003189455388180765,
+      "loss": 0.2125,
+      "step": 1340
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 0.0003174971031286211,
+      "loss": 0.2217,
+      "step": 1350
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 0.0003160486674391657,
+      "loss": 0.1542,
+      "step": 1360
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 0.0003146002317497103,
+      "loss": 0.171,
+      "step": 1370
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 0.00031315179606025494,
+      "loss": 0.1808,
+      "step": 1380
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 0.00031170336037079953,
+      "loss": 0.1423,
+      "step": 1390
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 0.0003102549246813441,
+      "loss": 0.1794,
+      "step": 1400
+    },
+    {
+      "epoch": 2.77,
+      "eval_loss": 0.9037507772445679,
+      "eval_rouge1": 0.11666666666666667,
+      "eval_rouge2": 0.08636363636363635,
+      "eval_rougeL": 0.11833333333333333,
+      "eval_rougeLsum": 0.12064102564102563,
+      "eval_runtime": 84.5851,
+      "eval_samples_per_second": 0.236,
+      "eval_steps_per_second": 0.236,
+      "step": 1400
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 0.00030880648899188877,
+      "loss": 0.2313,
+      "step": 1410
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 0.00030735805330243336,
+      "loss": 0.1548,
+      "step": 1420
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 0.000305909617612978,
+      "loss": 0.2318,
+      "step": 1430
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 0.00030446118192352264,
+      "loss": 0.1959,
+      "step": 1440
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 0.00030301274623406723,
+      "loss": 0.1438,
+      "step": 1450
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 0.0003015643105446118,
+      "loss": 0.1953,
+      "step": 1460
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 0.00030011587485515647,
+      "loss": 0.1542,
+      "step": 1470
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 0.00029866743916570106,
+      "loss": 0.1693,
+      "step": 1480
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 0.00029721900347624565,
+      "loss": 0.1836,
+      "step": 1490
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 0.0002957705677867903,
+      "loss": 0.1847,
+      "step": 1500
+    },
+    {
+      "epoch": 2.96,
+      "eval_loss": 0.8892697095870972,
+      "eval_rouge1": 0.14335664335664336,
+      "eval_rouge2": 0.13131313131313133,
+      "eval_rougeL": 0.14375624375624377,
+      "eval_rougeLsum": 0.14725274725274726,
+      "eval_runtime": 86.985,
+      "eval_samples_per_second": 0.23,
+      "eval_steps_per_second": 0.23,
+      "step": 1500
+    },
+    {
+      "epoch": 2.98,
+      "learning_rate": 0.0002943221320973349,
+      "loss": 0.1245,
+      "step": 1510
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 0.00029287369640787947,
+      "loss": 0.1917,
+      "step": 1520
+    },
+    {
+      "epoch": 3.02,
+      "learning_rate": 0.0002914252607184241,
+      "loss": 0.205,
+      "step": 1530
+    },
+    {
+      "epoch": 3.04,
+      "learning_rate": 0.0002899768250289687,
+      "loss": 0.1493,
+      "step": 1540
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 0.0002885283893395133,
+      "loss": 0.1596,
+      "step": 1550
+    },
+    {
+      "epoch": 3.08,
+      "learning_rate": 0.00028707995365005794,
+      "loss": 0.1689,
+      "step": 1560
+    },
+    {
+      "epoch": 3.1,
+      "learning_rate": 0.0002856315179606025,
+      "loss": 0.1371,
+      "step": 1570
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 0.0002841830822711471,
+      "loss": 0.1676,
+      "step": 1580
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 0.0002827346465816918,
+      "loss": 0.1441,
+      "step": 1590
+    },
+    {
+      "epoch": 3.16,
+      "learning_rate": 0.0002812862108922364,
+      "loss": 0.1436,
+      "step": 1600
+    },
+    {
+      "epoch": 3.16,
+      "eval_loss": 0.8872199058532715,
+      "eval_rouge1": 0.16825396825396824,
+      "eval_rouge2": 0.05833333333333333,
+      "eval_rougeL": 0.1650793650793651,
+      "eval_rougeLsum": 0.17285714285714288,
+      "eval_runtime": 83.5131,
+      "eval_samples_per_second": 0.239,
+      "eval_steps_per_second": 0.239,
+      "step": 1600
+    },
+    {
+      "epoch": 3.18,
+      "learning_rate": 0.000279837775202781,
+      "loss": 0.2173,
+      "step": 1610
+    },
+    {
+      "epoch": 3.2,
+      "learning_rate": 0.00027838933951332564,
+      "loss": 0.1457,
+      "step": 1620
+    },
+    {
+      "epoch": 3.22,
+      "learning_rate": 0.0002769409038238702,
+      "loss": 0.1503,
+      "step": 1630
+    },
+    {
+      "epoch": 3.24,
+      "learning_rate": 0.00027549246813441487,
+      "loss": 0.1371,
+      "step": 1640
+    },
+    {
+      "epoch": 3.26,
+      "learning_rate": 0.00027404403244495946,
+      "loss": 0.1331,
+      "step": 1650
+    },
+    {
+      "epoch": 3.28,
+      "learning_rate": 0.00027259559675550405,
+      "loss": 0.2068,
+      "step": 1660
+    },
+    {
+      "epoch": 3.3,
+      "learning_rate": 0.0002711471610660487,
+      "loss": 0.2001,
+      "step": 1670
+    },
+    {
+      "epoch": 3.32,
+      "learning_rate": 0.0002696987253765933,
+      "loss": 0.177,
+      "step": 1680
+    },
+    {
+      "epoch": 3.34,
+      "learning_rate": 0.00026825028968713787,
+      "loss": 0.1772,
+      "step": 1690
+    },
+    {
+      "epoch": 3.36,
+      "learning_rate": 0.0002668018539976825,
+      "loss": 0.138,
+      "step": 1700
+    },
+    {
+      "epoch": 3.36,
+      "eval_loss": 0.8929020762443542,
+      "eval_rouge1": 0.22999999999999998,
+      "eval_rouge2": 0.12491883116883117,
+      "eval_rougeL": 0.22615384615384615,
+      "eval_rougeLsum": 0.23115384615384618,
+      "eval_runtime": 86.6494,
+      "eval_samples_per_second": 0.231,
+      "eval_steps_per_second": 0.231,
+      "step": 1700
+    },
+    {
+      "epoch": 3.38,
+      "learning_rate": 0.0002653534183082271,
+      "loss": 0.164,
+      "step": 1710
+    },
+    {
+      "epoch": 3.4,
+      "learning_rate": 0.0002639049826187717,
+      "loss": 0.1249,
+      "step": 1720
+    },
+    {
+      "epoch": 3.42,
+      "learning_rate": 0.00026245654692931634,
+      "loss": 0.1356,
+      "step": 1730
+    },
+    {
+      "epoch": 3.44,
+      "learning_rate": 0.000261008111239861,
+      "loss": 0.1374,
+      "step": 1740
+    },
+    {
+      "epoch": 3.46,
+      "learning_rate": 0.00025955967555040557,
+      "loss": 0.2013,
+      "step": 1750
+    },
+    {
+      "epoch": 3.48,
+      "learning_rate": 0.0002581112398609502,
+      "loss": 0.1337,
+      "step": 1760
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 0.0002566628041714948,
+      "loss": 0.1226,
+      "step": 1770
+    },
+    {
+      "epoch": 3.52,
+      "learning_rate": 0.0002552143684820394,
+      "loss": 0.1166,
+      "step": 1780
+    },
+    {
+      "epoch": 3.54,
+      "learning_rate": 0.00025376593279258404,
+      "loss": 0.2308,
+      "step": 1790
+    },
+    {
+      "epoch": 3.56,
+      "learning_rate": 0.00025231749710312863,
+      "loss": 0.1265,
+      "step": 1800
+    },
+    {
+      "epoch": 3.56,
+      "eval_loss": 0.9203845858573914,
+      "eval_rouge1": 0.17454545454545453,
+      "eval_rouge2": 0.07291666666666667,
+      "eval_rougeL": 0.16999999999999998,
+      "eval_rougeLsum": 0.17727272727272728,
+      "eval_runtime": 87.9704,
+      "eval_samples_per_second": 0.227,
+      "eval_steps_per_second": 0.227,
+      "step": 1800
+    },
+    {
+      "epoch": 3.58,
+      "learning_rate": 0.0002508690614136732,
+      "loss": 0.1526,
+      "step": 1810
+    },
+    {
+      "epoch": 3.6,
+      "learning_rate": 0.00024942062572421786,
+      "loss": 0.2201,
+      "step": 1820
+    },
+    {
+      "epoch": 3.62,
+      "learning_rate": 0.00024797219003476245,
+      "loss": 0.1271,
+      "step": 1830
+    },
+    {
+      "epoch": 3.64,
+      "learning_rate": 0.0002465237543453071,
+      "loss": 0.1749,
+      "step": 1840
+    },
+    {
+      "epoch": 3.65,
+      "learning_rate": 0.0002450753186558517,
+      "loss": 0.133,
+      "step": 1850
+    },
+    {
+      "epoch": 3.67,
+      "learning_rate": 0.0002436268829663963,
+      "loss": 0.2259,
+      "step": 1860
+    },
+    {
+      "epoch": 3.69,
+      "learning_rate": 0.00024217844727694092,
+      "loss": 0.1549,
+      "step": 1870
+    },
+    {
+      "epoch": 3.71,
+      "learning_rate": 0.00024073001158748554,
+      "loss": 0.1173,
+      "step": 1880
+    },
+    {
+      "epoch": 3.73,
+      "learning_rate": 0.00023928157589803013,
+      "loss": 0.1337,
+      "step": 1890
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 0.00023783314020857474,
+      "loss": 0.1828,
+      "step": 1900
+    },
+    {
+      "epoch": 3.75,
+      "eval_loss": 0.9094276428222656,
+      "eval_rouge1": 0.18,
+      "eval_rouge2": 0.14886363636363636,
+      "eval_rougeL": 0.18,
+      "eval_rougeLsum": 0.18615384615384614,
+      "eval_runtime": 84.5106,
+      "eval_samples_per_second": 0.237,
+      "eval_steps_per_second": 0.237,
+      "step": 1900
+    },
+    {
+      "epoch": 3.77,
+      "learning_rate": 0.00023638470451911936,
+      "loss": 0.1821,
+      "step": 1910
+    },
+    {
+      "epoch": 3.79,
+      "learning_rate": 0.00023493626882966395,
+      "loss": 0.1257,
+      "step": 1920
+    },
+    {
+      "epoch": 3.81,
+      "learning_rate": 0.00023348783314020857,
+      "loss": 0.172,
+      "step": 1930
+    },
+    {
+      "epoch": 3.83,
+      "learning_rate": 0.0002320393974507532,
+      "loss": 0.1833,
+      "step": 1940
+    },
+    {
+      "epoch": 3.85,
+      "learning_rate": 0.0002305909617612978,
+      "loss": 0.1334,
+      "step": 1950
+    },
+    {
+      "epoch": 3.87,
+      "learning_rate": 0.00022914252607184242,
+      "loss": 0.1736,
+      "step": 1960
+    },
+    {
+      "epoch": 3.89,
+      "learning_rate": 0.00022769409038238703,
+      "loss": 0.1163,
+      "step": 1970
+    },
+    {
+      "epoch": 3.91,
+      "learning_rate": 0.00022624565469293165,
+      "loss": 0.1844,
+      "step": 1980
+    },
+    {
+      "epoch": 3.93,
+      "learning_rate": 0.00022479721900347624,
+      "loss": 0.1358,
+      "step": 1990
+    },
+    {
+      "epoch": 3.95,
+      "learning_rate": 0.00022334878331402086,
+      "loss": 0.1447,
+      "step": 2000
+    },
+    {
+      "epoch": 3.95,
+      "eval_loss": 0.89415442943573,
+      "eval_rouge1": 0.19,
+      "eval_rouge2": 0.09886363636363635,
+      "eval_rougeL": 0.18615384615384617,
+      "eval_rougeLsum": 0.19615384615384615,
+      "eval_runtime": 84.0506,
+      "eval_samples_per_second": 0.238,
+      "eval_steps_per_second": 0.238,
+      "step": 2000
+    },
+    {
+      "epoch": 3.97,
+      "learning_rate": 0.00022190034762456547,
+      "loss": 0.1566,
+      "step": 2010
+    },
+    {
+      "epoch": 3.99,
+      "learning_rate": 0.0002204519119351101,
+      "loss": 0.1132,
+      "step": 2020
+    },
+    {
+      "epoch": 4.01,
+      "learning_rate": 0.0002190034762456547,
+      "loss": 0.1013,
+      "step": 2030
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 0.00021755504055619932,
+      "loss": 0.1554,
+      "step": 2040
+    },
+    {
+      "epoch": 4.05,
+      "learning_rate": 0.0002161066048667439,
+      "loss": 0.1405,
+      "step": 2050
+    },
+    {
+      "epoch": 4.07,
+      "learning_rate": 0.00021465816917728853,
+      "loss": 0.152,
+      "step": 2060
+    },
+    {
+      "epoch": 4.09,
+      "learning_rate": 0.00021320973348783315,
+      "loss": 0.1591,
+      "step": 2070
+    },
+    {
+      "epoch": 4.11,
+      "learning_rate": 0.00021176129779837773,
+      "loss": 0.152,
+      "step": 2080
+    },
+    {
+      "epoch": 4.13,
+      "learning_rate": 0.00021031286210892235,
+      "loss": 0.1059,
+      "step": 2090
+    },
+    {
+      "epoch": 4.15,
+      "learning_rate": 0.000208864426419467,
+      "loss": 0.099,
+      "step": 2100
+    },
+    {
+      "epoch": 4.15,
+      "eval_loss": 0.9297454953193665,
+      "eval_rouge1": 0.23864468864468863,
+      "eval_rouge2": 0.15,
+      "eval_rougeL": 0.23516483516483513,
+      "eval_rougeLsum": 0.24514652014652014,
+      "eval_runtime": 85.7086,
+      "eval_samples_per_second": 0.233,
+      "eval_steps_per_second": 0.233,
+      "step": 2100
+    },
+    {
+      "epoch": 4.17,
+      "learning_rate": 0.0002074159907300116,
+      "loss": 0.0916,
+      "step": 2110
+    },
+    {
+      "epoch": 4.19,
+      "learning_rate": 0.0002059675550405562,
+      "loss": 0.2006,
+      "step": 2120
+    },
+    {
+      "epoch": 4.21,
+      "learning_rate": 0.00020451911935110082,
+      "loss": 0.144,
+      "step": 2130
+    },
+    {
+      "epoch": 4.23,
+      "learning_rate": 0.00020307068366164544,
+      "loss": 0.1893,
+      "step": 2140
+    },
+    {
+      "epoch": 4.25,
+      "learning_rate": 0.00020162224797219002,
+      "loss": 0.1697,
+      "step": 2150
+    },
+    {
+      "epoch": 4.27,
+      "learning_rate": 0.00020017381228273464,
+      "loss": 0.1101,
+      "step": 2160
+    },
+    {
+      "epoch": 4.29,
+      "learning_rate": 0.00019872537659327929,
+      "loss": 0.1539,
+      "step": 2170
+    },
+    {
+      "epoch": 4.31,
+      "learning_rate": 0.00019727694090382387,
+      "loss": 0.1038,
+      "step": 2180
+    },
+    {
+      "epoch": 4.33,
+      "learning_rate": 0.0001958285052143685,
+      "loss": 0.1466,
+      "step": 2190
+    },
+    {
+      "epoch": 4.35,
+      "learning_rate": 0.0001943800695249131,
+      "loss": 0.1366,
+      "step": 2200
+    },
+    {
+      "epoch": 4.35,
+      "eval_loss": 0.9124263525009155,
+      "eval_rouge1": 0.12,
+      "eval_rouge2": 0.07291666666666667,
+      "eval_rougeL": 0.12,
+      "eval_rougeLsum": 0.12454545454545454,
+      "eval_runtime": 91.5173,
+      "eval_samples_per_second": 0.219,
+      "eval_steps_per_second": 0.219,
+      "step": 2200
+    },
+    {
+      "epoch": 4.37,
+      "learning_rate": 0.0001929316338354577,
+      "loss": 0.1298,
+      "step": 2210
+    },
+    {
+      "epoch": 4.39,
+      "learning_rate": 0.00019148319814600231,
+      "loss": 0.1886,
+      "step": 2220
+    },
+    {
+      "epoch": 4.41,
+      "learning_rate": 0.00019003476245654693,
+      "loss": 0.1579,
+      "step": 2230
+    },
+    {
+      "epoch": 4.43,
+      "learning_rate": 0.00018858632676709152,
+      "loss": 0.1078,
+      "step": 2240
+    },
+    {
+      "epoch": 4.45,
+      "learning_rate": 0.00018713789107763616,
+      "loss": 0.1509,
+      "step": 2250
+    },
+    {
+      "epoch": 4.47,
+      "learning_rate": 0.00018568945538818078,
+      "loss": 0.108,
+      "step": 2260
+    },
+    {
+      "epoch": 4.49,
+      "learning_rate": 0.0001842410196987254,
+      "loss": 0.1305,
+      "step": 2270
+    },
+    {
+      "epoch": 4.5,
+      "learning_rate": 0.00018279258400927,
+      "loss": 0.1257,
+      "step": 2280
+    },
+    {
+      "epoch": 4.52,
+      "learning_rate": 0.0001813441483198146,
+      "loss": 0.117,
+      "step": 2290
+    },
+    {
+      "epoch": 4.54,
+      "learning_rate": 0.00017989571263035922,
+      "loss": 0.1519,
+      "step": 2300
+    },
+    {
+      "epoch": 4.54,
+      "eval_loss": 0.9040172696113586,
+      "eval_rouge1": 0.18727272727272726,
+      "eval_rouge2": 0.09861111111111112,
+      "eval_rougeL": 0.18333333333333332,
+      "eval_rougeLsum": 0.1906060606060606,
+      "eval_runtime": 82.9032,
+      "eval_samples_per_second": 0.241,
+      "eval_steps_per_second": 0.241,
+      "step": 2300
+    },
+    {
+      "epoch": 4.56,
+      "learning_rate": 0.0001784472769409038,
+      "loss": 0.1536,
+      "step": 2310
+    },
+    {
+      "epoch": 4.58,
+      "learning_rate": 0.00017699884125144843,
+      "loss": 0.1159,
+      "step": 2320
+    },
+    {
+      "epoch": 4.6,
+      "learning_rate": 0.00017555040556199307,
+      "loss": 0.1257,
+      "step": 2330
+    },
+    {
+      "epoch": 4.62,
+      "learning_rate": 0.00017410196987253766,
+      "loss": 0.1698,
+      "step": 2340
+    },
+    {
+      "epoch": 4.64,
+      "learning_rate": 0.00017265353418308228,
+      "loss": 0.1369,
+      "step": 2350
+    },
+    {
+      "epoch": 4.66,
+      "learning_rate": 0.0001712050984936269,
+      "loss": 0.0809,
+      "step": 2360
+    },
+    {
+      "epoch": 4.68,
+      "learning_rate": 0.00016975666280417148,
+      "loss": 0.1003,
+      "step": 2370
+    },
+    {
+      "epoch": 4.7,
+      "learning_rate": 0.0001683082271147161,
+      "loss": 0.1066,
+      "step": 2380
+    },
+    {
+      "epoch": 4.72,
+      "learning_rate": 0.00016685979142526072,
+      "loss": 0.1621,
+      "step": 2390
+    },
+    {
+      "epoch": 4.74,
+      "learning_rate": 0.00016541135573580533,
+      "loss": 0.119,
+      "step": 2400
+    },
+    {
+      "epoch": 4.74,
+      "eval_loss": 0.9120545387268066,
+      "eval_rouge1": 0.12,
+      "eval_rouge2": 0.04583333333333333,
+      "eval_rougeL": 0.11285714285714285,
+      "eval_rougeLsum": 0.12285714285714286,
+      "eval_runtime": 84.1673,
+      "eval_samples_per_second": 0.238,
+      "eval_steps_per_second": 0.238,
+      "step": 2400
+    },
+    {
+      "epoch": 4.76,
+      "learning_rate": 0.00016396292004634995,
+      "loss": 0.1185,
+      "step": 2410
+    },
+    {
+      "epoch": 4.78,
+      "learning_rate": 0.00016251448435689457,
+      "loss": 0.1657,
+      "step": 2420
+    },
+    {
+      "epoch": 4.8,
+      "learning_rate": 0.00016106604866743918,
+      "loss": 0.1233,
+      "step": 2430
+    },
+    {
+      "epoch": 4.82,
+      "learning_rate": 0.00015961761297798377,
+      "loss": 0.1611,
+      "step": 2440
+    },
+    {
+      "epoch": 4.84,
+      "learning_rate": 0.0001581691772885284,
+      "loss": 0.1613,
+      "step": 2450
+    },
+    {
+      "epoch": 4.86,
+      "learning_rate": 0.000156720741599073,
+      "loss": 0.1107,
+      "step": 2460
+    },
+    {
+      "epoch": 4.88,
+      "learning_rate": 0.0001552723059096176,
+      "loss": 0.1436,
+      "step": 2470
+    },
+    {
+      "epoch": 4.9,
+      "learning_rate": 0.00015382387022016221,
+      "loss": 0.129,
+      "step": 2480
+    },
+    {
+      "epoch": 4.92,
+      "learning_rate": 0.00015237543453070686,
+      "loss": 0.1586,
+      "step": 2490
+    },
+    {
+      "epoch": 4.94,
+      "learning_rate": 0.00015092699884125145,
+      "loss": 0.1364,
+      "step": 2500
+    },
+    {
+      "epoch": 4.94,
+      "eval_loss": 0.9120429754257202,
+      "eval_rouge1": 0.20904761904761907,
+      "eval_rouge2": 0.12583333333333332,
+      "eval_rougeL": 0.20666666666666664,
+      "eval_rougeLsum": 0.21904761904761902,
+      "eval_runtime": 82.9463,
+      "eval_samples_per_second": 0.241,
+      "eval_steps_per_second": 0.241,
+      "step": 2500
+    },
+    {
+      "epoch": 4.96,
+      "learning_rate": 0.00014947856315179606,
+      "loss": 0.1688,
+      "step": 2510
+    },
+    {
+      "epoch": 4.98,
+      "learning_rate": 0.00014803012746234068,
+      "loss": 0.1385,
+      "step": 2520
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 0.0001465816917728853,
+      "loss": 0.1592,
+      "step": 2530
+    },
+    {
+      "epoch": 5.02,
+      "learning_rate": 0.0001451332560834299,
+      "loss": 0.1014,
+      "step": 2540
+    },
+    {
+      "epoch": 5.04,
+      "learning_rate": 0.0001436848203939745,
+      "loss": 0.0796,
+      "step": 2550
+    },
+    {
+      "epoch": 5.06,
+      "learning_rate": 0.00014223638470451912,
+      "loss": 0.0981,
+      "step": 2560
+    },
+    {
+      "epoch": 5.08,
+      "learning_rate": 0.00014078794901506374,
+      "loss": 0.093,
+      "step": 2570
+    },
+    {
+      "epoch": 5.1,
+      "learning_rate": 0.00013933951332560835,
+      "loss": 0.1599,
+      "step": 2580
+    },
+    {
+      "epoch": 5.12,
+      "learning_rate": 0.00013789107763615297,
+      "loss": 0.1223,
+      "step": 2590
+    },
+    {
+      "epoch": 5.14,
+      "learning_rate": 0.00013644264194669756,
+      "loss": 0.1,
+      "step": 2600
+    },
+    {
+      "epoch": 5.14,
+      "eval_loss": 0.9408878087997437,
+      "eval_rouge1": 0.12507936507936507,
+      "eval_rouge2": 0.08333333333333333,
+      "eval_rougeL": 0.12396825396825398,
+      "eval_rougeLsum": 0.13111111111111112,
+      "eval_runtime": 96.2103,
+      "eval_samples_per_second": 0.208,
+      "eval_steps_per_second": 0.208,
+      "step": 2600
+    },
+    {
+      "epoch": 5.16,
+      "learning_rate": 0.00013499420625724218,
+      "loss": 0.1284,
+      "step": 2610
+    },
+    {
+      "epoch": 5.18,
+      "learning_rate": 0.0001335457705677868,
+      "loss": 0.1523,
+      "step": 2620
+    },
+    {
+      "epoch": 5.2,
+      "learning_rate": 0.00013209733487833138,
+      "loss": 0.1051,
+      "step": 2630
+    },
+    {
+      "epoch": 5.22,
+      "learning_rate": 0.00013064889918887603,
+      "loss": 0.1216,
+      "step": 2640
+    },
+    {
+      "epoch": 5.24,
+      "learning_rate": 0.00012920046349942064,
+      "loss": 0.1219,
+      "step": 2650
+    },
+    {
+      "epoch": 5.26,
+      "learning_rate": 0.00012775202780996523,
+      "loss": 0.1482,
+      "step": 2660
+    },
+    {
+      "epoch": 5.28,
+      "learning_rate": 0.00012630359212050985,
+      "loss": 0.1076,
+      "step": 2670
+    },
+    {
+      "epoch": 5.3,
+      "learning_rate": 0.00012485515643105447,
+      "loss": 0.121,
+      "step": 2680
+    },
+    {
+      "epoch": 5.32,
+      "learning_rate": 0.00012340672074159908,
+      "loss": 0.1448,
+      "step": 2690
+    },
+    {
+      "epoch": 5.34,
+      "learning_rate": 0.0001219582850521437,
+      "loss": 0.1683,
+      "step": 2700
+    },
+    {
+      "epoch": 5.34,
+      "eval_loss": 0.9422550201416016,
+      "eval_rouge1": 0.13818181818181818,
+      "eval_rouge2": 0.0951010101010101,
+      "eval_rougeL": 0.13713286713286715,
+      "eval_rougeLsum": 0.14174825174825176,
+      "eval_runtime": 96.365,
+      "eval_samples_per_second": 0.208,
+      "eval_steps_per_second": 0.208,
+      "step": 2700
+    },
+    {
+      "epoch": 5.36,
+      "learning_rate": 0.0001205098493626883,
+      "loss": 0.103,
+      "step": 2710
+    },
+    {
+      "epoch": 5.37,
+      "learning_rate": 0.0001190614136732329,
+      "loss": 0.1434,
+      "step": 2720
+    },
+    {
+      "epoch": 5.39,
+      "learning_rate": 0.00011761297798377752,
+      "loss": 0.1419,
+      "step": 2730
+    },
+    {
+      "epoch": 5.41,
+      "learning_rate": 0.00011616454229432214,
+      "loss": 0.1145,
+      "step": 2740
+    },
+    {
+      "epoch": 5.43,
+      "learning_rate": 0.00011471610660486674,
+      "loss": 0.1302,
+      "step": 2750
+    },
+    {
+      "epoch": 5.45,
+      "learning_rate": 0.00011326767091541136,
+      "loss": 0.0718,
+      "step": 2760
+    },
+    {
+      "epoch": 5.47,
+      "learning_rate": 0.00011181923522595596,
+      "loss": 0.1166,
+      "step": 2770
+    },
+    {
+      "epoch": 5.49,
+      "learning_rate": 0.0001103707995365006,
+      "loss": 0.1265,
+      "step": 2780
+    },
+    {
+      "epoch": 5.51,
+      "learning_rate": 0.0001089223638470452,
+      "loss": 0.0972,
+      "step": 2790
+    },
+    {
+      "epoch": 5.53,
+      "learning_rate": 0.0001074739281575898,
+      "loss": 0.1395,
+      "step": 2800
+    },
+    {
+      "epoch": 5.53,
+      "eval_loss": 0.9336325526237488,
+      "eval_rouge1": 0.16115384615384615,
+      "eval_rouge2": 0.12329545454545454,
+      "eval_rougeL": 0.15999999999999998,
+      "eval_rougeLsum": 0.16307692307692306,
+      "eval_runtime": 93.5346,
+      "eval_samples_per_second": 0.214,
+      "eval_steps_per_second": 0.214,
+      "step": 2800
+    },
+    {
+      "epoch": 5.55,
+      "learning_rate": 0.00010602549246813442,
+      "loss": 0.0808,
+      "step": 2810
+    },
+    {
+      "epoch": 5.57,
+      "learning_rate": 0.00010457705677867903,
+      "loss": 0.1205,
+      "step": 2820
+    },
+    {
+      "epoch": 5.59,
+      "learning_rate": 0.00010312862108922364,
+      "loss": 0.119,
+      "step": 2830
+    },
+    {
+      "epoch": 5.61,
+      "learning_rate": 0.00010168018539976825,
+      "loss": 0.1357,
+      "step": 2840
+    },
+    {
+      "epoch": 5.63,
+      "learning_rate": 0.00010023174971031286,
+      "loss": 0.1144,
+      "step": 2850
+    },
+    {
+      "epoch": 5.65,
+      "learning_rate": 9.878331402085749e-05,
+      "loss": 0.138,
+      "step": 2860
+    },
+    {
+      "epoch": 5.67,
+      "learning_rate": 9.733487833140209e-05,
+      "loss": 0.0998,
+      "step": 2870
+    },
+    {
+      "epoch": 5.69,
+      "learning_rate": 9.588644264194669e-05,
+      "loss": 0.1437,
+      "step": 2880
+    },
+    {
+      "epoch": 5.71,
+      "learning_rate": 9.443800695249131e-05,
+      "loss": 0.1053,
+      "step": 2890
+    },
+    {
+      "epoch": 5.73,
+      "learning_rate": 9.298957126303593e-05,
+      "loss": 0.1067,
+      "step": 2900
+    },
+    {
+      "epoch": 5.73,
+      "eval_loss": 0.9290033578872681,
+      "eval_rouge1": 0.2234265734265734,
+      "eval_rouge2": 0.13156565656565655,
+      "eval_rougeL": 0.21744755244755246,
+      "eval_rougeLsum": 0.2169230769230769,
+      "eval_runtime": 91.8958,
+      "eval_samples_per_second": 0.218,
+      "eval_steps_per_second": 0.218,
+      "step": 2900
+    },
+    {
+      "epoch": 5.75,
+      "learning_rate": 9.154113557358054e-05,
+      "loss": 0.1225,
+      "step": 2910
+    },
+    {
+      "epoch": 5.77,
+      "learning_rate": 9.009269988412515e-05,
+      "loss": 0.0867,
+      "step": 2920
+    },
+    {
+      "epoch": 5.79,
+      "learning_rate": 8.864426419466975e-05,
+      "loss": 0.1325,
+      "step": 2930
+    },
+    {
+      "epoch": 5.81,
+      "learning_rate": 8.719582850521438e-05,
+      "loss": 0.118,
+      "step": 2940
+    },
+    {
+      "epoch": 5.83,
+      "learning_rate": 8.574739281575898e-05,
+      "loss": 0.112,
+      "step": 2950
+    },
+    {
+      "epoch": 5.85,
+      "learning_rate": 8.429895712630359e-05,
+      "loss": 0.1326,
+      "step": 2960
+    },
+    {
+      "epoch": 5.87,
+      "learning_rate": 8.28505214368482e-05,
+      "loss": 0.1506,
+      "step": 2970
+    },
+    {
+      "epoch": 5.89,
+      "learning_rate": 8.140208574739282e-05,
+      "loss": 0.1499,
+      "step": 2980
+    },
+    {
+      "epoch": 5.91,
+      "learning_rate": 7.995365005793744e-05,
+      "loss": 0.1092,
+      "step": 2990
+    },
+    {
+      "epoch": 5.93,
+      "learning_rate": 7.850521436848204e-05,
+      "loss": 0.1104,
+      "step": 3000
+    },
+    {
+      "epoch": 5.93,
+      "eval_loss": 0.9244877696037292,
+      "eval_rouge1": 0.2,
+      "eval_rouge2": 0.1,
+      "eval_rougeL": 0.19153846153846155,
+      "eval_rougeLsum": 0.19153846153846155,
+      "eval_runtime": 93.7022,
+      "eval_samples_per_second": 0.213,
+      "eval_steps_per_second": 0.213,
+      "step": 3000
+    },
+    {
+      "epoch": 5.95,
+      "learning_rate": 7.705677867902664e-05,
+      "loss": 0.0824,
+      "step": 3010
+    },
+    {
+      "epoch": 5.97,
+      "learning_rate": 7.560834298957127e-05,
+      "loss": 0.1048,
+      "step": 3020
+    },
+    {
+      "epoch": 5.99,
+      "learning_rate": 7.415990730011588e-05,
+      "loss": 0.1295,
+      "step": 3030
+    },
+    {
+      "epoch": 6.01,
+      "learning_rate": 7.271147161066048e-05,
+      "loss": 0.1296,
+      "step": 3040
+    },
+    {
+      "epoch": 6.03,
+      "learning_rate": 7.12630359212051e-05,
+      "loss": 0.1146,
+      "step": 3050
+    },
+    {
+      "epoch": 6.05,
+      "learning_rate": 6.981460023174971e-05,
+      "loss": 0.1158,
+      "step": 3060
+    },
+    {
+      "epoch": 6.07,
+      "learning_rate": 6.836616454229433e-05,
+      "loss": 0.094,
+      "step": 3070
+    },
+    {
+      "epoch": 6.09,
+      "learning_rate": 6.691772885283893e-05,
+      "loss": 0.1141,
+      "step": 3080
+    },
+    {
+      "epoch": 6.11,
+      "learning_rate": 6.546929316338354e-05,
+      "loss": 0.1025,
+      "step": 3090
+    },
+    {
+      "epoch": 6.13,
+      "learning_rate": 6.402085747392817e-05,
+      "loss": 0.1474,
+      "step": 3100
+    },
+    {
+      "epoch": 6.13,
+      "eval_loss": 0.9422538876533508,
+      "eval_rouge1": 0.20069541569541566,
+      "eval_rouge2": 0.10303030303030303,
+      "eval_rougeL": 0.19625097125097124,
+      "eval_rougeLsum": 0.19848096348096347,
+      "eval_runtime": 94.7246,
+      "eval_samples_per_second": 0.211,
+      "eval_steps_per_second": 0.211,
+      "step": 3100
+    },
+    {
+      "epoch": 6.15,
+      "learning_rate": 6.257242178447277e-05,
+      "loss": 0.09,
+      "step": 3110
+    },
+    {
+      "epoch": 6.17,
+      "learning_rate": 6.112398609501739e-05,
+      "loss": 0.1235,
+      "step": 3120
+    },
+    {
+      "epoch": 6.19,
+      "learning_rate": 5.9675550405561996e-05,
+      "loss": 0.0733,
+      "step": 3130
+    },
+    {
+      "epoch": 6.21,
+      "learning_rate": 5.822711471610661e-05,
+      "loss": 0.1035,
+      "step": 3140
+    },
+    {
+      "epoch": 6.22,
+      "learning_rate": 5.6778679026651216e-05,
+      "loss": 0.1027,
+      "step": 3150
+    },
+    {
+      "epoch": 6.24,
+      "learning_rate": 5.533024333719583e-05,
+      "loss": 0.0863,
+      "step": 3160
+    },
+    {
+      "epoch": 6.26,
+      "learning_rate": 5.388180764774044e-05,
+      "loss": 0.095,
+      "step": 3170
+    },
+    {
+      "epoch": 6.28,
+      "learning_rate": 5.243337195828506e-05,
+      "loss": 0.1103,
+      "step": 3180
+    },
+    {
+      "epoch": 6.3,
+      "learning_rate": 5.098493626882966e-05,
+      "loss": 0.1325,
+      "step": 3190
+    },
+    {
+      "epoch": 6.32,
+      "learning_rate": 4.953650057937428e-05,
+      "loss": 0.1052,
+      "step": 3200
+    },
+    {
+      "epoch": 6.32,
+      "eval_loss": 0.9328528642654419,
+      "eval_rouge1": 0.2023076923076923,
+      "eval_rouge2": 0.1102272727272727,
+      "eval_rougeL": 0.19999999999999998,
+      "eval_rougeLsum": 0.2,
+      "eval_runtime": 92.8302,
+      "eval_samples_per_second": 0.215,
+      "eval_steps_per_second": 0.215,
+      "step": 3200
+    },
+    {
+      "epoch": 6.34,
+      "learning_rate": 4.808806488991889e-05,
+      "loss": 0.1293,
+      "step": 3210
+    },
+    {
+      "epoch": 6.36,
+      "learning_rate": 4.6639629200463506e-05,
+      "loss": 0.1301,
+      "step": 3220
+    },
+    {
+      "epoch": 6.38,
+      "learning_rate": 4.519119351100811e-05,
+      "loss": 0.0873,
+      "step": 3230
+    },
+    {
+      "epoch": 6.4,
+      "learning_rate": 4.3742757821552725e-05,
+      "loss": 0.1017,
+      "step": 3240
+    },
+    {
+      "epoch": 6.42,
+      "learning_rate": 4.2294322132097335e-05,
+      "loss": 0.0846,
+      "step": 3250
+    },
+    {
+      "epoch": 6.44,
+      "learning_rate": 4.084588644264195e-05,
+      "loss": 0.0898,
+      "step": 3260
+    },
+    {
+      "epoch": 6.46,
+      "learning_rate": 3.9397450753186555e-05,
+      "loss": 0.1494,
+      "step": 3270
+    },
+    {
+      "epoch": 6.48,
+      "learning_rate": 3.794901506373117e-05,
+      "loss": 0.0742,
+      "step": 3280
+    },
+    {
+      "epoch": 6.5,
+      "learning_rate": 3.650057937427578e-05,
+      "loss": 0.0793,
+      "step": 3290
+    },
+    {
+      "epoch": 6.52,
+      "learning_rate": 3.50521436848204e-05,
+      "loss": 0.1203,
+      "step": 3300
+    },
+    {
+      "epoch": 6.52,
+      "eval_loss": 0.9380243420600891,
+      "eval_rouge1": 0.2023076923076923,
+      "eval_rouge2": 0.1102272727272727,
+      "eval_rougeL": 0.19999999999999998,
+      "eval_rougeLsum": 0.2,
+      "eval_runtime": 94.5066,
+      "eval_samples_per_second": 0.212,
+      "eval_steps_per_second": 0.212,
+      "step": 3300
+    },
+    {
+      "epoch": 6.54,
+      "learning_rate": 3.360370799536501e-05,
+      "loss": 0.1257,
+      "step": 3310
+    },
+    {
+      "epoch": 6.56,
+      "learning_rate": 3.215527230590962e-05,
+      "loss": 0.1177,
+      "step": 3320
+    },
+    {
+      "epoch": 6.58,
+      "learning_rate": 3.070683661645423e-05,
+      "loss": 0.1359,
+      "step": 3330
+    },
+    {
+      "epoch": 6.6,
+      "learning_rate": 2.9258400926998842e-05,
+      "loss": 0.1303,
+      "step": 3340
+    },
+    {
+      "epoch": 6.62,
+      "learning_rate": 2.7809965237543452e-05,
+      "loss": 0.0968,
+      "step": 3350
+    },
+    {
+      "epoch": 6.64,
+      "learning_rate": 2.6361529548088065e-05,
+      "loss": 0.1061,
+      "step": 3360
+    },
+    {
+      "epoch": 6.66,
+      "learning_rate": 2.4913093858632675e-05,
+      "loss": 0.1307,
+      "step": 3370
+    },
+    {
+      "epoch": 6.68,
+      "learning_rate": 2.346465816917729e-05,
+      "loss": 0.0981,
+      "step": 3380
+    },
+    {
+      "epoch": 6.7,
+      "learning_rate": 2.20162224797219e-05,
+      "loss": 0.0901,
+      "step": 3390
+    },
+    {
+      "epoch": 6.72,
+      "learning_rate": 2.0567786790266515e-05,
+      "loss": 0.1125,
+      "step": 3400
+    },
+    {
+      "epoch": 6.72,
+      "eval_loss": 0.9421626925468445,
+      "eval_rouge1": 0.18958041958041955,
+      "eval_rouge2": 0.0977272727272727,
+      "eval_rougeL": 0.18615384615384614,
+      "eval_rougeLsum": 0.19,
+      "eval_runtime": 96.4239,
+      "eval_samples_per_second": 0.207,
+      "eval_steps_per_second": 0.207,
+      "step": 3400
+    },
+    {
+      "epoch": 6.74,
+      "learning_rate": 1.9119351100811125e-05,
+      "loss": 0.0823,
+      "step": 3410
+    },
+    {
+      "epoch": 6.76,
+      "learning_rate": 1.767091541135574e-05,
+      "loss": 0.1016,
+      "step": 3420
+    },
+    {
+      "epoch": 6.78,
+      "learning_rate": 1.6222479721900348e-05,
+      "loss": 0.1172,
+      "step": 3430
+    },
+    {
+      "epoch": 6.8,
+      "learning_rate": 1.477404403244496e-05,
+      "loss": 0.0959,
+      "step": 3440
+    },
+    {
+      "epoch": 6.82,
+      "learning_rate": 1.3325608342989572e-05,
+      "loss": 0.1534,
+      "step": 3450
+    },
+    {
+      "epoch": 6.84,
+      "learning_rate": 1.1877172653534183e-05,
+      "loss": 0.125,
+      "step": 3460
+    },
+    {
+      "epoch": 6.86,
+      "learning_rate": 1.0428736964078795e-05,
+      "loss": 0.1221,
+      "step": 3470
+    },
+    {
+      "epoch": 6.88,
+      "learning_rate": 8.980301274623406e-06,
+      "loss": 0.1391,
+      "step": 3480
+    },
+    {
+      "epoch": 6.9,
+      "learning_rate": 7.531865585168019e-06,
+      "loss": 0.0986,
+      "step": 3490
+    },
+    {
+      "epoch": 6.92,
+      "learning_rate": 6.083429895712631e-06,
+      "loss": 0.1323,
+      "step": 3500
+    },
+    {
+      "epoch": 6.92,
+      "eval_loss": 0.9433181881904602,
+      "eval_rouge1": 0.19,
+      "eval_rouge2": 0.0977272727272727,
+      "eval_rougeL": 0.18615384615384617,
+      "eval_rougeLsum": 0.19,
+      "eval_runtime": 94.6833,
+      "eval_samples_per_second": 0.211,
+      "eval_steps_per_second": 0.211,
+      "step": 3500
+    },
+    {
+      "epoch": 6.94,
+      "learning_rate": 0.00015593561368209256,
+      "loss": 0.1147,
+      "step": 3510
+    },
+    {
+      "epoch": 6.95,
+      "learning_rate": 0.00015492957746478874,
+      "loss": 0.0879,
+      "step": 3520
+    },
+    {
+      "epoch": 6.97,
+      "learning_rate": 0.0001539235412474849,
+      "loss": 0.095,
+      "step": 3530
+    },
+    {
+      "epoch": 6.99,
+      "learning_rate": 0.00015291750503018109,
+      "loss": 0.1277,
+      "step": 3540
+    },
+    {
+      "epoch": 7.02,
+      "learning_rate": 0.00015191146881287726,
+      "loss": 0.1332,
+      "step": 3550
+    },
+    {
+      "epoch": 7.04,
+      "learning_rate": 0.00015090543259557344,
+      "loss": 0.1055,
+      "step": 3560
+    },
+    {
+      "epoch": 7.06,
+      "learning_rate": 0.00014989939637826964,
+      "loss": 0.1114,
+      "step": 3570
+    },
+    {
+      "epoch": 7.07,
+      "learning_rate": 0.00014889336016096582,
+      "loss": 0.0983,
+      "step": 3580
+    },
+    {
+      "epoch": 7.09,
+      "learning_rate": 0.00014788732394366196,
+      "loss": 0.0823,
+      "step": 3590
+    },
+    {
+      "epoch": 7.11,
+      "learning_rate": 0.00014688128772635814,
+      "loss": 0.0949,
+      "step": 3600
+    },
+    {
+      "epoch": 7.11,
+      "eval_loss": 0.9529324769973755,
+      "eval_rouge1": 0.1603205128205128,
+      "eval_rouge2": 0.09454545454545453,
+      "eval_rougeL": 0.16115384615384615,
+      "eval_rougeLsum": 0.15993589743589742,
+      "eval_runtime": 96.2453,
+      "eval_samples_per_second": 0.208,
+      "eval_steps_per_second": 0.208,
+      "step": 3600
+    },
+    {
+      "epoch": 7.13,
+      "learning_rate": 0.00014587525150905434,
+      "loss": 0.0698,
+      "step": 3610
+    },
+    {
+      "epoch": 7.15,
+      "learning_rate": 0.00014486921529175052,
+      "loss": 0.0694,
+      "step": 3620
+    },
+    {
+      "epoch": 7.17,
+      "learning_rate": 0.0001438631790744467,
+      "loss": 0.1078,
+      "step": 3630
+    },
+    {
+      "epoch": 7.19,
+      "learning_rate": 0.00014285714285714284,
+      "loss": 0.1292,
+      "step": 3640
+    },
+    {
+      "epoch": 7.21,
+      "learning_rate": 0.00014185110663983904,
+      "loss": 0.1175,
+      "step": 3650
+    },
+    {
+      "epoch": 7.23,
+      "learning_rate": 0.00014084507042253522,
+      "loss": 0.1168,
+      "step": 3660
+    },
+    {
+      "epoch": 7.25,
+      "learning_rate": 0.0001398390342052314,
+      "loss": 0.0948,
+      "step": 3670
+    },
+    {
+      "epoch": 7.27,
+      "learning_rate": 0.00013883299798792757,
+      "loss": 0.1314,
+      "step": 3680
+    },
+    {
+      "epoch": 7.29,
+      "learning_rate": 0.00013782696177062375,
+      "loss": 0.1068,
+      "step": 3690
+    },
+    {
+      "epoch": 7.31,
+      "learning_rate": 0.00013682092555331992,
+      "loss": 0.1059,
+      "step": 3700
+    },
+    {
+      "epoch": 7.31,
+      "eval_loss": 0.9520353078842163,
+      "eval_rouge1": 0.13832167832167833,
+      "eval_rouge2": 0.0977272727272727,
+      "eval_rougeL": 0.14185314685314687,
+      "eval_rougeLsum": 0.13999999999999999,
+      "eval_runtime": 91.3536,
+      "eval_samples_per_second": 0.219,
+      "eval_steps_per_second": 0.219,
+      "step": 3700
+    },
+    {
+      "epoch": 7.33,
+      "learning_rate": 0.0001358148893360161,
+      "loss": 0.0945,
+      "step": 3710
+    },
+    {
+      "epoch": 7.35,
+      "learning_rate": 0.00013480885311871227,
+      "loss": 0.1298,
+      "step": 3720
+    },
+    {
+      "epoch": 7.37,
+      "learning_rate": 0.00013380281690140845,
+      "loss": 0.0972,
+      "step": 3730
+    },
+    {
+      "epoch": 7.39,
+      "learning_rate": 0.00013279678068410465,
+      "loss": 0.1007,
+      "step": 3740
+    },
+    {
+      "epoch": 7.41,
+      "learning_rate": 0.0001317907444668008,
+      "loss": 0.1194,
+      "step": 3750
+    },
+    {
+      "epoch": 7.43,
+      "learning_rate": 0.00013078470824949697,
+      "loss": 0.1416,
+      "step": 3760
+    },
+    {
+      "epoch": 7.45,
+      "learning_rate": 0.00012977867203219315,
+      "loss": 0.1112,
+      "step": 3770
+    },
+    {
+      "epoch": 7.47,
+      "learning_rate": 0.00012877263581488935,
+      "loss": 0.1232,
+      "step": 3780
+    },
+    {
+      "epoch": 7.49,
+      "learning_rate": 0.00012776659959758553,
+      "loss": 0.1053,
+      "step": 3790
+    },
+    {
+      "epoch": 7.51,
+      "learning_rate": 0.0001267605633802817,
+      "loss": 0.1482,
+      "step": 3800
+    },
+    {
+      "epoch": 7.51,
+      "eval_loss": 0.9513714909553528,
+      "eval_rouge1": 0.21115384615384616,
+      "eval_rouge2": 0.12045454545454545,
+      "eval_rougeL": 0.20999999999999996,
+      "eval_rougeLsum": 0.20730769230769228,
+      "eval_runtime": 90.7686,
+      "eval_samples_per_second": 0.22,
+      "eval_steps_per_second": 0.22,
+      "step": 3800
+    },
+    {
+      "epoch": 7.53,
+      "learning_rate": 0.00012575452716297785,
+      "loss": 0.1281,
+      "step": 3810
+    },
+    {
+      "epoch": 7.55,
+      "learning_rate": 0.00012474849094567405,
+      "loss": 0.1547,
+      "step": 3820
+    },
+    {
+      "epoch": 7.57,
+      "learning_rate": 0.00012374245472837023,
+      "loss": 0.1283,
+      "step": 3830
+    },
+    {
+      "epoch": 7.59,
+      "learning_rate": 0.0001227364185110664,
+      "loss": 0.174,
+      "step": 3840
+    },
+    {
+      "epoch": 7.61,
+      "learning_rate": 0.00012173038229376258,
+      "loss": 0.0827,
+      "step": 3850
+    },
+    {
+      "epoch": 7.63,
+      "learning_rate": 0.00012072434607645876,
+      "loss": 0.1174,
+      "step": 3860
+    },
+    {
+      "epoch": 7.65,
+      "learning_rate": 0.00011971830985915493,
+      "loss": 0.0914,
+      "step": 3870
+    },
+    {
+      "epoch": 7.67,
+      "learning_rate": 0.0001187122736418511,
+      "loss": 0.1205,
+      "step": 3880
+    },
+    {
+      "epoch": 7.69,
+      "learning_rate": 0.00011770623742454728,
+      "loss": 0.0821,
+      "step": 3890
+    },
+    {
+      "epoch": 7.71,
+      "learning_rate": 0.00011670020120724347,
+      "loss": 0.1268,
+      "step": 3900
+    },
+    {
+      "epoch": 7.71,
+      "eval_loss": 0.938602089881897,
+      "eval_rouge1": 0.20384615384615384,
+      "eval_rouge2": 0.10909090909090909,
+      "eval_rougeL": 0.20153846153846153,
+      "eval_rougeLsum": 0.20076923076923076,
+      "eval_runtime": 89.8217,
+      "eval_samples_per_second": 0.223,
+      "eval_steps_per_second": 0.223,
+      "step": 3900
+    },
+    {
+      "epoch": 7.73,
+      "learning_rate": 0.00011569416498993963,
+      "loss": 0.0964,
+      "step": 3910
+    },
+    {
+      "epoch": 7.75,
+      "learning_rate": 0.00011468812877263582,
+      "loss": 0.0878,
+      "step": 3920
+    },
+    {
+      "epoch": 7.77,
+      "learning_rate": 0.00011368209255533198,
+      "loss": 0.1205,
+      "step": 3930
+    },
+    {
+      "epoch": 7.79,
+      "learning_rate": 0.00011267605633802817,
+      "loss": 0.0916,
+      "step": 3940
+    },
+    {
+      "epoch": 7.8,
+      "learning_rate": 0.00011167002012072435,
+      "loss": 0.1021,
+      "step": 3950
+    },
+    {
+      "epoch": 7.82,
+      "learning_rate": 0.00011066398390342052,
+      "loss": 0.0843,
+      "step": 3960
+    },
+    {
+      "epoch": 7.84,
+      "learning_rate": 0.0001096579476861167,
+      "loss": 0.0947,
+      "step": 3970
+    },
+    {
+      "epoch": 7.86,
+      "learning_rate": 0.00010865191146881289,
+      "loss": 0.0884,
+      "step": 3980
+    },
+    {
+      "epoch": 7.88,
+      "learning_rate": 0.00010764587525150905,
+      "loss": 0.0943,
+      "step": 3990
+    },
+    {
+      "epoch": 7.9,
+      "learning_rate": 0.00010663983903420524,
+      "loss": 0.089,
+      "step": 4000
+    },
+    {
+      "epoch": 7.9,
+      "eval_loss": 0.9426229596138,
+      "eval_rouge1": 0.15076923076923077,
+      "eval_rouge2": 0.1181818181818182,
+      "eval_rougeL": 0.15615384615384614,
+      "eval_rougeLsum": 0.15384615384615383,
+      "eval_runtime": 90.9011,
+      "eval_samples_per_second": 0.22,
+      "eval_steps_per_second": 0.22,
+      "step": 4000
+    },
+    {
+      "epoch": 7.92,
+      "learning_rate": 0.00010563380281690141,
+      "loss": 0.1264,
+      "step": 4010
+    },
+    {
+      "epoch": 7.94,
+      "learning_rate": 0.00010462776659959759,
+      "loss": 0.1026,
+      "step": 4020
+    },
+    {
+      "epoch": 7.96,
+      "learning_rate": 0.00010362173038229377,
+      "loss": 0.1348,
+      "step": 4030
+    },
+    {
+      "epoch": 7.98,
+      "learning_rate": 0.00010261569416498995,
+      "loss": 0.1893,
+      "step": 4040
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 0.00010160965794768612,
+      "loss": 0.1048,
+      "step": 4050
+    },
+    {
+      "epoch": 8.02,
+      "learning_rate": 0.0001006036217303823,
+      "loss": 0.1576,
+      "step": 4060
+    },
+    {
+      "epoch": 8.04,
+      "learning_rate": 9.959758551307847e-05,
+      "loss": 0.1084,
+      "step": 4070
+    },
+    {
+      "epoch": 8.06,
+      "learning_rate": 9.859154929577464e-05,
+      "loss": 0.089,
+      "step": 4080
+    },
+    {
+      "epoch": 8.08,
+      "learning_rate": 9.758551307847083e-05,
+      "loss": 0.0989,
+      "step": 4090
+    },
+    {
+      "epoch": 8.1,
+      "learning_rate": 9.6579476861167e-05,
+      "loss": 0.108,
+      "step": 4100
+    },
+    {
+      "epoch": 8.1,
+      "eval_loss": 0.9726575016975403,
+      "eval_rouge1": 0.1383333333333333,
+      "eval_rouge2": 0.10340909090909092,
+      "eval_rougeL": 0.14448717948717948,
+      "eval_rougeLsum": 0.13666666666666666,
+      "eval_runtime": 89.426,
+      "eval_samples_per_second": 0.224,
+      "eval_steps_per_second": 0.224,
+      "step": 4100
+    },
+    {
+      "epoch": 8.12,
+      "learning_rate": 9.557344064386318e-05,
+      "loss": 0.0576,
+      "step": 4110
+    },
+    {
+      "epoch": 8.14,
+      "learning_rate": 9.456740442655936e-05,
+      "loss": 0.0937,
+      "step": 4120
+    },
+    {
+      "epoch": 8.16,
+      "learning_rate": 9.356136820925553e-05,
+      "loss": 0.0814,
+      "step": 4130
+    },
+    {
+      "epoch": 8.18,
+      "learning_rate": 9.255533199195171e-05,
+      "loss": 0.0832,
+      "step": 4140
+    },
+    {
+      "epoch": 8.2,
+      "learning_rate": 9.15492957746479e-05,
+      "loss": 0.0881,
+      "step": 4150
+    },
+    {
+      "epoch": 8.22,
+      "learning_rate": 9.054325955734406e-05,
+      "loss": 0.0785,
+      "step": 4160
+    },
+    {
+      "epoch": 8.24,
+      "learning_rate": 8.953722334004025e-05,
+      "loss": 0.1046,
+      "step": 4170
+    },
+    {
+      "epoch": 8.26,
+      "learning_rate": 8.853118712273642e-05,
+      "loss": 0.1137,
+      "step": 4180
+    },
+    {
+      "epoch": 8.28,
+      "learning_rate": 8.75251509054326e-05,
+      "loss": 0.0966,
+      "step": 4190
+    },
+    {
+      "epoch": 8.3,
+      "learning_rate": 8.651911468812877e-05,
+      "loss": 0.1292,
+      "step": 4200
+    },
+    {
+      "epoch": 8.3,
+      "eval_loss": 0.9639500379562378,
+      "eval_rouge1": 0.21000000000000002,
+      "eval_rouge2": 0.12563131313131312,
+      "eval_rougeL": 0.2097902097902098,
+      "eval_rougeLsum": 0.20979020979020976,
+      "eval_runtime": 86.8779,
+      "eval_samples_per_second": 0.23,
+      "eval_steps_per_second": 0.23,
+      "step": 4200
+    },
+    {
+      "epoch": 8.32,
+      "learning_rate": 8.551307847082495e-05,
+      "loss": 0.099,
+      "step": 4210
+    },
+    {
+      "epoch": 8.34,
+      "learning_rate": 8.450704225352113e-05,
+      "loss": 0.082,
+      "step": 4220
+    },
+    {
+      "epoch": 8.36,
+      "learning_rate": 8.350100603621731e-05,
+      "loss": 0.1007,
+      "step": 4230
+    },
+    {
+      "epoch": 8.38,
+      "learning_rate": 8.249496981891348e-05,
+      "loss": 0.0826,
+      "step": 4240
+    },
+    {
+      "epoch": 8.4,
+      "learning_rate": 8.148893360160967e-05,
+      "loss": 0.0823,
+      "step": 4250
+    },
+    {
+      "epoch": 8.42,
+      "learning_rate": 8.048289738430584e-05,
+      "loss": 0.0863,
+      "step": 4260
+    },
+    {
+      "epoch": 8.44,
+      "learning_rate": 7.9476861167002e-05,
+      "loss": 0.1037,
+      "step": 4270
+    },
+    {
+      "epoch": 8.46,
+      "learning_rate": 7.847082494969819e-05,
+      "loss": 0.097,
+      "step": 4280
+    },
+    {
+      "epoch": 8.48,
+      "learning_rate": 7.746478873239437e-05,
+      "loss": 0.0589,
+      "step": 4290
+    },
+    {
+      "epoch": 8.5,
+      "learning_rate": 7.645875251509054e-05,
+      "loss": 0.0868,
+      "step": 4300
+    },
+    {
+      "epoch": 8.5,
+      "eval_loss": 0.9618169069290161,
+      "eval_rouge1": 0.15,
+      "eval_rouge2": 0.09431818181818181,
+      "eval_rougeL": 0.15076923076923077,
+      "eval_rougeLsum": 0.1465384615384615,
+      "eval_runtime": 86.2134,
+      "eval_samples_per_second": 0.232,
+      "eval_steps_per_second": 0.232,
+      "step": 4300
+    },
+    {
+      "epoch": 8.52,
+      "learning_rate": 7.545271629778672e-05,
+      "loss": 0.0964,
+      "step": 4310
+    },
+    {
+      "epoch": 8.54,
+      "learning_rate": 7.444668008048291e-05,
+      "loss": 0.1144,
+      "step": 4320
+    },
+    {
+      "epoch": 8.56,
+      "learning_rate": 7.344064386317907e-05,
+      "loss": 0.1029,
+      "step": 4330
+    },
+    {
+      "epoch": 8.58,
+      "learning_rate": 7.243460764587526e-05,
+      "loss": 0.0978,
+      "step": 4340
+    },
+    {
+      "epoch": 8.6,
+      "learning_rate": 7.142857142857142e-05,
+      "loss": 0.142,
+      "step": 4350
+    },
+    {
+      "epoch": 8.62,
+      "learning_rate": 7.042253521126761e-05,
+      "loss": 0.0957,
+      "step": 4360
+    },
+    {
+      "epoch": 8.64,
+      "learning_rate": 6.941649899396378e-05,
+      "loss": 0.0896,
+      "step": 4370
+    },
+    {
+      "epoch": 8.65,
+      "learning_rate": 6.841046277665996e-05,
+      "loss": 0.0998,
+      "step": 4380
+    },
+    {
+      "epoch": 8.67,
+      "learning_rate": 6.740442655935614e-05,
+      "loss": 0.0828,
+      "step": 4390
+    },
+    {
+      "epoch": 8.69,
+      "learning_rate": 6.639839034205232e-05,
+      "loss": 0.1023,
+      "step": 4400
+    },
+    {
+      "epoch": 8.69,
+      "eval_loss": 0.9609012603759766,
+      "eval_rouge1": 0.18,
+      "eval_rouge2": 0.075,
+      "eval_rougeL": 0.18,
+      "eval_rougeLsum": 0.18,
+      "eval_runtime": 85.733,
+      "eval_samples_per_second": 0.233,
+      "eval_steps_per_second": 0.233,
+      "step": 4400
+    },
+    {
+      "epoch": 8.71,
+      "learning_rate": 6.539235412474849e-05,
+      "loss": 0.1324,
+      "step": 4410
+    },
+    {
+      "epoch": 8.73,
+      "learning_rate": 6.438631790744468e-05,
+      "loss": 0.1107,
+      "step": 4420
+    },
+    {
+      "epoch": 8.75,
+      "learning_rate": 6.338028169014085e-05,
+      "loss": 0.0756,
+      "step": 4430
+    },
+    {
+      "epoch": 8.77,
+      "learning_rate": 6.237424547283703e-05,
+      "loss": 0.1019,
+      "step": 4440
+    },
+    {
+      "epoch": 8.79,
+      "learning_rate": 6.13682092555332e-05,
+      "loss": 0.1232,
+      "step": 4450
+    },
+    {
+      "epoch": 8.81,
+      "learning_rate": 6.036217303822938e-05,
+      "loss": 0.1186,
+      "step": 4460
+    },
+    {
+      "epoch": 8.83,
+      "learning_rate": 5.935613682092555e-05,
+      "loss": 0.1093,
+      "step": 4470
+    },
+    {
+      "epoch": 8.85,
+      "learning_rate": 5.8350100603621735e-05,
+      "loss": 0.1009,
+      "step": 4480
+    },
+    {
+      "epoch": 8.87,
+      "learning_rate": 5.734406438631791e-05,
+      "loss": 0.0878,
+      "step": 4490
+    },
+    {
+      "epoch": 8.89,
+      "learning_rate": 5.6338028169014086e-05,
+      "loss": 0.1102,
+      "step": 4500
+    },
+    {
+      "epoch": 8.89,
+      "eval_loss": 0.9644363522529602,
+      "eval_rouge1": 0.14615384615384613,
+      "eval_rouge2": 0.1,
+      "eval_rougeL": 0.15115384615384614,
+      "eval_rougeLsum": 0.145,
+      "eval_runtime": 83.9759,
+      "eval_samples_per_second": 0.238,
+      "eval_steps_per_second": 0.238,
+      "step": 4500
+    },
+    {
+      "epoch": 8.91,
+      "learning_rate": 5.533199195171026e-05,
+      "loss": 0.1363,
+      "step": 4510
+    },
+    {
+      "epoch": 8.93,
+      "learning_rate": 5.4325955734406444e-05,
+      "loss": 0.0738,
+      "step": 4520
+    },
+    {
+      "epoch": 8.95,
+      "learning_rate": 5.331991951710262e-05,
+      "loss": 0.0649,
+      "step": 4530
+    },
+    {
+      "epoch": 8.97,
+      "learning_rate": 5.2313883299798795e-05,
+      "loss": 0.0971,
+      "step": 4540
+    },
+    {
+      "epoch": 8.99,
+      "learning_rate": 5.130784708249498e-05,
+      "loss": 0.0688,
+      "step": 4550
+    },
+    {
+      "epoch": 9.01,
+      "learning_rate": 5.030181086519115e-05,
+      "loss": 0.0837,
+      "step": 4560
+    },
+    {
+      "epoch": 9.03,
+      "learning_rate": 4.929577464788732e-05,
+      "loss": 0.0891,
+      "step": 4570
+    },
+    {
+      "epoch": 9.05,
+      "learning_rate": 4.82897384305835e-05,
+      "loss": 0.0744,
+      "step": 4580
+    },
+    {
+      "epoch": 9.07,
+      "learning_rate": 4.728370221327968e-05,
+      "loss": 0.0906,
+      "step": 4590
+    },
+    {
+      "epoch": 9.09,
+      "learning_rate": 4.6277665995975854e-05,
+      "loss": 0.1102,
+      "step": 4600
+    },
+    {
+      "epoch": 9.09,
+      "eval_loss": 0.9806769490242004,
+      "eval_rouge1": 0.12615384615384617,
+      "eval_rouge2": 0.08636363636363635,
+      "eval_rougeL": 0.13615384615384613,
+      "eval_rougeLsum": 0.12615384615384617,
+      "eval_runtime": 88.592,
+      "eval_samples_per_second": 0.226,
+      "eval_steps_per_second": 0.226,
+      "step": 4600
+    },
+    {
+      "epoch": 9.11,
+      "learning_rate": 4.527162977867203e-05,
+      "loss": 0.072,
+      "step": 4610
+    },
+    {
+      "epoch": 9.13,
+      "learning_rate": 4.426559356136821e-05,
+      "loss": 0.0729,
+      "step": 4620
+    },
+    {
+      "epoch": 9.15,
+      "learning_rate": 4.325955734406439e-05,
+      "loss": 0.0884,
+      "step": 4630
+    },
+    {
+      "epoch": 9.17,
+      "learning_rate": 4.225352112676056e-05,
+      "loss": 0.0782,
+      "step": 4640
+    },
+    {
+      "epoch": 9.19,
+      "learning_rate": 4.124748490945674e-05,
+      "loss": 0.0879,
+      "step": 4650
+    },
+    {
+      "epoch": 9.21,
+      "learning_rate": 4.024144869215292e-05,
+      "loss": 0.1,
+      "step": 4660
+    },
+    {
+      "epoch": 9.23,
+      "learning_rate": 3.9235412474849096e-05,
+      "loss": 0.0867,
+      "step": 4670
+    },
+    {
+      "epoch": 9.25,
+      "learning_rate": 3.822937625754527e-05,
+      "loss": 0.0881,
+      "step": 4680
+    },
+    {
+      "epoch": 9.27,
+      "learning_rate": 3.7223340040241454e-05,
+      "loss": 0.0903,
+      "step": 4690
+    },
+    {
+      "epoch": 9.29,
+      "learning_rate": 3.621730382293763e-05,
+      "loss": 0.0942,
+      "step": 4700
+    },
+    {
+      "epoch": 9.29,
+      "eval_loss": 0.9865831136703491,
+      "eval_rouge1": 0.13999999999999999,
+      "eval_rouge2": 0.09772727272727272,
+      "eval_rougeL": 0.14615384615384613,
+      "eval_rougeLsum": 0.13999999999999999,
+      "eval_runtime": 86.651,
+      "eval_samples_per_second": 0.231,
+      "eval_steps_per_second": 0.231,
+      "step": 4700
+    },
+    {
+      "epoch": 9.31,
+      "learning_rate": 3.5211267605633805e-05,
+      "loss": 0.1079,
+      "step": 4710
+    },
+    {
+      "epoch": 9.33,
+      "learning_rate": 3.420523138832998e-05,
+      "loss": 0.0807,
+      "step": 4720
+    },
+    {
+      "epoch": 9.35,
+      "learning_rate": 3.319919517102616e-05,
+      "loss": 0.105,
+      "step": 4730
+    },
+    {
+      "epoch": 9.37,
+      "learning_rate": 3.219315895372234e-05,
+      "loss": 0.095,
+      "step": 4740
+    },
+    {
+      "epoch": 9.39,
+      "learning_rate": 3.118712273641851e-05,
+      "loss": 0.0965,
+      "step": 4750
+    },
+    {
+      "epoch": 9.41,
+      "learning_rate": 3.018108651911469e-05,
+      "loss": 0.1001,
+      "step": 4760
+    },
+    {
+      "epoch": 9.43,
+      "learning_rate": 2.9175050301810868e-05,
+      "loss": 0.0782,
+      "step": 4770
+    },
+    {
+      "epoch": 9.45,
+      "learning_rate": 2.8169014084507043e-05,
+      "loss": 0.115,
+      "step": 4780
+    },
+    {
+      "epoch": 9.47,
+      "learning_rate": 2.7162977867203222e-05,
+      "loss": 0.071,
+      "step": 4790
+    },
+    {
+      "epoch": 9.49,
+      "learning_rate": 2.6156941649899397e-05,
+      "loss": 0.129,
+      "step": 4800
+    },
+    {
+      "epoch": 9.49,
+      "eval_loss": 0.9853466153144836,
+      "eval_rouge1": 0.12837606837606838,
+      "eval_rouge2": 0.08636363636363635,
+      "eval_rougeL": 0.13615384615384613,
+      "eval_rougeLsum": 0.1294871794871795,
+      "eval_runtime": 86.6444,
+      "eval_samples_per_second": 0.231,
+      "eval_steps_per_second": 0.231,
+      "step": 4800
+    },
+    {
+      "epoch": 9.5,
+      "learning_rate": 2.5150905432595576e-05,
+      "loss": 0.1285,
+      "step": 4810
+    },
+    {
+      "epoch": 9.52,
+      "learning_rate": 2.414486921529175e-05,
+      "loss": 0.0747,
+      "step": 4820
+    },
+    {
+      "epoch": 9.54,
+      "learning_rate": 2.3138832997987927e-05,
+      "loss": 0.0702,
+      "step": 4830
+    },
+    {
+      "epoch": 9.56,
+      "learning_rate": 2.2132796780684106e-05,
+      "loss": 0.1029,
+      "step": 4840
+    },
+    {
+      "epoch": 9.58,
+      "learning_rate": 2.112676056338028e-05,
+      "loss": 0.102,
+      "step": 4850
+    },
+    {
+      "epoch": 9.6,
+      "learning_rate": 2.012072434607646e-05,
+      "loss": 0.0909,
+      "step": 4860
+    },
+    {
+      "epoch": 9.62,
+      "learning_rate": 1.9114688128772636e-05,
+      "loss": 0.0849,
+      "step": 4870
+    },
+    {
+      "epoch": 9.64,
+      "learning_rate": 1.8108651911468815e-05,
+      "loss": 0.1216,
+      "step": 4880
+    },
+    {
+      "epoch": 9.66,
+      "learning_rate": 1.710261569416499e-05,
+      "loss": 0.1016,
+      "step": 4890
+    },
+    {
+      "epoch": 9.68,
+      "learning_rate": 1.609657947686117e-05,
+      "loss": 0.0949,
+      "step": 4900
+    },
+    {
+      "epoch": 9.68,
+      "eval_loss": 0.9819391965866089,
+      "eval_rouge1": 0.1911111111111111,
+      "eval_rouge2": 0.09772727272727272,
+      "eval_rougeL": 0.19615384615384612,
+      "eval_rougeLsum": 0.1923076923076923,
+      "eval_runtime": 87.241,
+      "eval_samples_per_second": 0.229,
+      "eval_steps_per_second": 0.229,
+      "step": 4900
+    },
+    {
+      "epoch": 9.7,
+      "learning_rate": 1.5090543259557344e-05,
+      "loss": 0.0692,
+      "step": 4910
+    },
+    {
+      "epoch": 9.72,
+      "learning_rate": 1.4084507042253522e-05,
+      "loss": 0.0653,
+      "step": 4920
+    },
+    {
+      "epoch": 9.74,
+      "learning_rate": 1.3078470824949699e-05,
+      "loss": 0.0797,
+      "step": 4930
+    },
+    {
+      "epoch": 9.76,
+      "learning_rate": 1.2072434607645874e-05,
+      "loss": 0.0905,
+      "step": 4940
+    },
+    {
+      "epoch": 9.78,
+      "learning_rate": 1.1066398390342053e-05,
+      "loss": 0.0868,
+      "step": 4950
+    },
+    {
+      "epoch": 9.8,
+      "learning_rate": 1.006036217303823e-05,
+      "loss": 0.0964,
+      "step": 4960
+    },
+    {
+      "epoch": 9.82,
+      "learning_rate": 9.054325955734407e-06,
+      "loss": 0.0913,
+      "step": 4970
+    },
+    {
+      "epoch": 9.84,
+      "learning_rate": 8.048289738430584e-06,
+      "loss": 0.0708,
+      "step": 4980
+    },
+    {
+      "epoch": 9.86,
+      "learning_rate": 7.042253521126761e-06,
+      "loss": 0.1102,
+      "step": 4990
+    },
+    {
+      "epoch": 9.88,
+      "learning_rate": 6.036217303822937e-06,
+      "loss": 0.0852,
+      "step": 5000
+    },
+    {
+      "epoch": 9.88,
+      "eval_loss": 0.9852367639541626,
+      "eval_rouge1": 0.12615384615384617,
+      "eval_rouge2": 0.08636363636363635,
+      "eval_rougeL": 0.13615384615384613,
+      "eval_rougeLsum": 0.12615384615384617,
+      "eval_runtime": 87.473,
+      "eval_samples_per_second": 0.229,
+      "eval_steps_per_second": 0.229,
+      "step": 5000
+    }
+  ],
+  "max_steps": 5060,
+  "num_train_epochs": 10,
+  "total_flos": 1.2175308798022656e+17,
+  "trial_name": null,
+  "trial_params": null
+}

last-checkpoint/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:77a4f7038b50ddc31edcc81a5b698eebafae24d0db54d6acae4be1a9f931706a
+size 3643