Pratik Hublikar commited on Jul 21, 2023

Commit

3e3e3ef

•

1 Parent(s): c424624

adding model files

Browse files

Files changed (40) hide show

checkpoint-2000/config.json +60 -0
checkpoint-2000/generation_config.json +6 -0
checkpoint-2000/optimizer.pt +3 -0
checkpoint-2000/pytorch_model.bin +3 -0
checkpoint-2000/rng_state.pth +3 -0
checkpoint-2000/scheduler.pt +3 -0
checkpoint-2000/special_tokens_map.json +107 -0
checkpoint-2000/tokenizer.json +0 -0
checkpoint-2000/tokenizer_config.json +111 -0
checkpoint-2000/trainer_state.json +456 -0
checkpoint-2000/training_args.bin +3 -0
checkpoint-2500/config.json +60 -0
checkpoint-2500/generation_config.json +6 -0
checkpoint-2500/optimizer.pt +3 -0
checkpoint-2500/pytorch_model.bin +3 -0
checkpoint-2500/rng_state.pth +3 -0
checkpoint-2500/scheduler.pt +3 -0
checkpoint-2500/special_tokens_map.json +107 -0
checkpoint-2500/tokenizer.json +0 -0
checkpoint-2500/tokenizer_config.json +111 -0
checkpoint-2500/trainer_state.json +566 -0
checkpoint-2500/training_args.bin +3 -0
checkpoint-3000/config.json +60 -0
checkpoint-3000/generation_config.json +6 -0
checkpoint-3000/optimizer.pt +3 -0
checkpoint-3000/pytorch_model.bin +3 -0
checkpoint-3000/rng_state.pth +3 -0
checkpoint-3000/scheduler.pt +3 -0
checkpoint-3000/special_tokens_map.json +107 -0
checkpoint-3000/tokenizer.json +0 -0
checkpoint-3000/tokenizer_config.json +111 -0
checkpoint-3000/trainer_state.json +676 -0
checkpoint-3000/training_args.bin +3 -0
config.json +60 -0
pytorch_model.bin +3 -0
runs/Jul21_05-05-37_1daa7b5ea0df/events.out.tfevents.1689915947.1daa7b5ea0df.1289.0 +3 -0
special_tokens_map.json +107 -0
tokenizer.json +0 -0
tokenizer_config.json +111 -0
training_args.bin +3 -0

checkpoint-2000/config.json ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "_name_or_path": "t5-small",
+  "architectures": [
+    "T5ForConditionalGeneration"
+  ],
+  "d_ff": 2048,
+  "d_kv": 64,
+  "d_model": 512,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "relu",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "relu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": false,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 6,
+  "num_heads": 8,
+  "num_layers": 6,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "task_specific_params": {
+    "summarization": {
+      "early_stopping": true,
+      "length_penalty": 2.0,
+      "max_length": 200,
+      "min_length": 30,
+      "no_repeat_ngram_size": 3,
+      "num_beams": 4,
+      "prefix": "summarize: "
+    },
+    "translation_en_to_de": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to German: "
+    },
+    "translation_en_to_fr": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to French: "
+    },
+    "translation_en_to_ro": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to Romanian: "
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.31.0",
+  "use_cache": true,
+  "vocab_size": 32128
+}

checkpoint-2000/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.31.0"
+}

checkpoint-2000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:17b6659ae6785d45ea62cc2157f11aa7e9b47d5895ca95974734f05db11738f9
+size 484130629

checkpoint-2000/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fa181bce5df913c93d5de63a3336845056ccbf84f43eaa0a73152744f304c0f8
+size 242071641

checkpoint-2000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2a76d466d1d6e8f84ffe1877990cf0c660ff14c19af676337c446d343f677946
+size 14575

checkpoint-2000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:60f37edebfb5d5909131f4207209d60414a1e880e0ac752e5f8801b3a36181ba
+size 627

checkpoint-2000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,107 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

checkpoint-2000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,111 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "extra_ids": 100,
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "tokenizer_class": "T5Tokenizer",
+  "unk_token": "<unk>"
+}

checkpoint-2000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,456 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 32.25806451612903,
+  "global_step": 2000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.797335147857666,
+      "eval_rouge1": 0.1301,
+      "eval_rouge2": 0.0352,
+      "eval_rougeL": 0.1074,
+      "eval_rougeLsum": 0.1075,
+      "eval_runtime": 18.6868,
+      "eval_samples_per_second": 13.271,
+      "eval_steps_per_second": 0.856,
+      "step": 62
+    },
+    {
+      "epoch": 2.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.568485975265503,
+      "eval_rouge1": 0.1455,
+      "eval_rouge2": 0.051,
+      "eval_rougeL": 0.1189,
+      "eval_rougeLsum": 0.1187,
+      "eval_runtime": 16.801,
+      "eval_samples_per_second": 14.761,
+      "eval_steps_per_second": 0.952,
+      "step": 124
+    },
+    {
+      "epoch": 3.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.475400924682617,
+      "eval_rouge1": 0.1674,
+      "eval_rouge2": 0.0692,
+      "eval_rougeL": 0.1397,
+      "eval_rougeLsum": 0.1397,
+      "eval_runtime": 17.3933,
+      "eval_samples_per_second": 14.258,
+      "eval_steps_per_second": 0.92,
+      "step": 186
+    },
+    {
+      "epoch": 4.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.419504404067993,
+      "eval_rouge1": 0.1901,
+      "eval_rouge2": 0.0867,
+      "eval_rougeL": 0.1586,
+      "eval_rougeLsum": 0.1587,
+      "eval_runtime": 16.7871,
+      "eval_samples_per_second": 14.773,
+      "eval_steps_per_second": 0.953,
+      "step": 248
+    },
+    {
+      "epoch": 5.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.3755078315734863,
+      "eval_rouge1": 0.1933,
+      "eval_rouge2": 0.0907,
+      "eval_rougeL": 0.1617,
+      "eval_rougeLsum": 0.1619,
+      "eval_runtime": 16.6712,
+      "eval_samples_per_second": 14.876,
+      "eval_steps_per_second": 0.96,
+      "step": 310
+    },
+    {
+      "epoch": 6.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.3425652980804443,
+      "eval_rouge1": 0.1946,
+      "eval_rouge2": 0.0916,
+      "eval_rougeL": 0.1634,
+      "eval_rougeLsum": 0.1636,
+      "eval_runtime": 17.1282,
+      "eval_samples_per_second": 14.479,
+      "eval_steps_per_second": 0.934,
+      "step": 372
+    },
+    {
+      "epoch": 7.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.3197405338287354,
+      "eval_rouge1": 0.1964,
+      "eval_rouge2": 0.0929,
+      "eval_rougeL": 0.1646,
+      "eval_rougeLsum": 0.1648,
+      "eval_runtime": 16.7039,
+      "eval_samples_per_second": 14.847,
+      "eval_steps_per_second": 0.958,
+      "step": 434
+    },
+    {
+      "epoch": 8.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.2987782955169678,
+      "eval_rouge1": 0.1968,
+      "eval_rouge2": 0.0933,
+      "eval_rougeL": 0.165,
+      "eval_rougeLsum": 0.1653,
+      "eval_runtime": 16.6651,
+      "eval_samples_per_second": 14.881,
+      "eval_steps_per_second": 0.96,
+      "step": 496
+    },
+    {
+      "epoch": 8.06,
+      "learning_rate": 1.6780645161290323e-05,
+      "loss": 2.7011,
+      "step": 500
+    },
+    {
+      "epoch": 9.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.279834270477295,
+      "eval_rouge1": 0.1969,
+      "eval_rouge2": 0.0946,
+      "eval_rougeL": 0.1662,
+      "eval_rougeLsum": 0.1665,
+      "eval_runtime": 17.134,
+      "eval_samples_per_second": 14.474,
+      "eval_steps_per_second": 0.934,
+      "step": 558
+    },
+    {
+      "epoch": 10.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.265596389770508,
+      "eval_rouge1": 0.1987,
+      "eval_rouge2": 0.0962,
+      "eval_rougeL": 0.1672,
+      "eval_rougeLsum": 0.1673,
+      "eval_runtime": 17.1955,
+      "eval_samples_per_second": 14.422,
+      "eval_steps_per_second": 0.93,
+      "step": 620
+    },
+    {
+      "epoch": 11.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.2547566890716553,
+      "eval_rouge1": 0.1958,
+      "eval_rouge2": 0.0965,
+      "eval_rougeL": 0.1655,
+      "eval_rougeLsum": 0.1657,
+      "eval_runtime": 16.9264,
+      "eval_samples_per_second": 14.652,
+      "eval_steps_per_second": 0.945,
+      "step": 682
+    },
+    {
+      "epoch": 12.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.243624210357666,
+      "eval_rouge1": 0.1965,
+      "eval_rouge2": 0.096,
+      "eval_rougeL": 0.1659,
+      "eval_rougeLsum": 0.166,
+      "eval_runtime": 16.9191,
+      "eval_samples_per_second": 14.658,
+      "eval_steps_per_second": 0.946,
+      "step": 744
+    },
+    {
+      "epoch": 13.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.2352294921875,
+      "eval_rouge1": 0.1964,
+      "eval_rouge2": 0.0971,
+      "eval_rougeL": 0.1663,
+      "eval_rougeLsum": 0.1664,
+      "eval_runtime": 16.9525,
+      "eval_samples_per_second": 14.629,
+      "eval_steps_per_second": 0.944,
+      "step": 806
+    },
+    {
+      "epoch": 14.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.2252049446105957,
+      "eval_rouge1": 0.197,
+      "eval_rouge2": 0.097,
+      "eval_rougeL": 0.1664,
+      "eval_rougeLsum": 0.1664,
+      "eval_runtime": 16.904,
+      "eval_samples_per_second": 14.671,
+      "eval_steps_per_second": 0.947,
+      "step": 868
+    },
+    {
+      "epoch": 15.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.2152445316314697,
+      "eval_rouge1": 0.1954,
+      "eval_rouge2": 0.0979,
+      "eval_rougeL": 0.1664,
+      "eval_rougeLsum": 0.1665,
+      "eval_runtime": 17.117,
+      "eval_samples_per_second": 14.489,
+      "eval_steps_per_second": 0.935,
+      "step": 930
+    },
+    {
+      "epoch": 16.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.207918643951416,
+      "eval_rouge1": 0.1954,
+      "eval_rouge2": 0.0988,
+      "eval_rougeL": 0.1674,
+      "eval_rougeLsum": 0.1677,
+      "eval_runtime": 17.2029,
+      "eval_samples_per_second": 14.416,
+      "eval_steps_per_second": 0.93,
+      "step": 992
+    },
+    {
+      "epoch": 16.13,
+      "learning_rate": 1.355483870967742e-05,
+      "loss": 2.3282,
+      "step": 1000
+    },
+    {
+      "epoch": 17.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1986870765686035,
+      "eval_rouge1": 0.1951,
+      "eval_rouge2": 0.0995,
+      "eval_rougeL": 0.1672,
+      "eval_rougeLsum": 0.1673,
+      "eval_runtime": 17.1147,
+      "eval_samples_per_second": 14.49,
+      "eval_steps_per_second": 0.935,
+      "step": 1054
+    },
+    {
+      "epoch": 18.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1938998699188232,
+      "eval_rouge1": 0.1974,
+      "eval_rouge2": 0.1015,
+      "eval_rougeL": 0.1695,
+      "eval_rougeLsum": 0.1697,
+      "eval_runtime": 16.7909,
+      "eval_samples_per_second": 14.77,
+      "eval_steps_per_second": 0.953,
+      "step": 1116
+    },
+    {
+      "epoch": 19.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.18984055519104,
+      "eval_rouge1": 0.1965,
+      "eval_rouge2": 0.1014,
+      "eval_rougeL": 0.1691,
+      "eval_rougeLsum": 0.1693,
+      "eval_runtime": 16.6689,
+      "eval_samples_per_second": 14.878,
+      "eval_steps_per_second": 0.96,
+      "step": 1178
+    },
+    {
+      "epoch": 20.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.183218240737915,
+      "eval_rouge1": 0.1963,
+      "eval_rouge2": 0.0997,
+      "eval_rougeL": 0.1683,
+      "eval_rougeLsum": 0.1685,
+      "eval_runtime": 17.3129,
+      "eval_samples_per_second": 14.325,
+      "eval_steps_per_second": 0.924,
+      "step": 1240
+    },
+    {
+      "epoch": 21.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1765005588531494,
+      "eval_rouge1": 0.1966,
+      "eval_rouge2": 0.0991,
+      "eval_rougeL": 0.1676,
+      "eval_rougeLsum": 0.1678,
+      "eval_runtime": 16.8703,
+      "eval_samples_per_second": 14.7,
+      "eval_steps_per_second": 0.948,
+      "step": 1302
+    },
+    {
+      "epoch": 22.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1725897789001465,
+      "eval_rouge1": 0.1963,
+      "eval_rouge2": 0.0989,
+      "eval_rougeL": 0.1677,
+      "eval_rougeLsum": 0.1676,
+      "eval_runtime": 16.7813,
+      "eval_samples_per_second": 14.778,
+      "eval_steps_per_second": 0.953,
+      "step": 1364
+    },
+    {
+      "epoch": 23.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1676828861236572,
+      "eval_rouge1": 0.1959,
+      "eval_rouge2": 0.0988,
+      "eval_rougeL": 0.168,
+      "eval_rougeLsum": 0.168,
+      "eval_runtime": 17.3121,
+      "eval_samples_per_second": 14.325,
+      "eval_steps_per_second": 0.924,
+      "step": 1426
+    },
+    {
+      "epoch": 24.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1647536754608154,
+      "eval_rouge1": 0.1967,
+      "eval_rouge2": 0.0994,
+      "eval_rougeL": 0.169,
+      "eval_rougeLsum": 0.1692,
+      "eval_runtime": 16.9203,
+      "eval_samples_per_second": 14.657,
+      "eval_steps_per_second": 0.946,
+      "step": 1488
+    },
+    {
+      "epoch": 24.19,
+      "learning_rate": 1.0329032258064518e-05,
+      "loss": 2.2281,
+      "step": 1500
+    },
+    {
+      "epoch": 25.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.15854549407959,
+      "eval_rouge1": 0.1958,
+      "eval_rouge2": 0.0988,
+      "eval_rougeL": 0.1685,
+      "eval_rougeLsum": 0.1687,
+      "eval_runtime": 17.1171,
+      "eval_samples_per_second": 14.488,
+      "eval_steps_per_second": 0.935,
+      "step": 1550
+    },
+    {
+      "epoch": 26.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1557765007019043,
+      "eval_rouge1": 0.197,
+      "eval_rouge2": 0.1,
+      "eval_rougeL": 0.1698,
+      "eval_rougeLsum": 0.1699,
+      "eval_runtime": 16.8981,
+      "eval_samples_per_second": 14.676,
+      "eval_steps_per_second": 0.947,
+      "step": 1612
+    },
+    {
+      "epoch": 27.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1530044078826904,
+      "eval_rouge1": 0.196,
+      "eval_rouge2": 0.0994,
+      "eval_rougeL": 0.1685,
+      "eval_rougeLsum": 0.1687,
+      "eval_runtime": 16.9499,
+      "eval_samples_per_second": 14.631,
+      "eval_steps_per_second": 0.944,
+      "step": 1674
+    },
+    {
+      "epoch": 28.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1497113704681396,
+      "eval_rouge1": 0.1971,
+      "eval_rouge2": 0.101,
+      "eval_rougeL": 0.1697,
+      "eval_rougeLsum": 0.1699,
+      "eval_runtime": 16.8885,
+      "eval_samples_per_second": 14.685,
+      "eval_steps_per_second": 0.947,
+      "step": 1736
+    },
+    {
+      "epoch": 29.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1459004878997803,
+      "eval_rouge1": 0.1972,
+      "eval_rouge2": 0.1008,
+      "eval_rougeL": 0.17,
+      "eval_rougeLsum": 0.1701,
+      "eval_runtime": 17.5571,
+      "eval_samples_per_second": 14.125,
+      "eval_steps_per_second": 0.911,
+      "step": 1798
+    },
+    {
+      "epoch": 30.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.142939805984497,
+      "eval_rouge1": 0.1946,
+      "eval_rouge2": 0.0989,
+      "eval_rougeL": 0.1677,
+      "eval_rougeLsum": 0.1678,
+      "eval_runtime": 17.4108,
+      "eval_samples_per_second": 14.244,
+      "eval_steps_per_second": 0.919,
+      "step": 1860
+    },
+    {
+      "epoch": 31.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.14223051071167,
+      "eval_rouge1": 0.1958,
+      "eval_rouge2": 0.1,
+      "eval_rougeL": 0.1691,
+      "eval_rougeLsum": 0.1692,
+      "eval_runtime": 17.3596,
+      "eval_samples_per_second": 14.286,
+      "eval_steps_per_second": 0.922,
+      "step": 1922
+    },
+    {
+      "epoch": 32.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.139946699142456,
+      "eval_rouge1": 0.1952,
+      "eval_rouge2": 0.0992,
+      "eval_rougeL": 0.1687,
+      "eval_rougeLsum": 0.1687,
+      "eval_runtime": 17.1971,
+      "eval_samples_per_second": 14.421,
+      "eval_steps_per_second": 0.93,
+      "step": 1984
+    },
+    {
+      "epoch": 32.26,
+      "learning_rate": 7.103225806451613e-06,
+      "loss": 2.1696,
+      "step": 2000
+    }
+  ],
+  "max_steps": 3100,
+  "num_train_epochs": 50,
+  "total_flos": 8635889668325376.0,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e9b3aa9ab791ba4b7e80300d59c10840c6bcc3f12ac2ddb83e7eb1190863235d
+size 4155

checkpoint-2500/config.json ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "_name_or_path": "t5-small",
+  "architectures": [
+    "T5ForConditionalGeneration"
+  ],
+  "d_ff": 2048,
+  "d_kv": 64,
+  "d_model": 512,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "relu",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "relu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": false,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 6,
+  "num_heads": 8,
+  "num_layers": 6,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "task_specific_params": {
+    "summarization": {
+      "early_stopping": true,
+      "length_penalty": 2.0,
+      "max_length": 200,
+      "min_length": 30,
+      "no_repeat_ngram_size": 3,
+      "num_beams": 4,
+      "prefix": "summarize: "
+    },
+    "translation_en_to_de": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to German: "
+    },
+    "translation_en_to_fr": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to French: "
+    },
+    "translation_en_to_ro": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to Romanian: "
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.31.0",
+  "use_cache": true,
+  "vocab_size": 32128
+}

checkpoint-2500/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.31.0"
+}

checkpoint-2500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ffec5bb48be40248b6724cec7900d8527627d6eeb65cc2a2cfed2bc4520916e1
+size 484130629

checkpoint-2500/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cd3eb928d5c009450ade9bbbb011a31cf34b811d004a62d30336cc5f2826269f
+size 242071641

checkpoint-2500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:94f679c48bf0cbcf62b98e862e57307b1d7116e678a7fb0a27a4237a88b8f7e9
+size 14575

checkpoint-2500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f02f8a90c19951072e8606311863973b1f3e78903397575a9fa5a43902a733cb
+size 627

checkpoint-2500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,107 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

checkpoint-2500/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,111 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "extra_ids": 100,
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "tokenizer_class": "T5Tokenizer",
+  "unk_token": "<unk>"
+}

checkpoint-2500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,566 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 40.32258064516129,
+  "global_step": 2500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.797335147857666,
+      "eval_rouge1": 0.1301,
+      "eval_rouge2": 0.0352,
+      "eval_rougeL": 0.1074,
+      "eval_rougeLsum": 0.1075,
+      "eval_runtime": 18.6868,
+      "eval_samples_per_second": 13.271,
+      "eval_steps_per_second": 0.856,
+      "step": 62
+    },
+    {
+      "epoch": 2.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.568485975265503,
+      "eval_rouge1": 0.1455,
+      "eval_rouge2": 0.051,
+      "eval_rougeL": 0.1189,
+      "eval_rougeLsum": 0.1187,
+      "eval_runtime": 16.801,
+      "eval_samples_per_second": 14.761,
+      "eval_steps_per_second": 0.952,
+      "step": 124
+    },
+    {
+      "epoch": 3.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.475400924682617,
+      "eval_rouge1": 0.1674,
+      "eval_rouge2": 0.0692,
+      "eval_rougeL": 0.1397,
+      "eval_rougeLsum": 0.1397,
+      "eval_runtime": 17.3933,
+      "eval_samples_per_second": 14.258,
+      "eval_steps_per_second": 0.92,
+      "step": 186
+    },
+    {
+      "epoch": 4.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.419504404067993,
+      "eval_rouge1": 0.1901,
+      "eval_rouge2": 0.0867,
+      "eval_rougeL": 0.1586,
+      "eval_rougeLsum": 0.1587,
+      "eval_runtime": 16.7871,
+      "eval_samples_per_second": 14.773,
+      "eval_steps_per_second": 0.953,
+      "step": 248
+    },
+    {
+      "epoch": 5.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.3755078315734863,
+      "eval_rouge1": 0.1933,
+      "eval_rouge2": 0.0907,
+      "eval_rougeL": 0.1617,
+      "eval_rougeLsum": 0.1619,
+      "eval_runtime": 16.6712,
+      "eval_samples_per_second": 14.876,
+      "eval_steps_per_second": 0.96,
+      "step": 310
+    },
+    {
+      "epoch": 6.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.3425652980804443,
+      "eval_rouge1": 0.1946,
+      "eval_rouge2": 0.0916,
+      "eval_rougeL": 0.1634,
+      "eval_rougeLsum": 0.1636,
+      "eval_runtime": 17.1282,
+      "eval_samples_per_second": 14.479,
+      "eval_steps_per_second": 0.934,
+      "step": 372
+    },
+    {
+      "epoch": 7.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.3197405338287354,
+      "eval_rouge1": 0.1964,
+      "eval_rouge2": 0.0929,
+      "eval_rougeL": 0.1646,
+      "eval_rougeLsum": 0.1648,
+      "eval_runtime": 16.7039,
+      "eval_samples_per_second": 14.847,
+      "eval_steps_per_second": 0.958,
+      "step": 434
+    },
+    {
+      "epoch": 8.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.2987782955169678,
+      "eval_rouge1": 0.1968,
+      "eval_rouge2": 0.0933,
+      "eval_rougeL": 0.165,
+      "eval_rougeLsum": 0.1653,
+      "eval_runtime": 16.6651,
+      "eval_samples_per_second": 14.881,
+      "eval_steps_per_second": 0.96,
+      "step": 496
+    },
+    {
+      "epoch": 8.06,
+      "learning_rate": 1.6780645161290323e-05,
+      "loss": 2.7011,
+      "step": 500
+    },
+    {
+      "epoch": 9.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.279834270477295,
+      "eval_rouge1": 0.1969,
+      "eval_rouge2": 0.0946,
+      "eval_rougeL": 0.1662,
+      "eval_rougeLsum": 0.1665,
+      "eval_runtime": 17.134,
+      "eval_samples_per_second": 14.474,
+      "eval_steps_per_second": 0.934,
+      "step": 558
+    },
+    {
+      "epoch": 10.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.265596389770508,
+      "eval_rouge1": 0.1987,
+      "eval_rouge2": 0.0962,
+      "eval_rougeL": 0.1672,
+      "eval_rougeLsum": 0.1673,
+      "eval_runtime": 17.1955,
+      "eval_samples_per_second": 14.422,
+      "eval_steps_per_second": 0.93,
+      "step": 620
+    },
+    {
+      "epoch": 11.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.2547566890716553,
+      "eval_rouge1": 0.1958,
+      "eval_rouge2": 0.0965,
+      "eval_rougeL": 0.1655,
+      "eval_rougeLsum": 0.1657,
+      "eval_runtime": 16.9264,
+      "eval_samples_per_second": 14.652,
+      "eval_steps_per_second": 0.945,
+      "step": 682
+    },
+    {
+      "epoch": 12.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.243624210357666,
+      "eval_rouge1": 0.1965,
+      "eval_rouge2": 0.096,
+      "eval_rougeL": 0.1659,
+      "eval_rougeLsum": 0.166,
+      "eval_runtime": 16.9191,
+      "eval_samples_per_second": 14.658,
+      "eval_steps_per_second": 0.946,
+      "step": 744
+    },
+    {
+      "epoch": 13.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.2352294921875,
+      "eval_rouge1": 0.1964,
+      "eval_rouge2": 0.0971,
+      "eval_rougeL": 0.1663,
+      "eval_rougeLsum": 0.1664,
+      "eval_runtime": 16.9525,
+      "eval_samples_per_second": 14.629,
+      "eval_steps_per_second": 0.944,
+      "step": 806
+    },
+    {
+      "epoch": 14.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.2252049446105957,
+      "eval_rouge1": 0.197,
+      "eval_rouge2": 0.097,
+      "eval_rougeL": 0.1664,
+      "eval_rougeLsum": 0.1664,
+      "eval_runtime": 16.904,
+      "eval_samples_per_second": 14.671,
+      "eval_steps_per_second": 0.947,
+      "step": 868
+    },
+    {
+      "epoch": 15.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.2152445316314697,
+      "eval_rouge1": 0.1954,
+      "eval_rouge2": 0.0979,
+      "eval_rougeL": 0.1664,
+      "eval_rougeLsum": 0.1665,
+      "eval_runtime": 17.117,
+      "eval_samples_per_second": 14.489,
+      "eval_steps_per_second": 0.935,
+      "step": 930
+    },
+    {
+      "epoch": 16.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.207918643951416,
+      "eval_rouge1": 0.1954,
+      "eval_rouge2": 0.0988,
+      "eval_rougeL": 0.1674,
+      "eval_rougeLsum": 0.1677,
+      "eval_runtime": 17.2029,
+      "eval_samples_per_second": 14.416,
+      "eval_steps_per_second": 0.93,
+      "step": 992
+    },
+    {
+      "epoch": 16.13,
+      "learning_rate": 1.355483870967742e-05,
+      "loss": 2.3282,
+      "step": 1000
+    },
+    {
+      "epoch": 17.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1986870765686035,
+      "eval_rouge1": 0.1951,
+      "eval_rouge2": 0.0995,
+      "eval_rougeL": 0.1672,
+      "eval_rougeLsum": 0.1673,
+      "eval_runtime": 17.1147,
+      "eval_samples_per_second": 14.49,
+      "eval_steps_per_second": 0.935,
+      "step": 1054
+    },
+    {
+      "epoch": 18.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1938998699188232,
+      "eval_rouge1": 0.1974,
+      "eval_rouge2": 0.1015,
+      "eval_rougeL": 0.1695,
+      "eval_rougeLsum": 0.1697,
+      "eval_runtime": 16.7909,
+      "eval_samples_per_second": 14.77,
+      "eval_steps_per_second": 0.953,
+      "step": 1116
+    },
+    {
+      "epoch": 19.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.18984055519104,
+      "eval_rouge1": 0.1965,
+      "eval_rouge2": 0.1014,
+      "eval_rougeL": 0.1691,
+      "eval_rougeLsum": 0.1693,
+      "eval_runtime": 16.6689,
+      "eval_samples_per_second": 14.878,
+      "eval_steps_per_second": 0.96,
+      "step": 1178
+    },
+    {
+      "epoch": 20.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.183218240737915,
+      "eval_rouge1": 0.1963,
+      "eval_rouge2": 0.0997,
+      "eval_rougeL": 0.1683,
+      "eval_rougeLsum": 0.1685,
+      "eval_runtime": 17.3129,
+      "eval_samples_per_second": 14.325,
+      "eval_steps_per_second": 0.924,
+      "step": 1240
+    },
+    {
+      "epoch": 21.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1765005588531494,
+      "eval_rouge1": 0.1966,
+      "eval_rouge2": 0.0991,
+      "eval_rougeL": 0.1676,
+      "eval_rougeLsum": 0.1678,
+      "eval_runtime": 16.8703,
+      "eval_samples_per_second": 14.7,
+      "eval_steps_per_second": 0.948,
+      "step": 1302
+    },
+    {
+      "epoch": 22.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1725897789001465,
+      "eval_rouge1": 0.1963,
+      "eval_rouge2": 0.0989,
+      "eval_rougeL": 0.1677,
+      "eval_rougeLsum": 0.1676,
+      "eval_runtime": 16.7813,
+      "eval_samples_per_second": 14.778,
+      "eval_steps_per_second": 0.953,
+      "step": 1364
+    },
+    {
+      "epoch": 23.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1676828861236572,
+      "eval_rouge1": 0.1959,
+      "eval_rouge2": 0.0988,
+      "eval_rougeL": 0.168,
+      "eval_rougeLsum": 0.168,
+      "eval_runtime": 17.3121,
+      "eval_samples_per_second": 14.325,
+      "eval_steps_per_second": 0.924,
+      "step": 1426
+    },
+    {
+      "epoch": 24.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1647536754608154,
+      "eval_rouge1": 0.1967,
+      "eval_rouge2": 0.0994,
+      "eval_rougeL": 0.169,
+      "eval_rougeLsum": 0.1692,
+      "eval_runtime": 16.9203,
+      "eval_samples_per_second": 14.657,
+      "eval_steps_per_second": 0.946,
+      "step": 1488
+    },
+    {
+      "epoch": 24.19,
+      "learning_rate": 1.0329032258064518e-05,
+      "loss": 2.2281,
+      "step": 1500
+    },
+    {
+      "epoch": 25.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.15854549407959,
+      "eval_rouge1": 0.1958,
+      "eval_rouge2": 0.0988,
+      "eval_rougeL": 0.1685,
+      "eval_rougeLsum": 0.1687,
+      "eval_runtime": 17.1171,
+      "eval_samples_per_second": 14.488,
+      "eval_steps_per_second": 0.935,
+      "step": 1550
+    },
+    {
+      "epoch": 26.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1557765007019043,
+      "eval_rouge1": 0.197,
+      "eval_rouge2": 0.1,
+      "eval_rougeL": 0.1698,
+      "eval_rougeLsum": 0.1699,
+      "eval_runtime": 16.8981,
+      "eval_samples_per_second": 14.676,
+      "eval_steps_per_second": 0.947,
+      "step": 1612
+    },
+    {
+      "epoch": 27.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1530044078826904,
+      "eval_rouge1": 0.196,
+      "eval_rouge2": 0.0994,
+      "eval_rougeL": 0.1685,
+      "eval_rougeLsum": 0.1687,
+      "eval_runtime": 16.9499,
+      "eval_samples_per_second": 14.631,
+      "eval_steps_per_second": 0.944,
+      "step": 1674
+    },
+    {
+      "epoch": 28.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1497113704681396,
+      "eval_rouge1": 0.1971,
+      "eval_rouge2": 0.101,
+      "eval_rougeL": 0.1697,
+      "eval_rougeLsum": 0.1699,
+      "eval_runtime": 16.8885,
+      "eval_samples_per_second": 14.685,
+      "eval_steps_per_second": 0.947,
+      "step": 1736
+    },
+    {
+      "epoch": 29.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1459004878997803,
+      "eval_rouge1": 0.1972,
+      "eval_rouge2": 0.1008,
+      "eval_rougeL": 0.17,
+      "eval_rougeLsum": 0.1701,
+      "eval_runtime": 17.5571,
+      "eval_samples_per_second": 14.125,
+      "eval_steps_per_second": 0.911,
+      "step": 1798
+    },
+    {
+      "epoch": 30.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.142939805984497,
+      "eval_rouge1": 0.1946,
+      "eval_rouge2": 0.0989,
+      "eval_rougeL": 0.1677,
+      "eval_rougeLsum": 0.1678,
+      "eval_runtime": 17.4108,
+      "eval_samples_per_second": 14.244,
+      "eval_steps_per_second": 0.919,
+      "step": 1860
+    },
+    {
+      "epoch": 31.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.14223051071167,
+      "eval_rouge1": 0.1958,
+      "eval_rouge2": 0.1,
+      "eval_rougeL": 0.1691,
+      "eval_rougeLsum": 0.1692,
+      "eval_runtime": 17.3596,
+      "eval_samples_per_second": 14.286,
+      "eval_steps_per_second": 0.922,
+      "step": 1922
+    },
+    {
+      "epoch": 32.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.139946699142456,
+      "eval_rouge1": 0.1952,
+      "eval_rouge2": 0.0992,
+      "eval_rougeL": 0.1687,
+      "eval_rougeLsum": 0.1687,
+      "eval_runtime": 17.1971,
+      "eval_samples_per_second": 14.421,
+      "eval_steps_per_second": 0.93,
+      "step": 1984
+    },
+    {
+      "epoch": 32.26,
+      "learning_rate": 7.103225806451613e-06,
+      "loss": 2.1696,
+      "step": 2000
+    },
+    {
+      "epoch": 33.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.135340690612793,
+      "eval_rouge1": 0.1945,
+      "eval_rouge2": 0.0983,
+      "eval_rougeL": 0.1676,
+      "eval_rougeLsum": 0.1676,
+      "eval_runtime": 16.8259,
+      "eval_samples_per_second": 14.739,
+      "eval_steps_per_second": 0.951,
+      "step": 2046
+    },
+    {
+      "epoch": 34.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1345207691192627,
+      "eval_rouge1": 0.1934,
+      "eval_rouge2": 0.097,
+      "eval_rougeL": 0.1664,
+      "eval_rougeLsum": 0.1665,
+      "eval_runtime": 17.2959,
+      "eval_samples_per_second": 14.339,
+      "eval_steps_per_second": 0.925,
+      "step": 2108
+    },
+    {
+      "epoch": 35.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.132594585418701,
+      "eval_rouge1": 0.1934,
+      "eval_rouge2": 0.0969,
+      "eval_rougeL": 0.1666,
+      "eval_rougeLsum": 0.1669,
+      "eval_runtime": 16.8869,
+      "eval_samples_per_second": 14.686,
+      "eval_steps_per_second": 0.947,
+      "step": 2170
+    },
+    {
+      "epoch": 36.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1315131187438965,
+      "eval_rouge1": 0.1942,
+      "eval_rouge2": 0.0982,
+      "eval_rougeL": 0.1674,
+      "eval_rougeLsum": 0.1676,
+      "eval_runtime": 16.9224,
+      "eval_samples_per_second": 14.655,
+      "eval_steps_per_second": 0.945,
+      "step": 2232
+    },
+    {
+      "epoch": 37.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1289427280426025,
+      "eval_rouge1": 0.1941,
+      "eval_rouge2": 0.0989,
+      "eval_rougeL": 0.1679,
+      "eval_rougeLsum": 0.1681,
+      "eval_runtime": 17.1711,
+      "eval_samples_per_second": 14.443,
+      "eval_steps_per_second": 0.932,
+      "step": 2294
+    },
+    {
+      "epoch": 38.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1285345554351807,
+      "eval_rouge1": 0.1924,
+      "eval_rouge2": 0.0971,
+      "eval_rougeL": 0.1664,
+      "eval_rougeLsum": 0.1665,
+      "eval_runtime": 16.844,
+      "eval_samples_per_second": 14.723,
+      "eval_steps_per_second": 0.95,
+      "step": 2356
+    },
+    {
+      "epoch": 39.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1261112689971924,
+      "eval_rouge1": 0.1932,
+      "eval_rouge2": 0.0983,
+      "eval_rougeL": 0.1671,
+      "eval_rougeLsum": 0.1672,
+      "eval_runtime": 16.7999,
+      "eval_samples_per_second": 14.762,
+      "eval_steps_per_second": 0.952,
+      "step": 2418
+    },
+    {
+      "epoch": 40.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1248812675476074,
+      "eval_rouge1": 0.1931,
+      "eval_rouge2": 0.0985,
+      "eval_rougeL": 0.1672,
+      "eval_rougeLsum": 0.1674,
+      "eval_runtime": 17.7634,
+      "eval_samples_per_second": 13.961,
+      "eval_steps_per_second": 0.901,
+      "step": 2480
+    },
+    {
+      "epoch": 40.32,
+      "learning_rate": 3.87741935483871e-06,
+      "loss": 2.1317,
+      "step": 2500
+    }
+  ],
+  "max_steps": 3100,
+  "num_train_epochs": 50,
+  "total_flos": 1.079486208540672e+16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e9b3aa9ab791ba4b7e80300d59c10840c6bcc3f12ac2ddb83e7eb1190863235d
+size 4155

checkpoint-3000/config.json ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "_name_or_path": "t5-small",
+  "architectures": [
+    "T5ForConditionalGeneration"
+  ],
+  "d_ff": 2048,
+  "d_kv": 64,
+  "d_model": 512,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "relu",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "relu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": false,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 6,
+  "num_heads": 8,
+  "num_layers": 6,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "task_specific_params": {
+    "summarization": {
+      "early_stopping": true,
+      "length_penalty": 2.0,
+      "max_length": 200,
+      "min_length": 30,
+      "no_repeat_ngram_size": 3,
+      "num_beams": 4,
+      "prefix": "summarize: "
+    },
+    "translation_en_to_de": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to German: "
+    },
+    "translation_en_to_fr": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to French: "
+    },
+    "translation_en_to_ro": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to Romanian: "
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.31.0",
+  "use_cache": true,
+  "vocab_size": 32128
+}

checkpoint-3000/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.31.0"
+}

checkpoint-3000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a97e3f49017ef0e08c7ca518edbdd14f6975469bf5815fbc82d99f7f262b33ea
+size 484130629

checkpoint-3000/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cfe5d1432ef330d15da08bce2a11ccfe2156b8dbaccd22ddfbfe004772de0c8d
+size 242071641

checkpoint-3000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b7227c7869d5fccd0a267b43fd38e6be1808091f26b649c4dbb6a3d625426bd7
+size 14575

checkpoint-3000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5f7d1f7fec25d18f2d7af695342410fc67ec0320643b979daa1a43939606c35f
+size 627

checkpoint-3000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,107 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

checkpoint-3000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-3000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,111 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "extra_ids": 100,
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "tokenizer_class": "T5Tokenizer",
+  "unk_token": "<unk>"
+}

checkpoint-3000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,676 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 48.38709677419355,
+  "global_step": 3000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.797335147857666,
+      "eval_rouge1": 0.1301,
+      "eval_rouge2": 0.0352,
+      "eval_rougeL": 0.1074,
+      "eval_rougeLsum": 0.1075,
+      "eval_runtime": 18.6868,
+      "eval_samples_per_second": 13.271,
+      "eval_steps_per_second": 0.856,
+      "step": 62
+    },
+    {
+      "epoch": 2.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.568485975265503,
+      "eval_rouge1": 0.1455,
+      "eval_rouge2": 0.051,
+      "eval_rougeL": 0.1189,
+      "eval_rougeLsum": 0.1187,
+      "eval_runtime": 16.801,
+      "eval_samples_per_second": 14.761,
+      "eval_steps_per_second": 0.952,
+      "step": 124
+    },
+    {
+      "epoch": 3.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.475400924682617,
+      "eval_rouge1": 0.1674,
+      "eval_rouge2": 0.0692,
+      "eval_rougeL": 0.1397,
+      "eval_rougeLsum": 0.1397,
+      "eval_runtime": 17.3933,
+      "eval_samples_per_second": 14.258,
+      "eval_steps_per_second": 0.92,
+      "step": 186
+    },
+    {
+      "epoch": 4.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.419504404067993,
+      "eval_rouge1": 0.1901,
+      "eval_rouge2": 0.0867,
+      "eval_rougeL": 0.1586,
+      "eval_rougeLsum": 0.1587,
+      "eval_runtime": 16.7871,
+      "eval_samples_per_second": 14.773,
+      "eval_steps_per_second": 0.953,
+      "step": 248
+    },
+    {
+      "epoch": 5.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.3755078315734863,
+      "eval_rouge1": 0.1933,
+      "eval_rouge2": 0.0907,
+      "eval_rougeL": 0.1617,
+      "eval_rougeLsum": 0.1619,
+      "eval_runtime": 16.6712,
+      "eval_samples_per_second": 14.876,
+      "eval_steps_per_second": 0.96,
+      "step": 310
+    },
+    {
+      "epoch": 6.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.3425652980804443,
+      "eval_rouge1": 0.1946,
+      "eval_rouge2": 0.0916,
+      "eval_rougeL": 0.1634,
+      "eval_rougeLsum": 0.1636,
+      "eval_runtime": 17.1282,
+      "eval_samples_per_second": 14.479,
+      "eval_steps_per_second": 0.934,
+      "step": 372
+    },
+    {
+      "epoch": 7.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.3197405338287354,
+      "eval_rouge1": 0.1964,
+      "eval_rouge2": 0.0929,
+      "eval_rougeL": 0.1646,
+      "eval_rougeLsum": 0.1648,
+      "eval_runtime": 16.7039,
+      "eval_samples_per_second": 14.847,
+      "eval_steps_per_second": 0.958,
+      "step": 434
+    },
+    {
+      "epoch": 8.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.2987782955169678,
+      "eval_rouge1": 0.1968,
+      "eval_rouge2": 0.0933,
+      "eval_rougeL": 0.165,
+      "eval_rougeLsum": 0.1653,
+      "eval_runtime": 16.6651,
+      "eval_samples_per_second": 14.881,
+      "eval_steps_per_second": 0.96,
+      "step": 496
+    },
+    {
+      "epoch": 8.06,
+      "learning_rate": 1.6780645161290323e-05,
+      "loss": 2.7011,
+      "step": 500
+    },
+    {
+      "epoch": 9.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.279834270477295,
+      "eval_rouge1": 0.1969,
+      "eval_rouge2": 0.0946,
+      "eval_rougeL": 0.1662,
+      "eval_rougeLsum": 0.1665,
+      "eval_runtime": 17.134,
+      "eval_samples_per_second": 14.474,
+      "eval_steps_per_second": 0.934,
+      "step": 558
+    },
+    {
+      "epoch": 10.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.265596389770508,
+      "eval_rouge1": 0.1987,
+      "eval_rouge2": 0.0962,
+      "eval_rougeL": 0.1672,
+      "eval_rougeLsum": 0.1673,
+      "eval_runtime": 17.1955,
+      "eval_samples_per_second": 14.422,
+      "eval_steps_per_second": 0.93,
+      "step": 620
+    },
+    {
+      "epoch": 11.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.2547566890716553,
+      "eval_rouge1": 0.1958,
+      "eval_rouge2": 0.0965,
+      "eval_rougeL": 0.1655,
+      "eval_rougeLsum": 0.1657,
+      "eval_runtime": 16.9264,
+      "eval_samples_per_second": 14.652,
+      "eval_steps_per_second": 0.945,
+      "step": 682
+    },
+    {
+      "epoch": 12.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.243624210357666,
+      "eval_rouge1": 0.1965,
+      "eval_rouge2": 0.096,
+      "eval_rougeL": 0.1659,
+      "eval_rougeLsum": 0.166,
+      "eval_runtime": 16.9191,
+      "eval_samples_per_second": 14.658,
+      "eval_steps_per_second": 0.946,
+      "step": 744
+    },
+    {
+      "epoch": 13.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.2352294921875,
+      "eval_rouge1": 0.1964,
+      "eval_rouge2": 0.0971,
+      "eval_rougeL": 0.1663,
+      "eval_rougeLsum": 0.1664,
+      "eval_runtime": 16.9525,
+      "eval_samples_per_second": 14.629,
+      "eval_steps_per_second": 0.944,
+      "step": 806
+    },
+    {
+      "epoch": 14.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.2252049446105957,
+      "eval_rouge1": 0.197,
+      "eval_rouge2": 0.097,
+      "eval_rougeL": 0.1664,
+      "eval_rougeLsum": 0.1664,
+      "eval_runtime": 16.904,
+      "eval_samples_per_second": 14.671,
+      "eval_steps_per_second": 0.947,
+      "step": 868
+    },
+    {
+      "epoch": 15.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.2152445316314697,
+      "eval_rouge1": 0.1954,
+      "eval_rouge2": 0.0979,
+      "eval_rougeL": 0.1664,
+      "eval_rougeLsum": 0.1665,
+      "eval_runtime": 17.117,
+      "eval_samples_per_second": 14.489,
+      "eval_steps_per_second": 0.935,
+      "step": 930
+    },
+    {
+      "epoch": 16.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.207918643951416,
+      "eval_rouge1": 0.1954,
+      "eval_rouge2": 0.0988,
+      "eval_rougeL": 0.1674,
+      "eval_rougeLsum": 0.1677,
+      "eval_runtime": 17.2029,
+      "eval_samples_per_second": 14.416,
+      "eval_steps_per_second": 0.93,
+      "step": 992
+    },
+    {
+      "epoch": 16.13,
+      "learning_rate": 1.355483870967742e-05,
+      "loss": 2.3282,
+      "step": 1000
+    },
+    {
+      "epoch": 17.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1986870765686035,
+      "eval_rouge1": 0.1951,
+      "eval_rouge2": 0.0995,
+      "eval_rougeL": 0.1672,
+      "eval_rougeLsum": 0.1673,
+      "eval_runtime": 17.1147,
+      "eval_samples_per_second": 14.49,
+      "eval_steps_per_second": 0.935,
+      "step": 1054
+    },
+    {
+      "epoch": 18.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1938998699188232,
+      "eval_rouge1": 0.1974,
+      "eval_rouge2": 0.1015,
+      "eval_rougeL": 0.1695,
+      "eval_rougeLsum": 0.1697,
+      "eval_runtime": 16.7909,
+      "eval_samples_per_second": 14.77,
+      "eval_steps_per_second": 0.953,
+      "step": 1116
+    },
+    {
+      "epoch": 19.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.18984055519104,
+      "eval_rouge1": 0.1965,
+      "eval_rouge2": 0.1014,
+      "eval_rougeL": 0.1691,
+      "eval_rougeLsum": 0.1693,
+      "eval_runtime": 16.6689,
+      "eval_samples_per_second": 14.878,
+      "eval_steps_per_second": 0.96,
+      "step": 1178
+    },
+    {
+      "epoch": 20.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.183218240737915,
+      "eval_rouge1": 0.1963,
+      "eval_rouge2": 0.0997,
+      "eval_rougeL": 0.1683,
+      "eval_rougeLsum": 0.1685,
+      "eval_runtime": 17.3129,
+      "eval_samples_per_second": 14.325,
+      "eval_steps_per_second": 0.924,
+      "step": 1240
+    },
+    {
+      "epoch": 21.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1765005588531494,
+      "eval_rouge1": 0.1966,
+      "eval_rouge2": 0.0991,
+      "eval_rougeL": 0.1676,
+      "eval_rougeLsum": 0.1678,
+      "eval_runtime": 16.8703,
+      "eval_samples_per_second": 14.7,
+      "eval_steps_per_second": 0.948,
+      "step": 1302
+    },
+    {
+      "epoch": 22.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1725897789001465,
+      "eval_rouge1": 0.1963,
+      "eval_rouge2": 0.0989,
+      "eval_rougeL": 0.1677,
+      "eval_rougeLsum": 0.1676,
+      "eval_runtime": 16.7813,
+      "eval_samples_per_second": 14.778,
+      "eval_steps_per_second": 0.953,
+      "step": 1364
+    },
+    {
+      "epoch": 23.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1676828861236572,
+      "eval_rouge1": 0.1959,
+      "eval_rouge2": 0.0988,
+      "eval_rougeL": 0.168,
+      "eval_rougeLsum": 0.168,
+      "eval_runtime": 17.3121,
+      "eval_samples_per_second": 14.325,
+      "eval_steps_per_second": 0.924,
+      "step": 1426
+    },
+    {
+      "epoch": 24.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1647536754608154,
+      "eval_rouge1": 0.1967,
+      "eval_rouge2": 0.0994,
+      "eval_rougeL": 0.169,
+      "eval_rougeLsum": 0.1692,
+      "eval_runtime": 16.9203,
+      "eval_samples_per_second": 14.657,
+      "eval_steps_per_second": 0.946,
+      "step": 1488
+    },
+    {
+      "epoch": 24.19,
+      "learning_rate": 1.0329032258064518e-05,
+      "loss": 2.2281,
+      "step": 1500
+    },
+    {
+      "epoch": 25.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.15854549407959,
+      "eval_rouge1": 0.1958,
+      "eval_rouge2": 0.0988,
+      "eval_rougeL": 0.1685,
+      "eval_rougeLsum": 0.1687,
+      "eval_runtime": 17.1171,
+      "eval_samples_per_second": 14.488,
+      "eval_steps_per_second": 0.935,
+      "step": 1550
+    },
+    {
+      "epoch": 26.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1557765007019043,
+      "eval_rouge1": 0.197,
+      "eval_rouge2": 0.1,
+      "eval_rougeL": 0.1698,
+      "eval_rougeLsum": 0.1699,
+      "eval_runtime": 16.8981,
+      "eval_samples_per_second": 14.676,
+      "eval_steps_per_second": 0.947,
+      "step": 1612
+    },
+    {
+      "epoch": 27.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1530044078826904,
+      "eval_rouge1": 0.196,
+      "eval_rouge2": 0.0994,
+      "eval_rougeL": 0.1685,
+      "eval_rougeLsum": 0.1687,
+      "eval_runtime": 16.9499,
+      "eval_samples_per_second": 14.631,
+      "eval_steps_per_second": 0.944,
+      "step": 1674
+    },
+    {
+      "epoch": 28.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1497113704681396,
+      "eval_rouge1": 0.1971,
+      "eval_rouge2": 0.101,
+      "eval_rougeL": 0.1697,
+      "eval_rougeLsum": 0.1699,
+      "eval_runtime": 16.8885,
+      "eval_samples_per_second": 14.685,
+      "eval_steps_per_second": 0.947,
+      "step": 1736
+    },
+    {
+      "epoch": 29.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1459004878997803,
+      "eval_rouge1": 0.1972,
+      "eval_rouge2": 0.1008,
+      "eval_rougeL": 0.17,
+      "eval_rougeLsum": 0.1701,
+      "eval_runtime": 17.5571,
+      "eval_samples_per_second": 14.125,
+      "eval_steps_per_second": 0.911,
+      "step": 1798
+    },
+    {
+      "epoch": 30.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.142939805984497,
+      "eval_rouge1": 0.1946,
+      "eval_rouge2": 0.0989,
+      "eval_rougeL": 0.1677,
+      "eval_rougeLsum": 0.1678,
+      "eval_runtime": 17.4108,
+      "eval_samples_per_second": 14.244,
+      "eval_steps_per_second": 0.919,
+      "step": 1860
+    },
+    {
+      "epoch": 31.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.14223051071167,
+      "eval_rouge1": 0.1958,
+      "eval_rouge2": 0.1,
+      "eval_rougeL": 0.1691,
+      "eval_rougeLsum": 0.1692,
+      "eval_runtime": 17.3596,
+      "eval_samples_per_second": 14.286,
+      "eval_steps_per_second": 0.922,
+      "step": 1922
+    },
+    {
+      "epoch": 32.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.139946699142456,
+      "eval_rouge1": 0.1952,
+      "eval_rouge2": 0.0992,
+      "eval_rougeL": 0.1687,
+      "eval_rougeLsum": 0.1687,
+      "eval_runtime": 17.1971,
+      "eval_samples_per_second": 14.421,
+      "eval_steps_per_second": 0.93,
+      "step": 1984
+    },
+    {
+      "epoch": 32.26,
+      "learning_rate": 7.103225806451613e-06,
+      "loss": 2.1696,
+      "step": 2000
+    },
+    {
+      "epoch": 33.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.135340690612793,
+      "eval_rouge1": 0.1945,
+      "eval_rouge2": 0.0983,
+      "eval_rougeL": 0.1676,
+      "eval_rougeLsum": 0.1676,
+      "eval_runtime": 16.8259,
+      "eval_samples_per_second": 14.739,
+      "eval_steps_per_second": 0.951,
+      "step": 2046
+    },
+    {
+      "epoch": 34.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1345207691192627,
+      "eval_rouge1": 0.1934,
+      "eval_rouge2": 0.097,
+      "eval_rougeL": 0.1664,
+      "eval_rougeLsum": 0.1665,
+      "eval_runtime": 17.2959,
+      "eval_samples_per_second": 14.339,
+      "eval_steps_per_second": 0.925,
+      "step": 2108
+    },
+    {
+      "epoch": 35.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.132594585418701,
+      "eval_rouge1": 0.1934,
+      "eval_rouge2": 0.0969,
+      "eval_rougeL": 0.1666,
+      "eval_rougeLsum": 0.1669,
+      "eval_runtime": 16.8869,
+      "eval_samples_per_second": 14.686,
+      "eval_steps_per_second": 0.947,
+      "step": 2170
+    },
+    {
+      "epoch": 36.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1315131187438965,
+      "eval_rouge1": 0.1942,
+      "eval_rouge2": 0.0982,
+      "eval_rougeL": 0.1674,
+      "eval_rougeLsum": 0.1676,
+      "eval_runtime": 16.9224,
+      "eval_samples_per_second": 14.655,
+      "eval_steps_per_second": 0.945,
+      "step": 2232
+    },
+    {
+      "epoch": 37.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1289427280426025,
+      "eval_rouge1": 0.1941,
+      "eval_rouge2": 0.0989,
+      "eval_rougeL": 0.1679,
+      "eval_rougeLsum": 0.1681,
+      "eval_runtime": 17.1711,
+      "eval_samples_per_second": 14.443,
+      "eval_steps_per_second": 0.932,
+      "step": 2294
+    },
+    {
+      "epoch": 38.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1285345554351807,
+      "eval_rouge1": 0.1924,
+      "eval_rouge2": 0.0971,
+      "eval_rougeL": 0.1664,
+      "eval_rougeLsum": 0.1665,
+      "eval_runtime": 16.844,
+      "eval_samples_per_second": 14.723,
+      "eval_steps_per_second": 0.95,
+      "step": 2356
+    },
+    {
+      "epoch": 39.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1261112689971924,
+      "eval_rouge1": 0.1932,
+      "eval_rouge2": 0.0983,
+      "eval_rougeL": 0.1671,
+      "eval_rougeLsum": 0.1672,
+      "eval_runtime": 16.7999,
+      "eval_samples_per_second": 14.762,
+      "eval_steps_per_second": 0.952,
+      "step": 2418
+    },
+    {
+      "epoch": 40.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1248812675476074,
+      "eval_rouge1": 0.1931,
+      "eval_rouge2": 0.0985,
+      "eval_rougeL": 0.1672,
+      "eval_rougeLsum": 0.1674,
+      "eval_runtime": 17.7634,
+      "eval_samples_per_second": 13.961,
+      "eval_steps_per_second": 0.901,
+      "step": 2480
+    },
+    {
+      "epoch": 40.32,
+      "learning_rate": 3.87741935483871e-06,
+      "loss": 2.1317,
+      "step": 2500
+    },
+    {
+      "epoch": 41.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1237168312072754,
+      "eval_rouge1": 0.1924,
+      "eval_rouge2": 0.0984,
+      "eval_rougeL": 0.1675,
+      "eval_rougeLsum": 0.1676,
+      "eval_runtime": 16.9062,
+      "eval_samples_per_second": 14.669,
+      "eval_steps_per_second": 0.946,
+      "step": 2542
+    },
+    {
+      "epoch": 42.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.122954845428467,
+      "eval_rouge1": 0.1932,
+      "eval_rouge2": 0.0987,
+      "eval_rougeL": 0.1684,
+      "eval_rougeLsum": 0.1686,
+      "eval_runtime": 16.7724,
+      "eval_samples_per_second": 14.786,
+      "eval_steps_per_second": 0.954,
+      "step": 2604
+    },
+    {
+      "epoch": 43.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1227517127990723,
+      "eval_rouge1": 0.1927,
+      "eval_rouge2": 0.0975,
+      "eval_rougeL": 0.1671,
+      "eval_rougeLsum": 0.1672,
+      "eval_runtime": 16.7221,
+      "eval_samples_per_second": 14.831,
+      "eval_steps_per_second": 0.957,
+      "step": 2666
+    },
+    {
+      "epoch": 44.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1212539672851562,
+      "eval_rouge1": 0.1924,
+      "eval_rouge2": 0.0973,
+      "eval_rougeL": 0.1666,
+      "eval_rougeLsum": 0.1668,
+      "eval_runtime": 16.7559,
+      "eval_samples_per_second": 14.801,
+      "eval_steps_per_second": 0.955,
+      "step": 2728
+    },
+    {
+      "epoch": 45.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.121572732925415,
+      "eval_rouge1": 0.1924,
+      "eval_rouge2": 0.0979,
+      "eval_rougeL": 0.1665,
+      "eval_rougeLsum": 0.1667,
+      "eval_runtime": 16.8173,
+      "eval_samples_per_second": 14.747,
+      "eval_steps_per_second": 0.951,
+      "step": 2790
+    },
+    {
+      "epoch": 46.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.120406150817871,
+      "eval_rouge1": 0.1914,
+      "eval_rouge2": 0.097,
+      "eval_rougeL": 0.1657,
+      "eval_rougeLsum": 0.1659,
+      "eval_runtime": 17.3154,
+      "eval_samples_per_second": 14.323,
+      "eval_steps_per_second": 0.924,
+      "step": 2852
+    },
+    {
+      "epoch": 47.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1205737590789795,
+      "eval_rouge1": 0.1928,
+      "eval_rouge2": 0.0982,
+      "eval_rougeL": 0.167,
+      "eval_rougeLsum": 0.1672,
+      "eval_runtime": 16.7782,
+      "eval_samples_per_second": 14.781,
+      "eval_steps_per_second": 0.954,
+      "step": 2914
+    },
+    {
+      "epoch": 48.0,
+      "eval_gen_len": 19.0,
+      "eval_loss": 2.1202914714813232,
+      "eval_rouge1": 0.1926,
+      "eval_rouge2": 0.0973,
+      "eval_rougeL": 0.1667,
+      "eval_rougeLsum": 0.1669,
+      "eval_runtime": 16.8047,
+      "eval_samples_per_second": 14.758,
+      "eval_steps_per_second": 0.952,
+      "step": 2976
+    },
+    {
+      "epoch": 48.39,
+      "learning_rate": 6.516129032258064e-07,
+      "loss": 2.1144,
+      "step": 3000
+    }
+  ],
+  "max_steps": 3100,
+  "num_train_epochs": 50,
+  "total_flos": 1.2953834502488064e+16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-3000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e9b3aa9ab791ba4b7e80300d59c10840c6bcc3f12ac2ddb83e7eb1190863235d
+size 4155

config.json ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "_name_or_path": "t5-small",
+  "architectures": [
+    "T5ForConditionalGeneration"
+  ],
+  "d_ff": 2048,
+  "d_kv": 64,
+  "d_model": 512,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "relu",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "relu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": false,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 6,
+  "num_heads": 8,
+  "num_layers": 6,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "task_specific_params": {
+    "summarization": {
+      "early_stopping": true,
+      "length_penalty": 2.0,
+      "max_length": 200,
+      "min_length": 30,
+      "no_repeat_ngram_size": 3,
+      "num_beams": 4,
+      "prefix": "summarize: "
+    },
+    "translation_en_to_de": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to German: "
+    },
+    "translation_en_to_fr": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to French: "
+    },
+    "translation_en_to_ro": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to Romanian: "
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.31.0",
+  "use_cache": true,
+  "vocab_size": 32128
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cfe5d1432ef330d15da08bce2a11ccfe2156b8dbaccd22ddfbfe004772de0c8d
+size 242071641

runs/Jul21_05-05-37_1daa7b5ea0df/events.out.tfevents.1689915947.1daa7b5ea0df.1289.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b3a3331fbf9a794a0f6581babe2d539c47d03dc3973a79d86d147829611daa83
+size 32558

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,107 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,111 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "extra_ids": 100,
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "tokenizer_class": "T5Tokenizer",
+  "unk_token": "<unk>"
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e9b3aa9ab791ba4b7e80300d59c10840c6bcc3f12ac2ddb83e7eb1190863235d
+size 4155