Model save

Browse files

Files changed (14) hide show

last-checkpoint/config.json +0 -56
last-checkpoint/optimizer.pt +0 -3
last-checkpoint/pytorch_model.bin +0 -3
last-checkpoint/rng_state.pth +0 -3
last-checkpoint/scaler.pt +0 -3
last-checkpoint/scheduler.pt +0 -3
last-checkpoint/special_tokens_map.json +0 -110
last-checkpoint/spiece.model +0 -3
last-checkpoint/tokenizer.json +0 -0
last-checkpoint/tokenizer_config.json +0 -118
last-checkpoint/trainer_state.json +0 -35
last-checkpoint/training_args.bin +0 -3
pytorch_model.bin +1 -1
trainer_state.json +130 -0

last-checkpoint/config.json DELETED Viewed

@@ -1,56 +0,0 @@
-{
-  "_name_or_path": "google/pegasus-newsroom",
-  "activation_dropout": 0.1,
-  "activation_function": "relu",
-  "add_bias_logits": false,
-  "add_final_layer_norm": true,
-  "architectures": [
-    "PegasusForConditionalGeneration"
-  ],
-  "attention_dropout": 0.1,
-  "bos_token_id": 0,
-  "classif_dropout": 0.0,
-  "classifier_dropout": 0.0,
-  "d_model": 1024,
-  "decoder_attention_heads": 16,
-  "decoder_ffn_dim": 4096,
-  "decoder_layerdrop": 0.0,
-  "decoder_layers": 16,
-  "decoder_start_token_id": 0,
-  "dropout": 0.1,
-  "encoder_attention_heads": 16,
-  "encoder_ffn_dim": 4096,
-  "encoder_layerdrop": 0.0,
-  "encoder_layers": 16,
-  "eos_token_id": 1,
-  "extra_pos_embeddings": 1,
-  "forced_eos_token_id": 1,
-  "id2label": {
-    "0": "LABEL_0",
-    "1": "LABEL_1",
-    "2": "LABEL_2"
-  },
-  "init_std": 0.02,
-  "is_encoder_decoder": true,
-  "label2id": {
-    "LABEL_0": 0,
-    "LABEL_1": 1,
-    "LABEL_2": 2
-  },
-  "length_penalty": 0.8,
-  "max_length": 128,
-  "max_position_embeddings": 512,
-  "min_length": 32,
-  "model_type": "pegasus",
-  "normalize_before": true,
-  "normalize_embedding": false,
-  "num_beams": 2,
-  "num_hidden_layers": 16,
-  "pad_token_id": 0,
-  "scale_embedding": true,
-  "static_position_embeddings": true,
-  "torch_dtype": "float32",
-  "transformers_version": "4.20.1",
-  "use_cache": true,
-  "vocab_size": 96103
-}

last-checkpoint/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:229c943157d5a5e9e8991cc8900ef56099b6776944489977abfc2030ac563ae0
-size 5840398

last-checkpoint/pytorch_model.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:d3ee858dd84837f7c4c8c190b5f93e8054b41ccf8a21bc8e242fa28cf589305f
-size 2279605745

last-checkpoint/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:4a14935a413905e218f61bc57662a288c912cfa6d0939815b278dfb74ad02841
-size 14439

last-checkpoint/scaler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:d635e22380cc34a06be3e38f1e8aab1cd60caff2247be4baed053a9eeadd0935
-size 559

last-checkpoint/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:2fb8c2cfdbb7789c5d212766c1d81f546c527c967cb92c197f611d2e7cbd5f8d
-size 623

last-checkpoint/special_tokens_map.json DELETED Viewed

@@ -1,110 +0,0 @@
-{
-  "additional_special_tokens": [
-    "<mask_1>",
-    "<unk_2>",
-    "<unk_3>",
-    "<unk_4>",
-    "<unk_5>",
-    "<unk_6>",
-    "<unk_7>",
-    "<unk_8>",
-    "<unk_9>",
-    "<unk_10>",
-    "<unk_11>",
-    "<unk_12>",
-    "<unk_13>",
-    "<unk_14>",
-    "<unk_15>",
-    "<unk_16>",
-    "<unk_17>",
-    "<unk_18>",
-    "<unk_19>",
-    "<unk_20>",
-    "<unk_21>",
-    "<unk_22>",
-    "<unk_23>",
-    "<unk_24>",
-    "<unk_25>",
-    "<unk_26>",
-    "<unk_27>",
-    "<unk_28>",
-    "<unk_29>",
-    "<unk_30>",
-    "<unk_31>",
-    "<unk_32>",
-    "<unk_33>",
-    "<unk_34>",
-    "<unk_35>",
-    "<unk_36>",
-    "<unk_37>",
-    "<unk_38>",
-    "<unk_39>",
-    "<unk_40>",
-    "<unk_41>",
-    "<unk_42>",
-    "<unk_43>",
-    "<unk_44>",
-    "<unk_45>",
-    "<unk_46>",
-    "<unk_47>",
-    "<unk_48>",
-    "<unk_49>",
-    "<unk_50>",
-    "<unk_51>",
-    "<unk_52>",
-    "<unk_53>",
-    "<unk_54>",
-    "<unk_55>",
-    "<unk_56>",
-    "<unk_57>",
-    "<unk_58>",
-    "<unk_59>",
-    "<unk_60>",
-    "<unk_61>",
-    "<unk_62>",
-    "<unk_63>",
-    "<unk_64>",
-    "<unk_65>",
-    "<unk_66>",
-    "<unk_67>",
-    "<unk_68>",
-    "<unk_69>",
-    "<unk_70>",
-    "<unk_71>",
-    "<unk_72>",
-    "<unk_73>",
-    "<unk_74>",
-    "<unk_75>",
-    "<unk_76>",
-    "<unk_77>",
-    "<unk_78>",
-    "<unk_79>",
-    "<unk_80>",
-    "<unk_81>",
-    "<unk_82>",
-    "<unk_83>",
-    "<unk_84>",
-    "<unk_85>",
-    "<unk_86>",
-    "<unk_87>",
-    "<unk_88>",
-    "<unk_89>",
-    "<unk_90>",
-    "<unk_91>",
-    "<unk_92>",
-    "<unk_93>",
-    "<unk_94>",
-    "<unk_95>",
-    "<unk_96>",
-    "<unk_97>",
-    "<unk_98>",
-    "<unk_99>",
-    "<unk_100>",
-    "<unk_101>",
-    "<unk_102>"
-  ],
-  "eos_token": "</s>",
-  "mask_token": "<mask_2>",
-  "pad_token": "<pad>",
-  "unk_token": "<unk>"
-}

last-checkpoint/spiece.model DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:0015189ef36359283fec8b93cf6d9ce51bca37eb1101defc68a53b394913b96c
-size 1912529

last-checkpoint/tokenizer.json DELETED Viewed

The diff for this file is too large to render. See raw diff

last-checkpoint/tokenizer_config.json DELETED Viewed

@@ -1,118 +0,0 @@
-{
-  "additional_special_tokens": [
-    "<mask_1>",
-    "<unk_2>",
-    "<unk_3>",
-    "<unk_4>",
-    "<unk_5>",
-    "<unk_6>",
-    "<unk_7>",
-    "<unk_8>",
-    "<unk_9>",
-    "<unk_10>",
-    "<unk_11>",
-    "<unk_12>",
-    "<unk_13>",
-    "<unk_14>",
-    "<unk_15>",
-    "<unk_16>",
-    "<unk_17>",
-    "<unk_18>",
-    "<unk_19>",
-    "<unk_20>",
-    "<unk_21>",
-    "<unk_22>",
-    "<unk_23>",
-    "<unk_24>",
-    "<unk_25>",
-    "<unk_26>",
-    "<unk_27>",
-    "<unk_28>",
-    "<unk_29>",
-    "<unk_30>",
-    "<unk_31>",
-    "<unk_32>",
-    "<unk_33>",
-    "<unk_34>",
-    "<unk_35>",
-    "<unk_36>",
-    "<unk_37>",
-    "<unk_38>",
-    "<unk_39>",
-    "<unk_40>",
-    "<unk_41>",
-    "<unk_42>",
-    "<unk_43>",
-    "<unk_44>",
-    "<unk_45>",
-    "<unk_46>",
-    "<unk_47>",
-    "<unk_48>",
-    "<unk_49>",
-    "<unk_50>",
-    "<unk_51>",
-    "<unk_52>",
-    "<unk_53>",
-    "<unk_54>",
-    "<unk_55>",
-    "<unk_56>",
-    "<unk_57>",
-    "<unk_58>",
-    "<unk_59>",
-    "<unk_60>",
-    "<unk_61>",
-    "<unk_62>",
-    "<unk_63>",
-    "<unk_64>",
-    "<unk_65>",
-    "<unk_66>",
-    "<unk_67>",
-    "<unk_68>",
-    "<unk_69>",
-    "<unk_70>",
-    "<unk_71>",
-    "<unk_72>",
-    "<unk_73>",
-    "<unk_74>",
-    "<unk_75>",
-    "<unk_76>",
-    "<unk_77>",
-    "<unk_78>",
-    "<unk_79>",
-    "<unk_80>",
-    "<unk_81>",
-    "<unk_82>",
-    "<unk_83>",
-    "<unk_84>",
-    "<unk_85>",
-    "<unk_86>",
-    "<unk_87>",
-    "<unk_88>",
-    "<unk_89>",
-    "<unk_90>",
-    "<unk_91>",
-    "<unk_92>",
-    "<unk_93>",
-    "<unk_94>",
-    "<unk_95>",
-    "<unk_96>",
-    "<unk_97>",
-    "<unk_98>",
-    "<unk_99>",
-    "<unk_100>",
-    "<unk_101>",
-    "<unk_102>"
-  ],
-  "eos_token": "</s>",
-  "full_tokenizer_file": null,
-  "mask_token": "<mask_2>",
-  "mask_token_sent": "<mask_1>",
-  "model_max_length": 512,
-  "name_or_path": "google/pegasus-newsroom",
-  "offset": 103,
-  "pad_token": "<pad>",
-  "sp_model_kwargs": {},
-  "special_tokens_map_file": null,
-  "tokenizer_class": "PegasusTokenizer",
-  "unk_token": "<unk>"
-}

last-checkpoint/trainer_state.json DELETED Viewed

@@ -1,35 +0,0 @@
-{
-  "best_metric": 37.4459,
-  "best_model_checkpoint": "pegasus-newsroom-cnn_full-adafactor-bs6/checkpoint-299",
-  "epoch": 0.09997283346916598,
-  "global_step": 299,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.1,
-      "learning_rate": 7.839464882943145e-05,
-      "loss": 3.3516,
-      "step": 299
-    },
-    {
-      "epoch": 0.1,
-      "eval_gen_len": 75.2876,
-      "eval_loss": 3.0071940422058105,
-      "eval_rouge1": 37.4459,
-      "eval_rouge2": 16.5527,
-      "eval_rougeL": 26.0178,
-      "eval_rougeLsum": 34.4955,
-      "eval_runtime": 1262.9542,
-      "eval_samples_per_second": 1.979,
-      "eval_steps_per_second": 0.33,
-      "step": 299
-    }
-  ],
-  "max_steps": 2990,
-  "num_train_epochs": 1,
-  "total_flos": 4.146959327271322e+16,
-  "trial_name": null,
-  "trial_params": null
-}

last-checkpoint/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:c380d343d655a247010cd81ba7f73d2c000362c3c07fbc4014043dafee87866f
-size 3567

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d3ee858dd84837f7c4c8c190b5f93e8054b41ccf8a21bc8e242fa28cf589305f
 size 2279605745

 version https://git-lfs.github.com/spec/v1
+oid sha256:e47e09c2798018a81069504ae2b7ea7a01b7ba5446e6e2793ed9e916e1772c03
 size 2279605745

trainer_state.json ADDED Viewed

	@@ -0,0 +1,130 @@

+{
+  "best_metric": 38.5992,
+  "best_model_checkpoint": "pegasus-newsroom-cnn_full-adafactor-bs6/checkpoint-897",
+  "epoch": 0.6356132321902493,
+  "global_step": 1901,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.1,
+      "learning_rate": 7.839464882943145e-05,
+      "loss": 3.3516,
+      "step": 299
+    },
+    {
+      "epoch": 0.1,
+      "eval_gen_len": 75.2876,
+      "eval_loss": 3.0071940422058105,
+      "eval_rouge1": 37.4459,
+      "eval_rouge2": 16.5527,
+      "eval_rougeL": 26.0178,
+      "eval_rougeLsum": 34.4955,
+      "eval_runtime": 1262.9542,
+      "eval_samples_per_second": 1.979,
+      "eval_steps_per_second": 0.33,
+      "step": 299
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00015812709030100337,
+      "loss": 3.1391,
+      "step": 598
+    },
+    {
+      "epoch": 0.2,
+      "eval_gen_len": 72.434,
+      "eval_loss": 2.974590539932251,
+      "eval_rouge1": 37.9369,
+      "eval_rouge2": 16.9058,
+      "eval_rougeL": 26.566,
+      "eval_rougeLsum": 35.0327,
+      "eval_runtime": 1247.518,
+      "eval_samples_per_second": 2.004,
+      "eval_steps_per_second": 0.334,
+      "step": 598
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0001405351170568562,
+      "loss": 3.1086,
+      "step": 897
+    },
+    {
+      "epoch": 0.3,
+      "eval_gen_len": 66.2268,
+      "eval_loss": 2.9494450092315674,
+      "eval_rouge1": 38.5992,
+      "eval_rouge2": 17.5271,
+      "eval_rougeL": 27.3099,
+      "eval_rougeLsum": 35.6531,
+      "eval_runtime": 1158.9422,
+      "eval_samples_per_second": 2.157,
+      "eval_steps_per_second": 0.36,
+      "step": 897
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00012060200668896322,
+      "loss": 3.1037,
+      "step": 1196
+    },
+    {
+      "epoch": 0.4,
+      "eval_gen_len": 70.6692,
+      "eval_loss": 2.95255184173584,
+      "eval_rouge1": 38.3805,
+      "eval_rouge2": 17.5267,
+      "eval_rougeL": 27.1742,
+      "eval_rougeLsum": 35.5035,
+      "eval_runtime": 1183.4051,
+      "eval_samples_per_second": 2.113,
+      "eval_steps_per_second": 0.352,
+      "step": 1196
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00010100334448160536,
+      "loss": 3.2294,
+      "step": 1495
+    },
+    {
+      "epoch": 0.5,
+      "eval_gen_len": 56.5128,
+      "eval_loss": 3.183689832687378,
+      "eval_rouge1": 36.2619,
+      "eval_rouge2": 15.599,
+      "eval_rougeL": 25.8333,
+      "eval_rougeLsum": 33.3692,
+      "eval_runtime": 997.3694,
+      "eval_samples_per_second": 2.507,
+      "eval_steps_per_second": 0.418,
+      "step": 1495
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 8.127090301003345e-05,
+      "loss": 3.695,
+      "step": 1794
+    },
+    {
+      "epoch": 0.6,
+      "eval_gen_len": 47.1888,
+      "eval_loss": 3.4275190830230713,
+      "eval_rouge1": 33.0969,
+      "eval_rouge2": 13.6577,
+      "eval_rougeL": 23.9839,
+      "eval_rougeLsum": 30.6005,
+      "eval_runtime": 927.662,
+      "eval_samples_per_second": 2.695,
+      "eval_steps_per_second": 0.45,
+      "step": 1794
+    }
+  ],
+  "max_steps": 2990,
+  "num_train_epochs": 1,
+  "total_flos": 2.4881742419263488e+17,
+  "trial_name": null,
+  "trial_params": null
+}