Model save

Browse files

Files changed (12) hide show

last-checkpoint/generation_config.json → generation_config.json +0 -0
last-checkpoint/config.json +0 -60
last-checkpoint/optimizer.pt +0 -3
last-checkpoint/pytorch_model.bin +0 -3
last-checkpoint/rng_state.pth +0 -3
last-checkpoint/scheduler.pt +0 -3
last-checkpoint/special_tokens_map.json +0 -107
last-checkpoint/tokenizer.json +0 -0
last-checkpoint/tokenizer_config.json +0 -111
last-checkpoint/trainer_state.json +0 -192
last-checkpoint/training_args.bin +0 -3
pytorch_model.bin +1 -1

last-checkpoint/generation_config.json → generation_config.json RENAMED Viewed

File without changes

last-checkpoint/config.json DELETED Viewed

@@ -1,60 +0,0 @@
-{
-  "_name_or_path": "t5-small",
-  "architectures": [
-    "T5ForConditionalGeneration"
-  ],
-  "d_ff": 2048,
-  "d_kv": 64,
-  "d_model": 512,
-  "decoder_start_token_id": 0,
-  "dense_act_fn": "relu",
-  "dropout_rate": 0.1,
-  "eos_token_id": 1,
-  "feed_forward_proj": "relu",
-  "initializer_factor": 1.0,
-  "is_encoder_decoder": true,
-  "is_gated_act": false,
-  "layer_norm_epsilon": 1e-06,
-  "model_type": "t5",
-  "n_positions": 512,
-  "num_decoder_layers": 6,
-  "num_heads": 8,
-  "num_layers": 6,
-  "output_past": true,
-  "pad_token_id": 0,
-  "relative_attention_max_distance": 128,
-  "relative_attention_num_buckets": 32,
-  "task_specific_params": {
-    "summarization": {
-      "early_stopping": true,
-      "length_penalty": 2.0,
-      "max_length": 200,
-      "min_length": 30,
-      "no_repeat_ngram_size": 3,
-      "num_beams": 4,
-      "prefix": "summarize: "
-    },
-    "translation_en_to_de": {
-      "early_stopping": true,
-      "max_length": 300,
-      "num_beams": 4,
-      "prefix": "translate English to German: "
-    },
-    "translation_en_to_fr": {
-      "early_stopping": true,
-      "max_length": 300,
-      "num_beams": 4,
-      "prefix": "translate English to French: "
-    },
-    "translation_en_to_ro": {
-      "early_stopping": true,
-      "max_length": 300,
-      "num_beams": 4,
-      "prefix": "translate English to Romanian: "
-    }
-  },
-  "torch_dtype": "float32",
-  "transformers_version": "4.27.4",
-  "use_cache": true,
-  "vocab_size": 32128
-}

last-checkpoint/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:b6e695ce342085751e8088db3a1ccd4e12ae77908153744c73d1cbf686de28d6
-size 839109

last-checkpoint/pytorch_model.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:e0932a9631d1d6657db830cbe8bf7d938b02725fb7838de7aad0768d17ba456d
-size 242071641

last-checkpoint/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:23847b9061c3ef02b96a96b1800df1e82d54ffce02dca64bce9f878e1c885d63
-size 14575

last-checkpoint/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:208b9a0fd35638ca537be084cec723f7de06e1059d5216cf32ae7d29bab55c30
-size 627

last-checkpoint/special_tokens_map.json DELETED Viewed

@@ -1,107 +0,0 @@
-{
-  "additional_special_tokens": [
-    "<extra_id_0>",
-    "<extra_id_1>",
-    "<extra_id_2>",
-    "<extra_id_3>",
-    "<extra_id_4>",
-    "<extra_id_5>",
-    "<extra_id_6>",
-    "<extra_id_7>",
-    "<extra_id_8>",
-    "<extra_id_9>",
-    "<extra_id_10>",
-    "<extra_id_11>",
-    "<extra_id_12>",
-    "<extra_id_13>",
-    "<extra_id_14>",
-    "<extra_id_15>",
-    "<extra_id_16>",
-    "<extra_id_17>",
-    "<extra_id_18>",
-    "<extra_id_19>",
-    "<extra_id_20>",
-    "<extra_id_21>",
-    "<extra_id_22>",
-    "<extra_id_23>",
-    "<extra_id_24>",
-    "<extra_id_25>",
-    "<extra_id_26>",
-    "<extra_id_27>",
-    "<extra_id_28>",
-    "<extra_id_29>",
-    "<extra_id_30>",
-    "<extra_id_31>",
-    "<extra_id_32>",
-    "<extra_id_33>",
-    "<extra_id_34>",
-    "<extra_id_35>",
-    "<extra_id_36>",
-    "<extra_id_37>",
-    "<extra_id_38>",
-    "<extra_id_39>",
-    "<extra_id_40>",
-    "<extra_id_41>",
-    "<extra_id_42>",
-    "<extra_id_43>",
-    "<extra_id_44>",
-    "<extra_id_45>",
-    "<extra_id_46>",
-    "<extra_id_47>",
-    "<extra_id_48>",
-    "<extra_id_49>",
-    "<extra_id_50>",
-    "<extra_id_51>",
-    "<extra_id_52>",
-    "<extra_id_53>",
-    "<extra_id_54>",
-    "<extra_id_55>",
-    "<extra_id_56>",
-    "<extra_id_57>",
-    "<extra_id_58>",
-    "<extra_id_59>",
-    "<extra_id_60>",
-    "<extra_id_61>",
-    "<extra_id_62>",
-    "<extra_id_63>",
-    "<extra_id_64>",
-    "<extra_id_65>",
-    "<extra_id_66>",
-    "<extra_id_67>",
-    "<extra_id_68>",
-    "<extra_id_69>",
-    "<extra_id_70>",
-    "<extra_id_71>",
-    "<extra_id_72>",
-    "<extra_id_73>",
-    "<extra_id_74>",
-    "<extra_id_75>",
-    "<extra_id_76>",
-    "<extra_id_77>",
-    "<extra_id_78>",
-    "<extra_id_79>",
-    "<extra_id_80>",
-    "<extra_id_81>",
-    "<extra_id_82>",
-    "<extra_id_83>",
-    "<extra_id_84>",
-    "<extra_id_85>",
-    "<extra_id_86>",
-    "<extra_id_87>",
-    "<extra_id_88>",
-    "<extra_id_89>",
-    "<extra_id_90>",
-    "<extra_id_91>",
-    "<extra_id_92>",
-    "<extra_id_93>",
-    "<extra_id_94>",
-    "<extra_id_95>",
-    "<extra_id_96>",
-    "<extra_id_97>",
-    "<extra_id_98>",
-    "<extra_id_99>"
-  ],
-  "eos_token": "</s>",
-  "pad_token": "<pad>",
-  "unk_token": "<unk>"
-}

last-checkpoint/tokenizer.json DELETED Viewed

The diff for this file is too large to render. See raw diff

last-checkpoint/tokenizer_config.json DELETED Viewed

@@ -1,111 +0,0 @@
-{
-  "additional_special_tokens": [
-    "<extra_id_0>",
-    "<extra_id_1>",
-    "<extra_id_2>",
-    "<extra_id_3>",
-    "<extra_id_4>",
-    "<extra_id_5>",
-    "<extra_id_6>",
-    "<extra_id_7>",
-    "<extra_id_8>",
-    "<extra_id_9>",
-    "<extra_id_10>",
-    "<extra_id_11>",
-    "<extra_id_12>",
-    "<extra_id_13>",
-    "<extra_id_14>",
-    "<extra_id_15>",
-    "<extra_id_16>",
-    "<extra_id_17>",
-    "<extra_id_18>",
-    "<extra_id_19>",
-    "<extra_id_20>",
-    "<extra_id_21>",
-    "<extra_id_22>",
-    "<extra_id_23>",
-    "<extra_id_24>",
-    "<extra_id_25>",
-    "<extra_id_26>",
-    "<extra_id_27>",
-    "<extra_id_28>",
-    "<extra_id_29>",
-    "<extra_id_30>",
-    "<extra_id_31>",
-    "<extra_id_32>",
-    "<extra_id_33>",
-    "<extra_id_34>",
-    "<extra_id_35>",
-    "<extra_id_36>",
-    "<extra_id_37>",
-    "<extra_id_38>",
-    "<extra_id_39>",
-    "<extra_id_40>",
-    "<extra_id_41>",
-    "<extra_id_42>",
-    "<extra_id_43>",
-    "<extra_id_44>",
-    "<extra_id_45>",
-    "<extra_id_46>",
-    "<extra_id_47>",
-    "<extra_id_48>",
-    "<extra_id_49>",
-    "<extra_id_50>",
-    "<extra_id_51>",
-    "<extra_id_52>",
-    "<extra_id_53>",
-    "<extra_id_54>",
-    "<extra_id_55>",
-    "<extra_id_56>",
-    "<extra_id_57>",
-    "<extra_id_58>",
-    "<extra_id_59>",
-    "<extra_id_60>",
-    "<extra_id_61>",
-    "<extra_id_62>",
-    "<extra_id_63>",
-    "<extra_id_64>",
-    "<extra_id_65>",
-    "<extra_id_66>",
-    "<extra_id_67>",
-    "<extra_id_68>",
-    "<extra_id_69>",
-    "<extra_id_70>",
-    "<extra_id_71>",
-    "<extra_id_72>",
-    "<extra_id_73>",
-    "<extra_id_74>",
-    "<extra_id_75>",
-    "<extra_id_76>",
-    "<extra_id_77>",
-    "<extra_id_78>",
-    "<extra_id_79>",
-    "<extra_id_80>",
-    "<extra_id_81>",
-    "<extra_id_82>",
-    "<extra_id_83>",
-    "<extra_id_84>",
-    "<extra_id_85>",
-    "<extra_id_86>",
-    "<extra_id_87>",
-    "<extra_id_88>",
-    "<extra_id_89>",
-    "<extra_id_90>",
-    "<extra_id_91>",
-    "<extra_id_92>",
-    "<extra_id_93>",
-    "<extra_id_94>",
-    "<extra_id_95>",
-    "<extra_id_96>",
-    "<extra_id_97>",
-    "<extra_id_98>",
-    "<extra_id_99>"
-  ],
-  "eos_token": "</s>",
-  "extra_ids": 100,
-  "model_max_length": 512,
-  "pad_token": "<pad>",
-  "special_tokens_map_file": null,
-  "tokenizer_class": "T5Tokenizer",
-  "unk_token": "<unk>"
-}

last-checkpoint/trainer_state.json DELETED Viewed

@@ -1,192 +0,0 @@
-{
-  "best_metric": 1.8982672691345215,
-  "best_model_checkpoint": "/home2/s5432073/nlp-final-project/results/t5-small-e-snli-generation-label_and_explanation-selected-b48/checkpoint-6000",
-  "epoch": 1.397868250917351,
-  "global_step": 16000,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.17,
-      "learning_rate": 0.00034946706272933774,
-      "loss": 1.7285,
-      "step": 2000
-    },
-    {
-      "epoch": 0.17,
-      "eval_accuracy": 0.7799227799227799,
-      "eval_bertscore_f1": 0.9249492879321822,
-      "eval_bleu": 0.3617092708600176,
-      "eval_f1": 0.7791533559231315,
-      "eval_loss": 1.994468092918396,
-      "eval_rouge1": 0.5631328346668435,
-      "eval_rouge2": 0.35166927276895404,
-      "eval_rougeL": 0.5091398039884882,
-      "eval_rougeLsum": 0.5115510299066959,
-      "eval_runtime": 152.0189,
-      "eval_samples_per_second": 64.742,
-      "eval_steps_per_second": 1.355,
-      "step": 2000
-    },
-    {
-      "epoch": 0.35,
-      "learning_rate": 0.0006989341254586755,
-      "loss": 1.3318,
-      "step": 4000
-    },
-    {
-      "epoch": 0.35,
-      "eval_accuracy": 0.7980085348506402,
-      "eval_bertscore_f1": 0.9294592572152433,
-      "eval_bleu": 0.3785029978343242,
-      "eval_f1": 0.7970766753508512,
-      "eval_loss": 1.9494003057479858,
-      "eval_rouge1": 0.5766457763494588,
-      "eval_rouge2": 0.36555677670515924,
-      "eval_rougeL": 0.5217789532432893,
-      "eval_rougeLsum": 0.5234366093111781,
-      "eval_runtime": 134.464,
-      "eval_samples_per_second": 73.194,
-      "eval_steps_per_second": 1.532,
-      "step": 4000
-    },
-    {
-      "epoch": 0.52,
-      "learning_rate": 0.0009974525690427361,
-      "loss": 1.2662,
-      "step": 6000
-    },
-    {
-      "epoch": 0.52,
-      "eval_accuracy": 0.8322495427758586,
-      "eval_bertscore_f1": 0.9289105845597477,
-      "eval_bleu": 0.372732685668011,
-      "eval_f1": 0.8331206042748538,
-      "eval_loss": 1.8982672691345215,
-      "eval_rouge1": 0.576918617558847,
-      "eval_rouge2": 0.36557636733349685,
-      "eval_rougeL": 0.520516925582219,
-      "eval_rougeLsum": 0.5224625060799704,
-      "eval_runtime": 140.911,
-      "eval_samples_per_second": 69.846,
-      "eval_steps_per_second": 1.462,
-      "step": 6000
-    },
-    {
-      "epoch": 0.7,
-      "learning_rate": 0.000979059565741192,
-      "loss": 1.2285,
-      "step": 8000
-    },
-    {
-      "epoch": 0.7,
-      "eval_accuracy": 0.839057102214997,
-      "eval_bertscore_f1": 0.9312504534555678,
-      "eval_bleu": 0.38842706559069845,
-      "eval_f1": 0.8395854426332144,
-      "eval_loss": 1.9078353643417358,
-      "eval_rouge1": 0.5833449226550476,
-      "eval_rouge2": 0.37338961978846497,
-      "eval_rougeL": 0.5304206209938851,
-      "eval_rougeLsum": 0.5321264570721548,
-      "eval_runtime": 135.318,
-      "eval_samples_per_second": 72.732,
-      "eval_steps_per_second": 1.522,
-      "step": 8000
-    },
-    {
-      "epoch": 0.87,
-      "learning_rate": 0.000960666562439648,
-      "loss": 1.1973,
-      "step": 10000
-    },
-    {
-      "epoch": 0.87,
-      "eval_accuracy": 0.84850640113798,
-      "eval_bertscore_f1": 0.9303364607951574,
-      "eval_bleu": 0.38678558971915966,
-      "eval_f1": 0.8469534814747445,
-      "eval_loss": 1.924625277519226,
-      "eval_rouge1": 0.5887895849187131,
-      "eval_rouge2": 0.3782063561535805,
-      "eval_rougeL": 0.532227503602458,
-      "eval_rougeLsum": 0.5339020763321387,
-      "eval_runtime": 139.1085,
-      "eval_samples_per_second": 70.751,
-      "eval_steps_per_second": 1.481,
-      "step": 10000
-    },
-    {
-      "epoch": 1.05,
-      "learning_rate": 0.0009422735591381039,
-      "loss": 1.1715,
-      "step": 12000
-    },
-    {
-      "epoch": 1.05,
-      "eval_accuracy": 0.8561268034952245,
-      "eval_bertscore_f1": 0.9330766593215669,
-      "eval_bleu": 0.40386100131184377,
-      "eval_f1": 0.8564542498324688,
-      "eval_loss": 1.9262378215789795,
-      "eval_rouge1": 0.6019574503198954,
-      "eval_rouge2": 0.39499642329876394,
-      "eval_rougeL": 0.546419320785672,
-      "eval_rougeLsum": 0.5479447508315372,
-      "eval_runtime": 137.4104,
-      "eval_samples_per_second": 71.625,
-      "eval_steps_per_second": 1.499,
-      "step": 12000
-    },
-    {
-      "epoch": 1.22,
-      "learning_rate": 0.0009238805558365598,
-      "loss": 1.1368,
-      "step": 14000
-    },
-    {
-      "epoch": 1.22,
-      "eval_accuracy": 0.8621215200162569,
-      "eval_bertscore_f1": 0.9313000801725858,
-      "eval_bleu": 0.3888636197252566,
-      "eval_f1": 0.8612027288089762,
-      "eval_loss": 1.9154859781265259,
-      "eval_rouge1": 0.6027342891006561,
-      "eval_rouge2": 0.3918052861538903,
-      "eval_rougeL": 0.5441715464904324,
-      "eval_rougeLsum": 0.546308335909449,
-      "eval_runtime": 139.5821,
-      "eval_samples_per_second": 70.51,
-      "eval_steps_per_second": 1.476,
-      "step": 14000
-    },
-    {
-      "epoch": 1.4,
-      "learning_rate": 0.0009054875525350156,
-      "loss": 1.1281,
-      "step": 16000
-    },
-    {
-      "epoch": 1.4,
-      "eval_accuracy": 0.8657793131477342,
-      "eval_bertscore_f1": 0.9337438827812418,
-      "eval_bleu": 0.4039391893498565,
-      "eval_f1": 0.8658628497423001,
-      "eval_loss": 1.9090572595596313,
-      "eval_rouge1": 0.6049779979620054,
-      "eval_rouge2": 0.39828191091615167,
-      "eval_rougeL": 0.5492090205604321,
-      "eval_rougeLsum": 0.5512546156746885,
-      "eval_runtime": 138.6947,
-      "eval_samples_per_second": 70.962,
-      "eval_steps_per_second": 1.485,
-      "step": 16000
-    }
-  ],
-  "max_steps": 114460,
-  "num_train_epochs": 10,
-  "total_flos": 1.1521685095514112e+16,
-  "trial_name": null,
-  "trial_params": null
-}

last-checkpoint/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:fb4f6b1f684441f2a8a8eadb1bd29616811f3df207995b04e8f2a63355b35b9c
-size 3963

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e0932a9631d1d6657db830cbe8bf7d938b02725fb7838de7aad0768d17ba456d
 size 242071641

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f6a3ffc692fb8aa71ce3f2e0a3717f1310a6eb57dc43605950c0483d1adcf0b
 size 242071641