Model save

Browse files

Files changed (14) hide show

last-checkpoint/config.json +0 -38
last-checkpoint/merges.txt +0 -0
last-checkpoint/optimizer.pt +0 -3
last-checkpoint/pytorch_model.bin +0 -3
last-checkpoint/rng_state.pth +0 -3
last-checkpoint/scaler.pt +0 -3
last-checkpoint/scheduler.pt +0 -3
last-checkpoint/special_tokens_map.json +0 -15
last-checkpoint/tokenizer.json +0 -0
last-checkpoint/tokenizer_config.json +0 -15
last-checkpoint/trainer_state.json +0 -368
last-checkpoint/training_args.bin +0 -3
last-checkpoint/vocab.json +0 -0
pytorch_model.bin +1 -1

last-checkpoint/config.json DELETED Viewed

@@ -1,38 +0,0 @@
-{
-  "_name_or_path": "roberta-base",
-  "architectures": [
-    "RobertaForSequenceClassification"
-  ],
-  "attention_probs_dropout_prob": 0.1,
-  "bos_token_id": 0,
-  "classifier_dropout": null,
-  "eos_token_id": 2,
-  "hidden_act": "gelu",
-  "hidden_dropout_prob": 0.1,
-  "hidden_size": 768,
-  "id2label": {
-    "0": "entailment",
-    "1": "neutral",
-    "2": "contradiction"
-  },
-  "initializer_range": 0.02,
-  "intermediate_size": 3072,
-  "label2id": {
-    "contradiction": 2,
-    "entailment": 0,
-    "neutral": 1
-  },
-  "layer_norm_eps": 1e-05,
-  "max_position_embeddings": 514,
-  "model_type": "roberta",
-  "num_attention_heads": 12,
-  "num_hidden_layers": 12,
-  "pad_token_id": 1,
-  "position_embedding_type": "absolute",
-  "problem_type": "single_label_classification",
-  "torch_dtype": "float32",
-  "transformers_version": "4.27.1",
-  "type_vocab_size": 1,
-  "use_cache": true,
-  "vocab_size": 50265
-}

last-checkpoint/merges.txt DELETED Viewed

The diff for this file is too large to render. See raw diff

last-checkpoint/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:8c7978bf8054801da6f4c756ac3ee82d92c0f486af86b40dc0bf28323cf03296
-size 997349515

last-checkpoint/pytorch_model.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:19f88d4ac00fa7feb29c8dd174036ce80b27f550f2e7dcaa40ee80769e3c83a2
-size 498663405

last-checkpoint/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:fc559e8f3be7931753acd7e14135ef3c355c45429768068a18a2cdbd924ae84e
-size 14503

last-checkpoint/scaler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:0ac5f79294afe5b58702f8cfd595843c97cf8ecf3eb18e0b1f699ed162ad0894
-size 559

last-checkpoint/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:7ac05aa2ac2c93c43b69f88d2a334721a2027f6a3102b80f21e4e6745984e25d
-size 623

last-checkpoint/special_tokens_map.json DELETED Viewed

@@ -1,15 +0,0 @@
-{
-  "bos_token": "<s>",
-  "cls_token": "<s>",
-  "eos_token": "</s>",
-  "mask_token": {
-    "content": "<mask>",
-    "lstrip": true,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": "<pad>",
-  "sep_token": "</s>",
-  "unk_token": "<unk>"
-}

last-checkpoint/tokenizer.json DELETED Viewed

The diff for this file is too large to render. See raw diff

last-checkpoint/tokenizer_config.json DELETED Viewed

@@ -1,15 +0,0 @@
-{
-  "add_prefix_space": false,
-  "bos_token": "<s>",
-  "cls_token": "<s>",
-  "eos_token": "</s>",
-  "errors": "replace",
-  "mask_token": "<mask>",
-  "model_max_length": 512,
-  "pad_token": "<pad>",
-  "sep_token": "</s>",
-  "special_tokens_map_file": null,
-  "tokenizer_class": "RobertaTokenizer",
-  "trim_offsets": true,
-  "unk_token": "<unk>"
-}

last-checkpoint/trainer_state.json DELETED Viewed

@@ -1,368 +0,0 @@
-{
-  "best_metric": 0.9120778013038088,
-  "best_model_checkpoint": "/home2/s5431786/nlp-final-project/results/roberta-base-e-snli-classification-nli-base/checkpoint-8000",
-  "epoch": 1.0251630941286114,
-  "global_step": 8800,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.05,
-      "learning_rate": 3.0900621118012425e-06,
-      "loss": 1.0317,
-      "step": 400
-    },
-    {
-      "epoch": 0.05,
-      "eval_accuracy": 0.7803292013818329,
-      "eval_f1": 0.7770741838405094,
-      "eval_loss": 0.5733650326728821,
-      "eval_runtime": 5.0438,
-      "eval_samples_per_second": 1951.29,
-      "eval_steps_per_second": 30.532,
-      "step": 400
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 6.187888198757764e-06,
-      "loss": 0.544,
-      "step": 800
-    },
-    {
-      "epoch": 0.09,
-      "eval_accuracy": 0.855517171306645,
-      "eval_f1": 0.8547612368327439,
-      "eval_loss": 0.3994133174419403,
-      "eval_runtime": 4.3487,
-      "eval_samples_per_second": 2263.221,
-      "eval_steps_per_second": 35.413,
-      "step": 800
-    },
-    {
-      "epoch": 0.14,
-      "learning_rate": 9.293478260869566e-06,
-      "loss": 0.4604,
-      "step": 1200
-    },
-    {
-      "epoch": 0.14,
-      "eval_accuracy": 0.8687258687258688,
-      "eval_f1": 0.8681066915368941,
-      "eval_loss": 0.3491659164428711,
-      "eval_runtime": 4.2453,
-      "eval_samples_per_second": 2318.326,
-      "eval_steps_per_second": 36.275,
-      "step": 1200
-    },
-    {
-      "epoch": 0.19,
-      "learning_rate": 9.87369195552649e-06,
-      "loss": 0.4235,
-      "step": 1600
-    },
-    {
-      "epoch": 0.19,
-      "eval_accuracy": 0.8776671408250356,
-      "eval_f1": 0.8764133428741641,
-      "eval_loss": 0.3322618901729584,
-      "eval_runtime": 4.4615,
-      "eval_samples_per_second": 2205.99,
-      "eval_steps_per_second": 34.518,
-      "step": 1600
-    },
-    {
-      "epoch": 0.23,
-      "learning_rate": 9.710186396337476e-06,
-      "loss": 0.3934,
-      "step": 2000
-    },
-    {
-      "epoch": 0.23,
-      "eval_accuracy": 0.884068278805121,
-      "eval_f1": 0.8831390301360367,
-      "eval_loss": 0.32249000668525696,
-      "eval_runtime": 4.2395,
-      "eval_samples_per_second": 2321.481,
-      "eval_steps_per_second": 36.325,
-      "step": 2000
-    },
-    {
-      "epoch": 0.28,
-      "learning_rate": 9.546680837148464e-06,
-      "loss": 0.3863,
-      "step": 2400
-    },
-    {
-      "epoch": 0.28,
-      "eval_accuracy": 0.8872180451127819,
-      "eval_f1": 0.887543528243619,
-      "eval_loss": 0.3085917532444,
-      "eval_runtime": 4.3491,
-      "eval_samples_per_second": 2263.01,
-      "eval_steps_per_second": 35.41,
-      "step": 2400
-    },
-    {
-      "epoch": 0.33,
-      "learning_rate": 9.38317527795945e-06,
-      "loss": 0.3767,
-      "step": 2800
-    },
-    {
-      "epoch": 0.33,
-      "eval_accuracy": 0.8897581792318634,
-      "eval_f1": 0.8891603343028002,
-      "eval_loss": 0.29720813035964966,
-      "eval_runtime": 4.3717,
-      "eval_samples_per_second": 2251.299,
-      "eval_steps_per_second": 35.227,
-      "step": 2800
-    },
-    {
-      "epoch": 0.37,
-      "learning_rate": 9.219669718770439e-06,
-      "loss": 0.3726,
-      "step": 3200
-    },
-    {
-      "epoch": 0.37,
-      "eval_accuracy": 0.8936191830928673,
-      "eval_f1": 0.8931996056385407,
-      "eval_loss": 0.29100456833839417,
-      "eval_runtime": 4.4246,
-      "eval_samples_per_second": 2224.393,
-      "eval_steps_per_second": 34.806,
-      "step": 3200
-    },
-    {
-      "epoch": 0.42,
-      "learning_rate": 9.056164159581427e-06,
-      "loss": 0.3624,
-      "step": 3600
-    },
-    {
-      "epoch": 0.42,
-      "eval_accuracy": 0.8937207884576306,
-      "eval_f1": 0.8933970762962105,
-      "eval_loss": 0.2934032082557678,
-      "eval_runtime": 4.3374,
-      "eval_samples_per_second": 2269.111,
-      "eval_steps_per_second": 35.505,
-      "step": 3600
-    },
-    {
-      "epoch": 0.47,
-      "learning_rate": 8.892658600392414e-06,
-      "loss": 0.361,
-      "step": 4000
-    },
-    {
-      "epoch": 0.47,
-      "eval_accuracy": 0.8989026620605568,
-      "eval_f1": 0.898874821280442,
-      "eval_loss": 0.28308674693107605,
-      "eval_runtime": 4.2135,
-      "eval_samples_per_second": 2335.846,
-      "eval_steps_per_second": 36.55,
-      "step": 4000
-    },
-    {
-      "epoch": 0.51,
-      "learning_rate": 8.729153041203402e-06,
-      "loss": 0.3553,
-      "step": 4400
-    },
-    {
-      "epoch": 0.51,
-      "eval_accuracy": 0.8993090835196098,
-      "eval_f1": 0.898521939461863,
-      "eval_loss": 0.29054638743400574,
-      "eval_runtime": 4.2186,
-      "eval_samples_per_second": 2332.993,
-      "eval_steps_per_second": 36.505,
-      "step": 4400
-    },
-    {
-      "epoch": 0.56,
-      "learning_rate": 8.565647482014388e-06,
-      "loss": 0.3451,
-      "step": 4800
-    },
-    {
-      "epoch": 0.56,
-      "eval_accuracy": 0.9023572444625076,
-      "eval_f1": 0.901894187198396,
-      "eval_loss": 0.27245137095451355,
-      "eval_runtime": 4.2088,
-      "eval_samples_per_second": 2338.443,
-      "eval_steps_per_second": 36.59,
-      "step": 4800
-    },
-    {
-      "epoch": 0.61,
-      "learning_rate": 8.402141922825377e-06,
-      "loss": 0.3475,
-      "step": 5200
-    },
-    {
-      "epoch": 0.61,
-      "eval_accuracy": 0.9051005893111156,
-      "eval_f1": 0.9046245607228055,
-      "eval_loss": 0.2711792588233948,
-      "eval_runtime": 4.2086,
-      "eval_samples_per_second": 2338.56,
-      "eval_steps_per_second": 36.592,
-      "step": 5200
-    },
-    {
-      "epoch": 0.65,
-      "learning_rate": 8.238636363636365e-06,
-      "loss": 0.3398,
-      "step": 5600
-    },
-    {
-      "epoch": 0.65,
-      "eval_accuracy": 0.9027636659215607,
-      "eval_f1": 0.9024225307003263,
-      "eval_loss": 0.2787366211414337,
-      "eval_runtime": 4.3854,
-      "eval_samples_per_second": 2244.277,
-      "eval_steps_per_second": 35.117,
-      "step": 5600
-    },
-    {
-      "epoch": 0.7,
-      "learning_rate": 8.075130804447351e-06,
-      "loss": 0.3322,
-      "step": 6000
-    },
-    {
-      "epoch": 0.7,
-      "eval_accuracy": 0.9045925624872994,
-      "eval_f1": 0.9043146299021979,
-      "eval_loss": 0.2696707248687744,
-      "eval_runtime": 4.2347,
-      "eval_samples_per_second": 2324.111,
-      "eval_steps_per_second": 36.366,
-      "step": 6000
-    },
-    {
-      "epoch": 0.75,
-      "learning_rate": 7.912034009156312e-06,
-      "loss": 0.3288,
-      "step": 6400
-    },
-    {
-      "epoch": 0.75,
-      "eval_accuracy": 0.9013411908148751,
-      "eval_f1": 0.90060674757625,
-      "eval_loss": 0.2721998691558838,
-      "eval_runtime": 4.1964,
-      "eval_samples_per_second": 2345.34,
-      "eval_steps_per_second": 36.698,
-      "step": 6400
-    },
-    {
-      "epoch": 0.79,
-      "learning_rate": 7.7485284499673e-06,
-      "loss": 0.324,
-      "step": 6800
-    },
-    {
-      "epoch": 0.79,
-      "eval_accuracy": 0.9066246697825645,
-      "eval_f1": 0.9065691454907331,
-      "eval_loss": 0.26766958832740784,
-      "eval_runtime": 4.5081,
-      "eval_samples_per_second": 2183.165,
-      "eval_steps_per_second": 34.16,
-      "step": 6800
-    },
-    {
-      "epoch": 0.84,
-      "learning_rate": 7.585022890778288e-06,
-      "loss": 0.3335,
-      "step": 7200
-    },
-    {
-      "epoch": 0.84,
-      "eval_accuracy": 0.9077423287949604,
-      "eval_f1": 0.907479569921263,
-      "eval_loss": 0.2629023790359497,
-      "eval_runtime": 4.168,
-      "eval_samples_per_second": 2361.347,
-      "eval_steps_per_second": 36.949,
-      "step": 7200
-    },
-    {
-      "epoch": 0.89,
-      "learning_rate": 7.421517331589274e-06,
-      "loss": 0.3309,
-      "step": 7600
-    },
-    {
-      "epoch": 0.89,
-      "eval_accuracy": 0.9061166429587483,
-      "eval_f1": 0.9058061283874342,
-      "eval_loss": 0.2577354609966278,
-      "eval_runtime": 4.4559,
-      "eval_samples_per_second": 2208.773,
-      "eval_steps_per_second": 34.561,
-      "step": 7600
-    },
-    {
-      "epoch": 0.93,
-      "learning_rate": 7.258011772400262e-06,
-      "loss": 0.3236,
-      "step": 8000
-    },
-    {
-      "epoch": 0.93,
-      "eval_accuracy": 0.9121113594797805,
-      "eval_f1": 0.9120778013038088,
-      "eval_loss": 0.25613412261009216,
-      "eval_runtime": 4.1922,
-      "eval_samples_per_second": 2347.706,
-      "eval_steps_per_second": 36.735,
-      "step": 8000
-    },
-    {
-      "epoch": 0.98,
-      "learning_rate": 7.09450621321125e-06,
-      "loss": 0.3183,
-      "step": 8400
-    },
-    {
-      "epoch": 0.98,
-      "eval_accuracy": 0.908758382442593,
-      "eval_f1": 0.9083914158392551,
-      "eval_loss": 0.2555808424949646,
-      "eval_runtime": 4.2479,
-      "eval_samples_per_second": 2316.917,
-      "eval_steps_per_second": 36.253,
-      "step": 8400
-    },
-    {
-      "epoch": 1.03,
-      "learning_rate": 6.931000654022237e-06,
-      "loss": 0.3022,
-      "step": 8800
-    },
-    {
-      "epoch": 1.03,
-      "eval_accuracy": 0.906421459053038,
-      "eval_f1": 0.9056135727779063,
-      "eval_loss": 0.2667880356311798,
-      "eval_runtime": 4.4383,
-      "eval_samples_per_second": 2217.519,
-      "eval_steps_per_second": 34.698,
-      "step": 8800
-    }
-  ],
-  "max_steps": 25752,
-  "num_train_epochs": 3,
-  "total_flos": 1.536997071500478e+16,
-  "trial_name": null,
-  "trial_params": null
-}

last-checkpoint/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:66cc9af448b4d5ffdf0aedbd94ba171b260816026a211b6bf3012033c4b680bb
-size 3695

last-checkpoint/vocab.json DELETED Viewed

The diff for this file is too large to render. See raw diff

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:19f88d4ac00fa7feb29c8dd174036ce80b27f550f2e7dcaa40ee80769e3c83a2
 size 498663405

 version https://git-lfs.github.com/spec/v1
+oid sha256:85cf3d22c5ddf332ef20a787904d9f9e91c003a948fe68bae406c94abaa9515d
 size 498663405