Artanis1551 commited on Dec 28, 2023

Commit

59f6d0a

•

1 Parent(s): 591ca4a

End of training

Browse files

Files changed (44) hide show

README.md +15 -15
model.safetensors +1 -1
run-0/checkpoint-1250/config.json +41 -0
run-0/checkpoint-1250/model.safetensors +3 -0
run-0/checkpoint-1250/optimizer.pt +3 -0
run-0/checkpoint-1250/rng_state.pth +3 -0
run-0/checkpoint-1250/scheduler.pt +3 -0
run-0/checkpoint-1250/special_tokens_map.json +7 -0
run-0/checkpoint-1250/tokenizer.json +0 -0
run-0/checkpoint-1250/tokenizer_config.json +55 -0
run-0/checkpoint-1250/trainer_state.json +369 -0
run-0/checkpoint-1250/training_args.bin +3 -0
run-0/checkpoint-1250/vocab.txt +0 -0
run-0/checkpoint-2750/config.json +41 -0
run-0/checkpoint-2750/model.safetensors +3 -0
run-0/checkpoint-2750/optimizer.pt +3 -0
run-0/checkpoint-2750/rng_state.pth +3 -0
run-0/checkpoint-2750/scheduler.pt +3 -0
run-0/checkpoint-2750/special_tokens_map.json +7 -0
run-0/checkpoint-2750/tokenizer.json +0 -0
run-0/checkpoint-2750/tokenizer_config.json +55 -0
run-0/checkpoint-2750/trainer_state.json +783 -0
run-0/checkpoint-2750/training_args.bin +3 -0
run-0/checkpoint-2750/vocab.txt +0 -0
run-0/checkpoint-3000/config.json +41 -0
run-0/checkpoint-3000/model.safetensors +3 -0
run-0/checkpoint-3000/optimizer.pt +3 -0
run-0/checkpoint-3000/rng_state.pth +3 -0
run-0/checkpoint-3000/scheduler.pt +3 -0
run-0/checkpoint-3000/special_tokens_map.json +7 -0
run-0/checkpoint-3000/tokenizer.json +0 -0
run-0/checkpoint-3000/tokenizer_config.json +55 -0
run-0/checkpoint-3000/trainer_state.json +852 -0
run-0/checkpoint-3000/training_args.bin +3 -0
run-0/checkpoint-3000/vocab.txt +0 -0
runs/Dec27_11-45-30_ArtanisPC/events.out.tfevents.1703673939.ArtanisPC.7175.0 +3 -0
runs/Dec27_12-29-10_ArtanisPC/events.out.tfevents.1703676554.ArtanisPC.7175.1 +3 -0
runs/Dec27_12-29-10_ArtanisPC/events.out.tfevents.1703680039.ArtanisPC.7175.2 +3 -0
runs/Dec27_22-15-55_ArtanisPC/events.out.tfevents.1703711759.ArtanisPC.7175.13 +3 -0
special_tokens_map.json +7 -0
tokenizer.json +0 -0
tokenizer_config.json +55 -0
training_args.bin +2 -2
vocab.txt +0 -0

README.md CHANGED Viewed

@@ -17,7 +17,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [bert-base-cased](https://huggingface.co/bert-base-cased) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.5247
 - Accuracy: 0.8831
 ## Model description
@@ -37,9 +37,9 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 7.308177098205707e-06
 - train_batch_size: 16
-- eval_batch_size: 16
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: constant_with_warmup
@@ -50,18 +50,18 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
-| 0.6183        | 0.32  | 250  | 0.5711          | 0.8028   |
-| 0.4463        | 0.64  | 500  | 0.4603          | 0.8351   |
-| 0.3764        | 0.97  | 750  | 0.4088          | 0.8547   |
-| 0.3555        | 1.29  | 1000 | 0.3841          | 0.8692   |
-| 0.3301        | 1.61  | 1250 | 0.4128          | 0.8521   |
-| 0.2965        | 1.93  | 1500 | 0.3640          | 0.8718   |
-| 0.213         | 2.26  | 1750 | 0.4138          | 0.8773   |
-| 0.1944        | 2.58  | 2000 | 0.3984          | 0.8789   |
-| 0.3084        | 2.9   | 2250 | 0.4197          | 0.8663   |
-| 0.1137        | 3.22  | 2500 | 0.4813          | 0.8789   |
-| 0.1939        | 3.54  | 2750 | 0.5448          | 0.8624   |
-| 0.1746        | 3.87  | 3000 | 0.5247          | 0.8831   |
 ### Framework versions

 This model is a fine-tuned version of [bert-base-cased](https://huggingface.co/bert-base-cased) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6887
 - Accuracy: 0.8831
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 2.754984679344267e-05
 - train_batch_size: 16
+- eval_batch_size: 4
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: constant_with_warmup
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
+| 0.4485        | 0.32  | 250  | 0.4413          | 0.8328   |
+| 0.3639        | 0.64  | 500  | 0.3684          | 0.8610   |
+| 0.3761        | 0.96  | 750  | 0.3548          | 0.8645   |
+| 0.2545        | 1.28  | 1000 | 0.4220          | 0.8719   |
+| 0.2114        | 1.6   | 1250 | 0.4347          | 0.8716   |
+| 0.2752        | 1.92  | 1500 | 0.4132          | 0.8760   |
+| 0.0953        | 2.24  | 1750 | 0.6133          | 0.8741   |
+| 0.1268        | 2.56  | 2000 | 0.6199          | 0.8796   |
+| 0.1913        | 2.88  | 2250 | 0.5158          | 0.8744   |
+| 0.0897        | 3.21  | 2500 | 0.6667          | 0.8818   |
+| 0.0631        | 3.53  | 2750 | 0.6777          | 0.8770   |
+| 0.0678        | 3.85  | 3000 | 0.6887          | 0.8831   |
 ### Framework versions

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c21d389222553424951b7378043b4432e37b02ab80729327bfc65b032789334
 size 433279996

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca0ad560c3e37936e6dad835de0ae94d89bfdd4c000a8e15c452e329a2b2cd32
 size 433279996

run-0/checkpoint-1250/config.json ADDED Viewed

	@@ -0,0 +1,41 @@

+{
+  "_name_or_path": "bert-base-cased",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2",
+    "3": "LABEL_3",
+    "4": "LABEL_4"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2,
+    "LABEL_3": 3,
+    "LABEL_4": 4
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.36.0.dev0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 28996
+}

run-0/checkpoint-1250/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7b335a464acf06e426d2dec585143b4c5c1ce38590987f339fcea895224927fa
+size 433279996

run-0/checkpoint-1250/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:232f982526fd5da519102936b69a302e8bcc1368a6560027c6eeb3f385e6b212
+size 866681082

run-0/checkpoint-1250/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4cdc434ff6098e0554d4787843fcf7ca49a5c34abae95380fd18fedf04abdf7d
+size 14244

run-0/checkpoint-1250/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ac07d56f59c162718ed3b41b4743390ede2991c6d3831b5f7334f9b82223418d
+size 1064

run-0/checkpoint-1250/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-0/checkpoint-1250/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-0/checkpoint-1250/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-0/checkpoint-1250/trainer_state.json ADDED Viewed

	@@ -0,0 +1,369 @@

+{
+  "best_metric": 0.8641896220371557,
+  "best_model_checkpoint": "bert_sentiment_trainer/run-0/checkpoint-1250",
+  "epoch": 1.6025641025641026,
+  "eval_steps": 250,
+  "global_step": 1250,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03,
+      "learning_rate": 3.9713257988848205e-05,
+      "loss": 1.2334,
+      "step": 25
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.8942,
+      "step": 50
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.7179,
+      "step": 75
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.5899,
+      "step": 100
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.495,
+      "step": 125
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.5849,
+      "step": 150
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.6265,
+      "step": 175
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.6048,
+      "step": 200
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.5534,
+      "step": 225
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.51,
+      "step": 250
+    },
+    {
+      "epoch": 0.32,
+      "eval_accuracy": 0.7882767456758488,
+      "eval_loss": 0.5534642338752747,
+      "eval_runtime": 31.4685,
+      "eval_samples_per_second": 99.21,
+      "eval_steps_per_second": 24.818,
+      "step": 250
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.518,
+      "step": 275
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.5262,
+      "step": 300
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.532,
+      "step": 325
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.5475,
+      "step": 350
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.4561,
+      "step": 375
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.4714,
+      "step": 400
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.489,
+      "step": 425
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.5076,
+      "step": 450
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.5218,
+      "step": 475
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.4021,
+      "step": 500
+    },
+    {
+      "epoch": 0.64,
+      "eval_accuracy": 0.8456117873158232,
+      "eval_loss": 0.42485159635543823,
+      "eval_runtime": 31.441,
+      "eval_samples_per_second": 99.297,
+      "eval_steps_per_second": 24.84,
+      "step": 500
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.4485,
+      "step": 525
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.4676,
+      "step": 550
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.4046,
+      "step": 575
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.4399,
+      "step": 600
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.483,
+      "step": 625
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.4302,
+      "step": 650
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.5286,
+      "step": 675
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.4311,
+      "step": 700
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.4233,
+      "step": 725
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.4372,
+      "step": 750
+    },
+    {
+      "epoch": 0.96,
+      "eval_accuracy": 0.8500960922485586,
+      "eval_loss": 0.5209916830062866,
+      "eval_runtime": 31.4247,
+      "eval_samples_per_second": 99.349,
+      "eval_steps_per_second": 24.853,
+      "step": 750
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.424,
+      "step": 775
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3704,
+      "step": 800
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3088,
+      "step": 825
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2909,
+      "step": 850
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2681,
+      "step": 875
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3973,
+      "step": 900
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.297,
+      "step": 925
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2422,
+      "step": 950
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2867,
+      "step": 975
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3266,
+      "step": 1000
+    },
+    {
+      "epoch": 1.28,
+      "eval_accuracy": 0.856181934657271,
+      "eval_loss": 0.3950304090976715,
+      "eval_runtime": 30.2887,
+      "eval_samples_per_second": 103.075,
+      "eval_steps_per_second": 25.785,
+      "step": 1000
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3269,
+      "step": 1025
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3487,
+      "step": 1050
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3183,
+      "step": 1075
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2852,
+      "step": 1100
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2746,
+      "step": 1125
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3225,
+      "step": 1150
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2891,
+      "step": 1175
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3634,
+      "step": 1200
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3269,
+      "step": 1225
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3018,
+      "step": 1250
+    },
+    {
+      "epoch": 1.6,
+      "eval_accuracy": 0.8641896220371557,
+      "eval_loss": 0.41122835874557495,
+      "eval_runtime": 30.2612,
+      "eval_samples_per_second": 103.168,
+      "eval_steps_per_second": 25.809,
+      "step": 1250
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 3000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 250,
+  "total_flos": 5262099731137536.0,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 7.942651597769641e-05,
+    "per_device_eval_batch_size": 4,
+    "per_device_train_batch_size": 16
+  }
+}

run-0/checkpoint-1250/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:15a80260bc43050598885ca65b27a19bd3017acc59969e8c39101e7e300d8c14
+size 4664

run-0/checkpoint-1250/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-0/checkpoint-2750/config.json ADDED Viewed

	@@ -0,0 +1,41 @@

+{
+  "_name_or_path": "bert-base-cased",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2",
+    "3": "LABEL_3",
+    "4": "LABEL_4"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2,
+    "LABEL_3": 3,
+    "LABEL_4": 4
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.36.0.dev0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 28996
+}

run-0/checkpoint-2750/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fdbb95b9d5a83d0e84ea60bef02fcc618e34c4453a5dc3227998ccc7a54c92ea
+size 433279996

run-0/checkpoint-2750/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7280cf6d2f24cc397770788f0e4bbd63c719c6d2bb58387c7f1703e661afc253
+size 866681082

run-0/checkpoint-2750/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f02b9cb6a2d9978c791f178c09f195cefcef73d1f59d9e6cd65fec90f7bb95c
+size 14244

run-0/checkpoint-2750/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e106c0df641d501046ce5f9d50dece253317540755e5b42d51a7056bb9a5aa39
+size 1064

run-0/checkpoint-2750/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-0/checkpoint-2750/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-0/checkpoint-2750/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-0/checkpoint-2750/trainer_state.json ADDED Viewed

	@@ -0,0 +1,783 @@

+{
+  "best_metric": 0.8641896220371557,
+  "best_model_checkpoint": "bert_sentiment_trainer/run-0/checkpoint-1250",
+  "epoch": 3.5256410256410255,
+  "eval_steps": 250,
+  "global_step": 2750,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03,
+      "learning_rate": 3.9713257988848205e-05,
+      "loss": 1.2334,
+      "step": 25
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.8942,
+      "step": 50
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.7179,
+      "step": 75
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.5899,
+      "step": 100
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.495,
+      "step": 125
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.5849,
+      "step": 150
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.6265,
+      "step": 175
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.6048,
+      "step": 200
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.5534,
+      "step": 225
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.51,
+      "step": 250
+    },
+    {
+      "epoch": 0.32,
+      "eval_accuracy": 0.7882767456758488,
+      "eval_loss": 0.5534642338752747,
+      "eval_runtime": 31.4685,
+      "eval_samples_per_second": 99.21,
+      "eval_steps_per_second": 24.818,
+      "step": 250
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.518,
+      "step": 275
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.5262,
+      "step": 300
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.532,
+      "step": 325
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.5475,
+      "step": 350
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.4561,
+      "step": 375
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.4714,
+      "step": 400
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.489,
+      "step": 425
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.5076,
+      "step": 450
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.5218,
+      "step": 475
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.4021,
+      "step": 500
+    },
+    {
+      "epoch": 0.64,
+      "eval_accuracy": 0.8456117873158232,
+      "eval_loss": 0.42485159635543823,
+      "eval_runtime": 31.441,
+      "eval_samples_per_second": 99.297,
+      "eval_steps_per_second": 24.84,
+      "step": 500
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.4485,
+      "step": 525
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.4676,
+      "step": 550
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.4046,
+      "step": 575
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.4399,
+      "step": 600
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.483,
+      "step": 625
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.4302,
+      "step": 650
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.5286,
+      "step": 675
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.4311,
+      "step": 700
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.4233,
+      "step": 725
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.4372,
+      "step": 750
+    },
+    {
+      "epoch": 0.96,
+      "eval_accuracy": 0.8500960922485586,
+      "eval_loss": 0.5209916830062866,
+      "eval_runtime": 31.4247,
+      "eval_samples_per_second": 99.349,
+      "eval_steps_per_second": 24.853,
+      "step": 750
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.424,
+      "step": 775
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3704,
+      "step": 800
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3088,
+      "step": 825
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2909,
+      "step": 850
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2681,
+      "step": 875
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3973,
+      "step": 900
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.297,
+      "step": 925
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2422,
+      "step": 950
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2867,
+      "step": 975
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3266,
+      "step": 1000
+    },
+    {
+      "epoch": 1.28,
+      "eval_accuracy": 0.856181934657271,
+      "eval_loss": 0.3950304090976715,
+      "eval_runtime": 30.2887,
+      "eval_samples_per_second": 103.075,
+      "eval_steps_per_second": 25.785,
+      "step": 1000
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3269,
+      "step": 1025
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3487,
+      "step": 1050
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3183,
+      "step": 1075
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2852,
+      "step": 1100
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2746,
+      "step": 1125
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3225,
+      "step": 1150
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2891,
+      "step": 1175
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3634,
+      "step": 1200
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3269,
+      "step": 1225
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3018,
+      "step": 1250
+    },
+    {
+      "epoch": 1.6,
+      "eval_accuracy": 0.8641896220371557,
+      "eval_loss": 0.41122835874557495,
+      "eval_runtime": 30.2612,
+      "eval_samples_per_second": 103.168,
+      "eval_steps_per_second": 25.809,
+      "step": 1250
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3177,
+      "step": 1275
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3021,
+      "step": 1300
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3148,
+      "step": 1325
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3312,
+      "step": 1350
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2438,
+      "step": 1375
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3289,
+      "step": 1400
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3437,
+      "step": 1425
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2688,
+      "step": 1450
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2776,
+      "step": 1475
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2878,
+      "step": 1500
+    },
+    {
+      "epoch": 1.92,
+      "eval_accuracy": 0.860345932094811,
+      "eval_loss": 0.4497346878051758,
+      "eval_runtime": 30.3296,
+      "eval_samples_per_second": 102.936,
+      "eval_steps_per_second": 25.75,
+      "step": 1500
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3063,
+      "step": 1525
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3134,
+      "step": 1550
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.199,
+      "step": 1575
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1655,
+      "step": 1600
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1884,
+      "step": 1625
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1679,
+      "step": 1650
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2939,
+      "step": 1675
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2126,
+      "step": 1700
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1194,
+      "step": 1725
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1432,
+      "step": 1750
+    },
+    {
+      "epoch": 2.24,
+      "eval_accuracy": 0.8587443946188341,
+      "eval_loss": 0.5730303525924683,
+      "eval_runtime": 31.4543,
+      "eval_samples_per_second": 99.255,
+      "eval_steps_per_second": 24.83,
+      "step": 1750
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1837,
+      "step": 1775
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1633,
+      "step": 1800
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1829,
+      "step": 1825
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1597,
+      "step": 1850
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1995,
+      "step": 1875
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1709,
+      "step": 1900
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2337,
+      "step": 1925
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1308,
+      "step": 1950
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2534,
+      "step": 1975
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2154,
+      "step": 2000
+    },
+    {
+      "epoch": 2.56,
+      "eval_accuracy": 0.8625880845611787,
+      "eval_loss": 0.5824428796768188,
+      "eval_runtime": 31.5134,
+      "eval_samples_per_second": 99.069,
+      "eval_steps_per_second": 24.783,
+      "step": 2000
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2489,
+      "step": 2025
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2025,
+      "step": 2050
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2566,
+      "step": 2075
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1954,
+      "step": 2100
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1965,
+      "step": 2125
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2578,
+      "step": 2150
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2349,
+      "step": 2175
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.227,
+      "step": 2200
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2325,
+      "step": 2225
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2678,
+      "step": 2250
+    },
+    {
+      "epoch": 2.88,
+      "eval_accuracy": 0.8632286995515696,
+      "eval_loss": 0.5371272563934326,
+      "eval_runtime": 31.4396,
+      "eval_samples_per_second": 99.302,
+      "eval_steps_per_second": 24.841,
+      "step": 2250
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2809,
+      "step": 2275
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2497,
+      "step": 2300
+    },
+    {
+      "epoch": 2.98,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2487,
+      "step": 2325
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2001,
+      "step": 2350
+    },
+    {
+      "epoch": 3.04,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1682,
+      "step": 2375
+    },
+    {
+      "epoch": 3.08,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1243,
+      "step": 2400
+    },
+    {
+      "epoch": 3.11,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1468,
+      "step": 2425
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1909,
+      "step": 2450
+    },
+    {
+      "epoch": 3.17,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1254,
+      "step": 2475
+    },
+    {
+      "epoch": 3.21,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1647,
+      "step": 2500
+    },
+    {
+      "epoch": 3.21,
+      "eval_accuracy": 0.8632286995515696,
+      "eval_loss": 0.6494662165641785,
+      "eval_runtime": 31.5059,
+      "eval_samples_per_second": 99.092,
+      "eval_steps_per_second": 24.789,
+      "step": 2500
+    },
+    {
+      "epoch": 3.24,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1255,
+      "step": 2525
+    },
+    {
+      "epoch": 3.27,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2115,
+      "step": 2550
+    },
+    {
+      "epoch": 3.3,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1292,
+      "step": 2575
+    },
+    {
+      "epoch": 3.33,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.084,
+      "step": 2600
+    },
+    {
+      "epoch": 3.37,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1508,
+      "step": 2625
+    },
+    {
+      "epoch": 3.4,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2381,
+      "step": 2650
+    },
+    {
+      "epoch": 3.43,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.119,
+      "step": 2675
+    },
+    {
+      "epoch": 3.46,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2611,
+      "step": 2700
+    },
+    {
+      "epoch": 3.49,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1441,
+      "step": 2725
+    },
+    {
+      "epoch": 3.53,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1503,
+      "step": 2750
+    },
+    {
+      "epoch": 3.53,
+      "eval_accuracy": 0.8392056374119155,
+      "eval_loss": 0.739354133605957,
+      "eval_runtime": 31.689,
+      "eval_samples_per_second": 98.52,
+      "eval_steps_per_second": 24.646,
+      "step": 2750
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 3000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 250,
+  "total_flos": 1.1576408913988608e+16,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 7.942651597769641e-05,
+    "per_device_eval_batch_size": 4,
+    "per_device_train_batch_size": 16
+  }
+}

run-0/checkpoint-2750/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:15a80260bc43050598885ca65b27a19bd3017acc59969e8c39101e7e300d8c14
+size 4664

run-0/checkpoint-2750/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-0/checkpoint-3000/config.json ADDED Viewed

	@@ -0,0 +1,41 @@

+{
+  "_name_or_path": "bert-base-cased",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2",
+    "3": "LABEL_3",
+    "4": "LABEL_4"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2,
+    "LABEL_3": 3,
+    "LABEL_4": 4
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.36.0.dev0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 28996
+}

run-0/checkpoint-3000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f16b4aa536ebc84eb9f93f23ff4b038275b1b083ea428b36d6f05a950c3ae4bd
+size 433279996

run-0/checkpoint-3000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:90e119e4d430dc78cc1e7f3befd87ecc80299be9f2d54240db9942af24788cee
+size 866681082

run-0/checkpoint-3000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:73eb499cce13cf3dc690fc066e48e80cdcbcb1c0469b4ffea8359eb45e382fda
+size 14244

run-0/checkpoint-3000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c304939c753a79940dfd3547faf6c8a73cff363a570ce4999929bf266735f8bb
+size 1064

run-0/checkpoint-3000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-0/checkpoint-3000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-0/checkpoint-3000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-0/checkpoint-3000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,852 @@

+{
+  "best_metric": 0.8641896220371557,
+  "best_model_checkpoint": "bert_sentiment_trainer/run-0/checkpoint-1250",
+  "epoch": 3.8461538461538463,
+  "eval_steps": 250,
+  "global_step": 3000,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03,
+      "learning_rate": 3.9713257988848205e-05,
+      "loss": 1.2334,
+      "step": 25
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.8942,
+      "step": 50
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.7179,
+      "step": 75
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.5899,
+      "step": 100
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.495,
+      "step": 125
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.5849,
+      "step": 150
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.6265,
+      "step": 175
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.6048,
+      "step": 200
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.5534,
+      "step": 225
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.51,
+      "step": 250
+    },
+    {
+      "epoch": 0.32,
+      "eval_accuracy": 0.7882767456758488,
+      "eval_loss": 0.5534642338752747,
+      "eval_runtime": 31.4685,
+      "eval_samples_per_second": 99.21,
+      "eval_steps_per_second": 24.818,
+      "step": 250
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.518,
+      "step": 275
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.5262,
+      "step": 300
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.532,
+      "step": 325
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.5475,
+      "step": 350
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.4561,
+      "step": 375
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.4714,
+      "step": 400
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.489,
+      "step": 425
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.5076,
+      "step": 450
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.5218,
+      "step": 475
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.4021,
+      "step": 500
+    },
+    {
+      "epoch": 0.64,
+      "eval_accuracy": 0.8456117873158232,
+      "eval_loss": 0.42485159635543823,
+      "eval_runtime": 31.441,
+      "eval_samples_per_second": 99.297,
+      "eval_steps_per_second": 24.84,
+      "step": 500
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.4485,
+      "step": 525
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.4676,
+      "step": 550
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.4046,
+      "step": 575
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.4399,
+      "step": 600
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.483,
+      "step": 625
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.4302,
+      "step": 650
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.5286,
+      "step": 675
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.4311,
+      "step": 700
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.4233,
+      "step": 725
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.4372,
+      "step": 750
+    },
+    {
+      "epoch": 0.96,
+      "eval_accuracy": 0.8500960922485586,
+      "eval_loss": 0.5209916830062866,
+      "eval_runtime": 31.4247,
+      "eval_samples_per_second": 99.349,
+      "eval_steps_per_second": 24.853,
+      "step": 750
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.424,
+      "step": 775
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3704,
+      "step": 800
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3088,
+      "step": 825
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2909,
+      "step": 850
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2681,
+      "step": 875
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3973,
+      "step": 900
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.297,
+      "step": 925
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2422,
+      "step": 950
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2867,
+      "step": 975
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3266,
+      "step": 1000
+    },
+    {
+      "epoch": 1.28,
+      "eval_accuracy": 0.856181934657271,
+      "eval_loss": 0.3950304090976715,
+      "eval_runtime": 30.2887,
+      "eval_samples_per_second": 103.075,
+      "eval_steps_per_second": 25.785,
+      "step": 1000
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3269,
+      "step": 1025
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3487,
+      "step": 1050
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3183,
+      "step": 1075
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2852,
+      "step": 1100
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2746,
+      "step": 1125
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3225,
+      "step": 1150
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2891,
+      "step": 1175
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3634,
+      "step": 1200
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3269,
+      "step": 1225
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3018,
+      "step": 1250
+    },
+    {
+      "epoch": 1.6,
+      "eval_accuracy": 0.8641896220371557,
+      "eval_loss": 0.41122835874557495,
+      "eval_runtime": 30.2612,
+      "eval_samples_per_second": 103.168,
+      "eval_steps_per_second": 25.809,
+      "step": 1250
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3177,
+      "step": 1275
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3021,
+      "step": 1300
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3148,
+      "step": 1325
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3312,
+      "step": 1350
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2438,
+      "step": 1375
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3289,
+      "step": 1400
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3437,
+      "step": 1425
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2688,
+      "step": 1450
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2776,
+      "step": 1475
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2878,
+      "step": 1500
+    },
+    {
+      "epoch": 1.92,
+      "eval_accuracy": 0.860345932094811,
+      "eval_loss": 0.4497346878051758,
+      "eval_runtime": 30.3296,
+      "eval_samples_per_second": 102.936,
+      "eval_steps_per_second": 25.75,
+      "step": 1500
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3063,
+      "step": 1525
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.3134,
+      "step": 1550
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.199,
+      "step": 1575
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1655,
+      "step": 1600
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1884,
+      "step": 1625
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1679,
+      "step": 1650
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2939,
+      "step": 1675
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2126,
+      "step": 1700
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1194,
+      "step": 1725
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1432,
+      "step": 1750
+    },
+    {
+      "epoch": 2.24,
+      "eval_accuracy": 0.8587443946188341,
+      "eval_loss": 0.5730303525924683,
+      "eval_runtime": 31.4543,
+      "eval_samples_per_second": 99.255,
+      "eval_steps_per_second": 24.83,
+      "step": 1750
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1837,
+      "step": 1775
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1633,
+      "step": 1800
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1829,
+      "step": 1825
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1597,
+      "step": 1850
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1995,
+      "step": 1875
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1709,
+      "step": 1900
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2337,
+      "step": 1925
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1308,
+      "step": 1950
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2534,
+      "step": 1975
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2154,
+      "step": 2000
+    },
+    {
+      "epoch": 2.56,
+      "eval_accuracy": 0.8625880845611787,
+      "eval_loss": 0.5824428796768188,
+      "eval_runtime": 31.5134,
+      "eval_samples_per_second": 99.069,
+      "eval_steps_per_second": 24.783,
+      "step": 2000
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2489,
+      "step": 2025
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2025,
+      "step": 2050
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2566,
+      "step": 2075
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1954,
+      "step": 2100
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1965,
+      "step": 2125
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2578,
+      "step": 2150
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2349,
+      "step": 2175
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.227,
+      "step": 2200
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2325,
+      "step": 2225
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2678,
+      "step": 2250
+    },
+    {
+      "epoch": 2.88,
+      "eval_accuracy": 0.8632286995515696,
+      "eval_loss": 0.5371272563934326,
+      "eval_runtime": 31.4396,
+      "eval_samples_per_second": 99.302,
+      "eval_steps_per_second": 24.841,
+      "step": 2250
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2809,
+      "step": 2275
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2497,
+      "step": 2300
+    },
+    {
+      "epoch": 2.98,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2487,
+      "step": 2325
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2001,
+      "step": 2350
+    },
+    {
+      "epoch": 3.04,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1682,
+      "step": 2375
+    },
+    {
+      "epoch": 3.08,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1243,
+      "step": 2400
+    },
+    {
+      "epoch": 3.11,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1468,
+      "step": 2425
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1909,
+      "step": 2450
+    },
+    {
+      "epoch": 3.17,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1254,
+      "step": 2475
+    },
+    {
+      "epoch": 3.21,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1647,
+      "step": 2500
+    },
+    {
+      "epoch": 3.21,
+      "eval_accuracy": 0.8632286995515696,
+      "eval_loss": 0.6494662165641785,
+      "eval_runtime": 31.5059,
+      "eval_samples_per_second": 99.092,
+      "eval_steps_per_second": 24.789,
+      "step": 2500
+    },
+    {
+      "epoch": 3.24,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1255,
+      "step": 2525
+    },
+    {
+      "epoch": 3.27,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2115,
+      "step": 2550
+    },
+    {
+      "epoch": 3.3,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1292,
+      "step": 2575
+    },
+    {
+      "epoch": 3.33,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.084,
+      "step": 2600
+    },
+    {
+      "epoch": 3.37,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1508,
+      "step": 2625
+    },
+    {
+      "epoch": 3.4,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2381,
+      "step": 2650
+    },
+    {
+      "epoch": 3.43,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.119,
+      "step": 2675
+    },
+    {
+      "epoch": 3.46,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2611,
+      "step": 2700
+    },
+    {
+      "epoch": 3.49,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1441,
+      "step": 2725
+    },
+    {
+      "epoch": 3.53,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1503,
+      "step": 2750
+    },
+    {
+      "epoch": 3.53,
+      "eval_accuracy": 0.8392056374119155,
+      "eval_loss": 0.739354133605957,
+      "eval_runtime": 31.689,
+      "eval_samples_per_second": 98.52,
+      "eval_steps_per_second": 24.646,
+      "step": 2750
+    },
+    {
+      "epoch": 3.56,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2223,
+      "step": 2775
+    },
+    {
+      "epoch": 3.59,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1502,
+      "step": 2800
+    },
+    {
+      "epoch": 3.62,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1995,
+      "step": 2825
+    },
+    {
+      "epoch": 3.65,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2427,
+      "step": 2850
+    },
+    {
+      "epoch": 3.69,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1054,
+      "step": 2875
+    },
+    {
+      "epoch": 3.72,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1749,
+      "step": 2900
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1824,
+      "step": 2925
+    },
+    {
+      "epoch": 3.78,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2283,
+      "step": 2950
+    },
+    {
+      "epoch": 3.81,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.1316,
+      "step": 2975
+    },
+    {
+      "epoch": 3.85,
+      "learning_rate": 7.942651597769641e-05,
+      "loss": 0.2344,
+      "step": 3000
+    },
+    {
+      "epoch": 3.85,
+      "eval_accuracy": 0.8494554772581678,
+      "eval_loss": 0.6297785043716431,
+      "eval_runtime": 30.5311,
+      "eval_samples_per_second": 102.256,
+      "eval_steps_per_second": 25.58,
+      "step": 3000
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 3000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 250,
+  "total_flos": 1.2628881483844608e+16,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 7.942651597769641e-05,
+    "per_device_eval_batch_size": 4,
+    "per_device_train_batch_size": 16
+  }
+}

run-0/checkpoint-3000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:15a80260bc43050598885ca65b27a19bd3017acc59969e8c39101e7e300d8c14
+size 4664

run-0/checkpoint-3000/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

runs/Dec27_11-45-30_ArtanisPC/events.out.tfevents.1703673939.ArtanisPC.7175.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d5e9eb1ee6b1409be54be180752570853c1f7dd4da311b9565a135ecb5102152
+size 27590

runs/Dec27_12-29-10_ArtanisPC/events.out.tfevents.1703676554.ArtanisPC.7175.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b1005d2a735cef729d5f43daa1b14c0cb935732c2fa915f47962e69642028ae3
+size 27589

runs/Dec27_12-29-10_ArtanisPC/events.out.tfevents.1703680039.ArtanisPC.7175.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:359e0fa3732cc22ee45340a6b8969c28f835be5bf0c0ac6090cbb4e3d53bf058
+size 27588

runs/Dec27_22-15-55_ArtanisPC/events.out.tfevents.1703711759.ArtanisPC.7175.13 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cc8476f5c55b037dd01ac9cf74af8e125d57e4fba2fedebf0a6a01c71daa3924
+size 32237

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f16aa4f4935b4dc13179210eebae456972e0e2b50305cfef4b146d92b43fdb87
-size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ea2b70f4e127f6163cc48ab2516f0095bfa7fd472ed09a94b79232d1a14f08c
+size 4664

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff