Upload model files. Fingers crossed :)

Browse files

Files changed (11) hide show

config.json +38 -0
optimizer.pt +3 -0
pytorch_model.bin +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +7 -0
tokenizer.json +0 -0
tokenizer_config.json +15 -0
trainer_state.json +117 -0
training_args.bin +3 -0
vocab.txt +0 -0

config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "_name_or_path": "KBLab/bert-base-swedish-cased",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.33.0.dev0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 50325
+}

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d0de5d9d34d7c5ac3ea4c2e7c782cb3ff1169fb90b48fbd430b20bb10534247b
+size 997713669

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:83fc561707cc7da322076242893e837c5ba52ea2604c9940c608c1fae6dabd39
+size 498841393

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:710a5b998824e5636cecf2148691bf59ab132dd0b1a59abc2df8060a31f62202
+size 14575

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c3243aa726c74b02685581c4f180a11740467f6a38fe01ed16ff3101b0f40ac6
+size 627

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": false,
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": false,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,117 @@

+{
+  "best_metric": 0.9318278600753288,
+  "best_model_checkpoint": "/home/felix/kubhist2-testing/SuperLim-2-Testing/results/trainer_output/run-ae28d_00003/checkpoint-1512",
+  "epoch": 7.0,
+  "eval_steps": 500,
+  "global_step": 1512,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.768,
+      "eval_krippendorff_nominal": 0.6462532075451226,
+      "eval_loss": 0.5996153354644775,
+      "eval_runtime": 1.6255,
+      "eval_samples_per_second": 461.404,
+      "eval_steps_per_second": 7.382,
+      "learning_rate": 3.8364532019704435e-05,
+      "step": 216
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8813333333333333,
+      "eval_krippendorff_nominal": 0.8182421349202457,
+      "eval_loss": 0.33796122670173645,
+      "eval_runtime": 0.9435,
+      "eval_samples_per_second": 794.882,
+      "eval_steps_per_second": 12.718,
+      "learning_rate": 3.412807881773399e-05,
+      "step": 432
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 3.2788177339901483e-05,
+      "loss": 0.6653,
+      "step": 500
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9186666666666666,
+      "eval_krippendorff_nominal": 0.875072922743562,
+      "eval_loss": 0.2410804033279419,
+      "eval_runtime": 1.6215,
+      "eval_samples_per_second": 462.531,
+      "eval_steps_per_second": 7.4,
+      "learning_rate": 2.9871921182266012e-05,
+      "step": 648
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.952,
+      "eval_krippendorff_nominal": 0.9257691117301146,
+      "eval_loss": 0.24171602725982666,
+      "eval_runtime": 0.8034,
+      "eval_samples_per_second": 933.562,
+      "eval_steps_per_second": 14.937,
+      "learning_rate": 2.561576354679803e-05,
+      "step": 864
+    },
+    {
+      "epoch": 4.63,
+      "learning_rate": 2.2935960591133007e-05,
+      "loss": 0.1402,
+      "step": 1000
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.956,
+      "eval_krippendorff_nominal": 0.9315953885277389,
+      "eval_loss": 0.2816691994667053,
+      "eval_runtime": 0.7016,
+      "eval_samples_per_second": 1068.993,
+      "eval_steps_per_second": 17.104,
+      "learning_rate": 2.135960591133005e-05,
+      "step": 1080
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.9533333333333334,
+      "eval_krippendorff_nominal": 0.9278546008591717,
+      "eval_loss": 0.32500791549682617,
+      "eval_runtime": 0.7136,
+      "eval_samples_per_second": 1051.007,
+      "eval_steps_per_second": 16.816,
+      "learning_rate": 1.710344827586207e-05,
+      "step": 1296
+    },
+    {
+      "epoch": 6.94,
+      "learning_rate": 1.3083743842364534e-05,
+      "loss": 0.0263,
+      "step": 1500
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.956,
+      "eval_krippendorff_nominal": 0.9318278600753288,
+      "eval_loss": 0.341027170419693,
+      "eval_runtime": 0.9282,
+      "eval_samples_per_second": 808.008,
+      "eval_steps_per_second": 12.928,
+      "learning_rate": 1.284729064039409e-05,
+      "step": 1512
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 2160,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 984537519960960.0,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 4e-05,
+    "per_device_train_batch_size": 16
+  }
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:45d3877f24a4fb5426a7ecd29c8d76643a01e6dc6beb9208ccaf64db533a954b
+size 4219

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff