Upload folder using huggingface_hub

Browse files

Files changed (13) hide show

.gitattributes +1 -0
README.md +108 -0
all_results.json +17 -0
config.json +145 -0
eval_results.json +12 -0
pytorch_model.bin +3 -0
sentencepiece.bpe.model +3 -0
special_tokens_map.json +15 -0
tokenizer.json +3 -0
tokenizer_config.json +21 -0
train_results.json +8 -0
trainer_state.json +529 -0
training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,108 @@

+---
+license: mit
+tags:
+- generated_from_trainer
+metrics:
+- precision
+- recall
+- f1
+- accuracy
+model-index:
+- name: pos_final_xlm_en
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# pos_final_xlm_en
+This model is a fine-tuned version of [xlm-roberta-base](https://huggingface.co/xlm-roberta-base) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.0719
+- Precision: 0.9686
+- Recall: 0.9705
+- F1: 0.9695
+- Accuracy: 0.9790
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 256
+- eval_batch_size: 256
+- seed: 42
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 1024
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- lr_scheduler_warmup_steps: 500
+- num_epochs: 40.0
+- mixed_precision_training: Native AMP
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Precision | Recall | F1     | Accuracy |
+|:-------------:|:-----:|:----:|:---------------:|:---------:|:------:|:------:|:--------:|
+| No log        | 0.99  | 60   | 3.0062          | 0.2412    | 0.1720 | 0.2008 | 0.3036   |
+| No log        | 1.99  | 120  | 0.5353          | 0.8699    | 0.8553 | 0.8625 | 0.8970   |
+| No log        | 2.99  | 180  | 0.1312          | 0.9578    | 0.9553 | 0.9566 | 0.9691   |
+| No log        | 3.99  | 240  | 0.0981          | 0.9621    | 0.9628 | 0.9625 | 0.9737   |
+| No log        | 4.99  | 300  | 0.0853          | 0.9652    | 0.9659 | 0.9655 | 0.9760   |
+| No log        | 5.99  | 360  | 0.0788          | 0.9656    | 0.9676 | 0.9666 | 0.9769   |
+| No log        | 6.99  | 420  | 0.0745          | 0.9664    | 0.9689 | 0.9677 | 0.9775   |
+| No log        | 7.99  | 480  | 0.0718          | 0.9675    | 0.9689 | 0.9682 | 0.9780   |
+| 0.7956        | 8.99  | 540  | 0.0707          | 0.9679    | 0.9683 | 0.9681 | 0.9779   |
+| 0.7956        | 9.99  | 600  | 0.0686          | 0.9682    | 0.9698 | 0.9690 | 0.9786   |
+| 0.7956        | 10.99 | 660  | 0.0686          | 0.9689    | 0.9694 | 0.9692 | 0.9787   |
+| 0.7956        | 11.99 | 720  | 0.0680          | 0.9679    | 0.9707 | 0.9693 | 0.9787   |
+| 0.7956        | 12.99 | 780  | 0.0685          | 0.9683    | 0.9706 | 0.9694 | 0.9789   |
+| 0.7956        | 13.99 | 840  | 0.0695          | 0.9689    | 0.9700 | 0.9694 | 0.9788   |
+| 0.7956        | 14.99 | 900  | 0.0703          | 0.9682    | 0.9699 | 0.9690 | 0.9786   |
+| 0.7956        | 15.99 | 960  | 0.0719          | 0.9686    | 0.9705 | 0.9695 | 0.9790   |
+| 0.051         | 16.99 | 1020 | 0.0735          | 0.9687    | 0.9701 | 0.9694 | 0.9788   |
+| 0.051         | 17.99 | 1080 | 0.0747          | 0.9684    | 0.9701 | 0.9692 | 0.9787   |
+| 0.051         | 18.99 | 1140 | 0.0761          | 0.9685    | 0.9697 | 0.9691 | 0.9786   |
+| 0.051         | 19.99 | 1200 | 0.0774          | 0.9678    | 0.9698 | 0.9688 | 0.9784   |
+| 0.051         | 20.99 | 1260 | 0.0796          | 0.9685    | 0.9694 | 0.9690 | 0.9785   |
+| 0.051         | 21.99 | 1320 | 0.0796          | 0.9681    | 0.9701 | 0.9691 | 0.9786   |
+| 0.051         | 22.99 | 1380 | 0.0820          | 0.9684    | 0.9690 | 0.9687 | 0.9784   |
+| 0.051         | 23.99 | 1440 | 0.0829          | 0.9679    | 0.9688 | 0.9683 | 0.9781   |
+| 0.0318        | 24.99 | 1500 | 0.0854          | 0.9681    | 0.9690 | 0.9686 | 0.9782   |
+| 0.0318        | 25.99 | 1560 | 0.0881          | 0.9677    | 0.9692 | 0.9684 | 0.9782   |
+| 0.0318        | 26.99 | 1620 | 0.0893          | 0.9679    | 0.9690 | 0.9685 | 0.9783   |
+| 0.0318        | 27.99 | 1680 | 0.0910          | 0.9676    | 0.9691 | 0.9683 | 0.9781   |
+| 0.0318        | 28.99 | 1740 | 0.0919          | 0.9684    | 0.9686 | 0.9685 | 0.9783   |
+| 0.0318        | 29.99 | 1800 | 0.0933          | 0.9678    | 0.9686 | 0.9682 | 0.9781   |
+| 0.0318        | 30.99 | 1860 | 0.0947          | 0.9677    | 0.9688 | 0.9683 | 0.9781   |
+| 0.0318        | 31.99 | 1920 | 0.0966          | 0.9678    | 0.9694 | 0.9686 | 0.9783   |
+| 0.0318        | 32.99 | 1980 | 0.0974          | 0.9677    | 0.9689 | 0.9683 | 0.9781   |
+| 0.0211        | 33.99 | 2040 | 0.0981          | 0.9684    | 0.9693 | 0.9688 | 0.9784   |
+| 0.0211        | 34.99 | 2100 | 0.0989          | 0.9681    | 0.9690 | 0.9686 | 0.9783   |
+| 0.0211        | 35.99 | 2160 | 0.1008          | 0.9679    | 0.9695 | 0.9687 | 0.9784   |
+| 0.0211        | 36.99 | 2220 | 0.1015          | 0.9681    | 0.9689 | 0.9685 | 0.9782   |
+| 0.0211        | 37.99 | 2280 | 0.1015          | 0.9677    | 0.9689 | 0.9683 | 0.9781   |
+| 0.0211        | 38.99 | 2340 | 0.1024          | 0.9679    | 0.9690 | 0.9684 | 0.9782   |
+| 0.0211        | 39.99 | 2400 | 0.1022          | 0.9680    | 0.9690 | 0.9685 | 0.9782   |
+### Framework versions
+- Transformers 4.25.1
+- Pytorch 1.12.0
+- Datasets 2.18.0
+- Tokenizers 0.13.2

all_results.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+    "epoch": 39.99,
+    "eval_accuracy": 0.9790089140228122,
+    "eval_f1": 0.9695497407877142,
+    "eval_loss": 0.07188576459884644,
+    "eval_precision": 0.9686181737446121,
+    "eval_recall": 0.97048310142215,
+    "eval_runtime": 9.3965,
+    "eval_samples": 2072,
+    "eval_samples_per_second": 735.381,
+    "eval_steps_per_second": 2.873,
+    "train_loss": 0.19011780440807344,
+    "train_runtime": 1964.637,
+    "train_samples": 62189,
+    "train_samples_per_second": 1266.168,
+    "train_steps_per_second": 1.222
+}

config.json ADDED Viewed

	@@ -0,0 +1,145 @@

+{
+  "_name_or_path": "xlm-roberta-base",
+  "architectures": [
+    "XLMRobertaForTokenClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "finetuning_task": "pos",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "`",
+    "1": "\tSYM",
+    "2": "IN",
+    "3": "$",
+    "4": "WDT",
+    "5": "LS",
+    "6": "\tDT",
+    "7": "VBZ",
+    "8": "CD",
+    "9": "SYM",
+    "10": "UH",
+    "11": "VB",
+    "12": "``",
+    "13": "VBN",
+    "14": "NN",
+    "15": "sleepy\t#",
+    "16": "terrorist\t#",
+    "17": "TO",
+    "18": "POS",
+    "19": "it",
+    "20": "NNP",
+    "21": "(",
+    "22": ".",
+    "23": "CC",
+    "24": ":",
+    "25": "RBR",
+    "26": "''",
+    "27": "#",
+    "28": "FW",
+    "29": "MD",
+    "30": "DT",
+    "31": "WP$",
+    "32": ",",
+    "33": "RBS",
+    "34": ")",
+    "35": "RB",
+    "36": "WP",
+    "37": "WRB",
+    "38": "@",
+    "39": "NNS",
+    "40": "PRP$",
+    "41": "JJS",
+    "42": "Ready\t#",
+    "43": "EX",
+    "44": "U",
+    "45": "NNPS",
+    "46": "\tPRP",
+    "47": "hero\t#",
+    "48": "JJR",
+    "49": "JJ",
+    "50": "PRP",
+    "51": "PDT",
+    "52": "VBD",
+    "53": "RP",
+    "54": "VBP",
+    "55": "VBG"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "\tDT": 6,
+    "\tPRP": 46,
+    "\tSYM": 1,
+    "#": 27,
+    "$": 3,
+    "''": 26,
+    "(": 21,
+    ")": 34,
+    ",": 32,
+    ".": 22,
+    ":": 24,
+    "@": 38,
+    "CC": 23,
+    "CD": 8,
+    "DT": 30,
+    "EX": 43,
+    "FW": 28,
+    "IN": 2,
+    "JJ": 49,
+    "JJR": 48,
+    "JJS": 41,
+    "LS": 5,
+    "MD": 29,
+    "NN": 14,
+    "NNP": 20,
+    "NNPS": 45,
+    "NNS": 39,
+    "PDT": 51,
+    "POS": 18,
+    "PRP": 50,
+    "PRP$": 40,
+    "RB": 35,
+    "RBR": 25,
+    "RBS": 33,
+    "RP": 53,
+    "Ready\t#": 42,
+    "SYM": 9,
+    "TO": 17,
+    "U": 44,
+    "UH": 10,
+    "VB": 11,
+    "VBD": 52,
+    "VBG": 55,
+    "VBN": 13,
+    "VBP": 54,
+    "VBZ": 7,
+    "WDT": 4,
+    "WP": 36,
+    "WP$": 31,
+    "WRB": 37,
+    "`": 0,
+    "``": 12,
+    "hero\t#": 47,
+    "it": 19,
+    "sleepy\t#": 15,
+    "terrorist\t#": 16
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "xlm-roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.25.1",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 250002
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 39.99,
+    "eval_accuracy": 0.9790089140228122,
+    "eval_f1": 0.9695497407877142,
+    "eval_loss": 0.07188576459884644,
+    "eval_precision": 0.9686181737446121,
+    "eval_recall": 0.97048310142215,
+    "eval_runtime": 9.3965,
+    "eval_samples": 2072,
+    "eval_samples_per_second": 735.381,
+    "eval_steps_per_second": 2.873
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:60d6d87ae3bbd38bd10f9e4dd805847032e26dc05af8f15e035615ee175b3a47
+size 1110055537

sentencepiece.bpe.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
+size 5069051

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f2c509a525eb51aebb33fb59c24ee923c1d4c1db23c3ae81fe05ccf354084f7b
+size 17082758

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "__type": "AddedToken",
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "model_max_length": 512,
+  "name_or_path": "xlm-roberta-base",
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "special_tokens_map_file": null,
+  "token": null,
+  "tokenizer_class": "XLMRobertaTokenizer",
+  "unk_token": "<unk>"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 39.99,
+    "train_loss": 0.19011780440807344,
+    "train_runtime": 1964.637,
+    "train_samples": 62189,
+    "train_samples_per_second": 1266.168,
+    "train_steps_per_second": 1.222
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,529 @@

+{
+  "best_metric": 0.9695497407877142,
+  "best_model_checkpoint": "models/pos_final_xlm_en/checkpoint-960",
+  "epoch": 39.98765432098765,
+  "global_step": 2400,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.99,
+      "eval_accuracy": 0.3035943640371897,
+      "eval_f1": 0.2008264425810438,
+      "eval_loss": 3.0061752796173096,
+      "eval_precision": 0.24116944979086247,
+      "eval_recall": 0.17204639246429285,
+      "eval_runtime": 8.5419,
+      "eval_samples_per_second": 808.95,
+      "eval_steps_per_second": 3.161,
+      "step": 60
+    },
+    {
+      "epoch": 1.99,
+      "eval_accuracy": 0.8970254640723346,
+      "eval_f1": 0.8625090892213438,
+      "eval_loss": 0.5353450775146484,
+      "eval_precision": 0.8698569221887629,
+      "eval_recall": 0.8552843532822976,
+      "eval_runtime": 8.8286,
+      "eval_samples_per_second": 782.684,
+      "eval_steps_per_second": 3.058,
+      "step": 120
+    },
+    {
+      "epoch": 2.99,
+      "eval_accuracy": 0.9690916642704239,
+      "eval_f1": 0.9565594734295436,
+      "eval_loss": 0.13116228580474854,
+      "eval_precision": 0.9577732320280538,
+      "eval_recall": 0.955348787260482,
+      "eval_runtime": 8.7122,
+      "eval_samples_per_second": 793.137,
+      "eval_steps_per_second": 3.099,
+      "step": 180
+    },
+    {
+      "epoch": 3.99,
+      "eval_accuracy": 0.9736924502380268,
+      "eval_f1": 0.9624591697465074,
+      "eval_loss": 0.09810493141412735,
+      "eval_precision": 0.9620755729286427,
+      "eval_recall": 0.962843072580274,
+      "eval_runtime": 8.7346,
+      "eval_samples_per_second": 791.107,
+      "eval_steps_per_second": 3.091,
+      "step": 240
+    },
+    {
+      "epoch": 4.99,
+      "eval_accuracy": 0.976024793124381,
+      "eval_f1": 0.9655468564286207,
+      "eval_loss": 0.08534899353981018,
+      "eval_precision": 0.9652285898261429,
+      "eval_recall": 0.9658653329855944,
+      "eval_runtime": 9.6188,
+      "eval_samples_per_second": 718.383,
+      "eval_steps_per_second": 2.807,
+      "step": 300
+    },
+    {
+      "epoch": 5.99,
+      "eval_accuracy": 0.9768554905907537,
+      "eval_f1": 0.9665754810234248,
+      "eval_loss": 0.07884209603071213,
+      "eval_precision": 0.9655618493570116,
+      "eval_recall": 0.9675912431155362,
+      "eval_runtime": 8.6507,
+      "eval_samples_per_second": 798.781,
+      "eval_steps_per_second": 3.121,
+      "step": 360
+    },
+    {
+      "epoch": 6.99,
+      "eval_accuracy": 0.9775456084858941,
+      "eval_f1": 0.9676831206836455,
+      "eval_loss": 0.0745365098118782,
+      "eval_precision": 0.9664282162120806,
+      "eval_recall": 0.9689412883727352,
+      "eval_runtime": 8.6592,
+      "eval_samples_per_second": 797.994,
+      "eval_steps_per_second": 3.118,
+      "step": 420
+    },
+    {
+      "epoch": 7.99,
+      "eval_accuracy": 0.9780376369852072,
+      "eval_f1": 0.9681889956921002,
+      "eval_loss": 0.07183900475502014,
+      "eval_precision": 0.9675067024128686,
+      "eval_recall": 0.9688722519675376,
+      "eval_runtime": 8.714,
+      "eval_samples_per_second": 792.979,
+      "eval_steps_per_second": 3.098,
+      "step": 480
+    },
+    {
+      "epoch": 8.33,
+      "learning_rate": 4.99e-05,
+      "loss": 0.7956,
+      "step": 500
+    },
+    {
+      "epoch": 8.99,
+      "eval_accuracy": 0.9779226173360172,
+      "eval_f1": 0.9680838417498475,
+      "eval_loss": 0.07068216055631638,
+      "eval_precision": 0.9679168168329358,
+      "eval_recall": 0.9682509243207584,
+      "eval_runtime": 8.6148,
+      "eval_samples_per_second": 802.109,
+      "eval_steps_per_second": 3.134,
+      "step": 540
+    },
+    {
+      "epoch": 9.99,
+      "eval_accuracy": 0.9785999552701364,
+      "eval_f1": 0.9690196980148693,
+      "eval_loss": 0.06864651292562485,
+      "eval_precision": 0.9682478900853156,
+      "eval_recall": 0.9697927373701732,
+      "eval_runtime": 9.3629,
+      "eval_samples_per_second": 738.021,
+      "eval_steps_per_second": 2.884,
+      "step": 600
+    },
+    {
+      "epoch": 10.99,
+      "eval_accuracy": 0.9786830250167737,
+      "eval_f1": 0.9691608673146603,
+      "eval_loss": 0.06855177879333496,
+      "eval_precision": 0.9688896725672537,
+      "eval_recall": 0.9694322139208076,
+      "eval_runtime": 9.7452,
+      "eval_samples_per_second": 709.065,
+      "eval_steps_per_second": 2.771,
+      "step": 660
+    },
+    {
+      "epoch": 11.99,
+      "eval_accuracy": 0.9787149749193265,
+      "eval_f1": 0.9692986487728651,
+      "eval_loss": 0.06800223141908646,
+      "eval_precision": 0.9679492082918993,
+      "eval_recall": 0.9706518570792998,
+      "eval_runtime": 8.6538,
+      "eval_samples_per_second": 798.493,
+      "eval_steps_per_second": 3.12,
+      "step": 720
+    },
+    {
+      "epoch": 12.99,
+      "eval_accuracy": 0.97886833445158,
+      "eval_f1": 0.9694478391289856,
+      "eval_loss": 0.06851476430892944,
+      "eval_precision": 0.968346050526928,
+      "eval_recall": 0.9705521378273476,
+      "eval_runtime": 8.6111,
+      "eval_samples_per_second": 802.455,
+      "eval_steps_per_second": 3.135,
+      "step": 780
+    },
+    {
+      "epoch": 13.99,
+      "eval_accuracy": 0.9788299945685166,
+      "eval_f1": 0.9694149394930217,
+      "eval_loss": 0.06948242336511612,
+      "eval_precision": 0.9688690015554006,
+      "eval_recall": 0.969961493027323,
+      "eval_runtime": 8.5894,
+      "eval_samples_per_second": 804.476,
+      "eval_steps_per_second": 3.143,
+      "step": 840
+    },
+    {
+      "epoch": 14.99,
+      "eval_accuracy": 0.9786382951531998,
+      "eval_f1": 0.9690144083384428,
+      "eval_loss": 0.07028312981128693,
+      "eval_precision": 0.9681685222904575,
+      "eval_recall": 0.9698617737753709,
+      "eval_runtime": 8.8189,
+      "eval_samples_per_second": 783.547,
+      "eval_steps_per_second": 3.062,
+      "step": 900
+    },
+    {
+      "epoch": 15.99,
+      "eval_accuracy": 0.9790089140228122,
+      "eval_f1": 0.9695497407877142,
+      "eval_loss": 0.07188576459884644,
+      "eval_precision": 0.9686181737446121,
+      "eval_recall": 0.97048310142215,
+      "eval_runtime": 8.5817,
+      "eval_samples_per_second": 805.199,
+      "eval_steps_per_second": 3.146,
+      "step": 960
+    },
+    {
+      "epoch": 16.66,
+      "learning_rate": 3.686842105263158e-05,
+      "loss": 0.051,
+      "step": 1000
+    },
+    {
+      "epoch": 16.99,
+      "eval_accuracy": 0.978823604588006,
+      "eval_f1": 0.9694240468488908,
+      "eval_loss": 0.07346100360155106,
+      "eval_precision": 0.9687112241302716,
+      "eval_recall": 0.9701379193961616,
+      "eval_runtime": 9.6099,
+      "eval_samples_per_second": 719.048,
+      "eval_steps_per_second": 2.81,
+      "step": 1020
+    },
+    {
+      "epoch": 17.99,
+      "eval_accuracy": 0.9786830250167737,
+      "eval_f1": 0.9692255223920633,
+      "eval_loss": 0.07468883693218231,
+      "eval_precision": 0.9683683392420959,
+      "eval_recall": 0.9700842244143412,
+      "eval_runtime": 8.7732,
+      "eval_samples_per_second": 787.628,
+      "eval_steps_per_second": 3.078,
+      "step": 1080
+    },
+    {
+      "epoch": 18.99,
+      "eval_accuracy": 0.9785743953480942,
+      "eval_f1": 0.9691213222329547,
+      "eval_loss": 0.07609081268310547,
+      "eval_precision": 0.9685273432113142,
+      "eval_recall": 0.9697160302532869,
+      "eval_runtime": 8.6582,
+      "eval_samples_per_second": 798.088,
+      "eval_steps_per_second": 3.118,
+      "step": 1140
+    },
+    {
+      "epoch": 19.99,
+      "eval_accuracy": 0.9784210358158407,
+      "eval_f1": 0.9688278250741372,
+      "eval_loss": 0.07741989195346832,
+      "eval_precision": 0.9678266327811629,
+      "eval_recall": 0.9698310909286163,
+      "eval_runtime": 8.7584,
+      "eval_samples_per_second": 788.959,
+      "eval_steps_per_second": 3.083,
+      "step": 1200
+    },
+    {
+      "epoch": 20.99,
+      "eval_accuracy": 0.9784977155819675,
+      "eval_f1": 0.9689622916379138,
+      "eval_loss": 0.0795513391494751,
+      "eval_precision": 0.9685464216189702,
+      "eval_recall": 0.9693785189389872,
+      "eval_runtime": 8.6744,
+      "eval_samples_per_second": 796.596,
+      "eval_steps_per_second": 3.113,
+      "step": 1260
+    },
+    {
+      "epoch": 21.99,
+      "eval_accuracy": 0.9785999552701364,
+      "eval_f1": 0.9690767468323875,
+      "eval_loss": 0.07958221435546875,
+      "eval_precision": 0.9680789987369388,
+      "eval_recall": 0.9700765537026526,
+      "eval_runtime": 8.6133,
+      "eval_samples_per_second": 802.246,
+      "eval_steps_per_second": 3.135,
+      "step": 1320
+    },
+    {
+      "epoch": 22.99,
+      "eval_accuracy": 0.9783954758937985,
+      "eval_f1": 0.9686965590754671,
+      "eval_loss": 0.08197388052940369,
+      "eval_precision": 0.968436627924806,
+      "eval_recall": 0.9689566297961125,
+      "eval_runtime": 8.7277,
+      "eval_samples_per_second": 791.73,
+      "eval_steps_per_second": 3.094,
+      "step": 1380
+    },
+    {
+      "epoch": 23.99,
+      "eval_accuracy": 0.978127096712355,
+      "eval_f1": 0.9683426871530653,
+      "eval_loss": 0.08289676904678345,
+      "eval_precision": 0.9678825963675377,
+      "eval_recall": 0.9688032155623398,
+      "eval_runtime": 8.6527,
+      "eval_samples_per_second": 798.592,
+      "eval_steps_per_second": 3.12,
+      "step": 1440
+    },
+    {
+      "epoch": 24.99,
+      "learning_rate": 2.3710526315789475e-05,
+      "loss": 0.0318,
+      "step": 1500
+    },
+    {
+      "epoch": 24.99,
+      "eval_accuracy": 0.9782101664589923,
+      "eval_f1": 0.9685605958957412,
+      "eval_loss": 0.08542540669441223,
+      "eval_precision": 0.96811894087443,
+      "eval_recall": 0.9690026540662443,
+      "eval_runtime": 8.7516,
+      "eval_samples_per_second": 789.565,
+      "eval_steps_per_second": 3.085,
+      "step": 1500
+    },
+    {
+      "epoch": 25.99,
+      "eval_accuracy": 0.9781526566343972,
+      "eval_f1": 0.9684325094947744,
+      "eval_loss": 0.08812534809112549,
+      "eval_precision": 0.9676870878552774,
+      "eval_recall": 0.9691790804350827,
+      "eval_runtime": 9.0034,
+      "eval_samples_per_second": 767.488,
+      "eval_steps_per_second": 2.999,
+      "step": 1560
+    },
+    {
+      "epoch": 26.99,
+      "eval_accuracy": 0.9782548963225662,
+      "eval_f1": 0.9684803649117427,
+      "eval_loss": 0.08933103829622269,
+      "eval_precision": 0.9679127176886124,
+      "eval_recall": 0.9690486783363761,
+      "eval_runtime": 8.7744,
+      "eval_samples_per_second": 787.518,
+      "eval_steps_per_second": 3.077,
+      "step": 1620
+    },
+    {
+      "epoch": 27.99,
+      "eval_accuracy": 0.9780951468098023,
+      "eval_f1": 0.9683360927152317,
+      "eval_loss": 0.090970478951931,
+      "eval_precision": 0.9676092584366048,
+      "eval_recall": 0.9690640197597533,
+      "eval_runtime": 8.5971,
+      "eval_samples_per_second": 803.763,
+      "eval_steps_per_second": 3.141,
+      "step": 1680
+    },
+    {
+      "epoch": 28.99,
+      "eval_accuracy": 0.9782612863030767,
+      "eval_f1": 0.9684535086171853,
+      "eval_loss": 0.09189366549253464,
+      "eval_precision": 0.9683569544143813,
+      "eval_recall": 0.9685500820766151,
+      "eval_runtime": 8.7669,
+      "eval_samples_per_second": 788.195,
+      "eval_steps_per_second": 3.08,
+      "step": 1740
+    },
+    {
+      "epoch": 29.99,
+      "eval_accuracy": 0.9780759768682705,
+      "eval_f1": 0.9681861749031936,
+      "eval_loss": 0.09329535067081451,
+      "eval_precision": 0.9678225410841305,
+      "eval_recall": 0.9685500820766151,
+      "eval_runtime": 8.9984,
+      "eval_samples_per_second": 767.912,
+      "eval_steps_per_second": 3.001,
+      "step": 1800
+    },
+    {
+      "epoch": 30.99,
+      "eval_accuracy": 0.9780887568292916,
+      "eval_f1": 0.968276115855809,
+      "eval_loss": 0.0947079062461853,
+      "eval_precision": 0.967741935483871,
+      "eval_recall": 0.9688108862740286,
+      "eval_runtime": 9.134,
+      "eval_samples_per_second": 756.516,
+      "eval_steps_per_second": 2.956,
+      "step": 1860
+    },
+    {
+      "epoch": 31.99,
+      "eval_accuracy": 0.9782804562446085,
+      "eval_f1": 0.9685832975657613,
+      "eval_loss": 0.09658045321702957,
+      "eval_precision": 0.9677970255326318,
+      "eval_recall": 0.9693708482272986,
+      "eval_runtime": 8.9466,
+      "eval_samples_per_second": 772.361,
+      "eval_steps_per_second": 3.018,
+      "step": 1920
+    },
+    {
+      "epoch": 32.99,
+      "eval_accuracy": 0.9780951468098023,
+      "eval_f1": 0.9683005734261446,
+      "eval_loss": 0.09742453694343567,
+      "eval_precision": 0.967721916611759,
+      "eval_recall": 0.9688799226792262,
+      "eval_runtime": 9.0098,
+      "eval_samples_per_second": 766.942,
+      "eval_steps_per_second": 2.997,
+      "step": 1980
+    },
+    {
+      "epoch": 33.33,
+      "learning_rate": 1.055263157894737e-05,
+      "loss": 0.0211,
+      "step": 2000
+    },
+    {
+      "epoch": 33.99,
+      "eval_accuracy": 0.9784274257963513,
+      "eval_f1": 0.9688261902936441,
+      "eval_loss": 0.09810397773981094,
+      "eval_precision": 0.968351035296642,
+      "eval_recall": 0.9693018118221008,
+      "eval_runtime": 8.8808,
+      "eval_samples_per_second": 778.087,
+      "eval_steps_per_second": 3.04,
+      "step": 2040
+    },
+    {
+      "epoch": 34.99,
+      "eval_accuracy": 0.978286846225119,
+      "eval_f1": 0.9685722171959579,
+      "eval_loss": 0.09894430637359619,
+      "eval_precision": 0.9681268488573487,
+      "eval_recall": 0.9690179954896215,
+      "eval_runtime": 9.0496,
+      "eval_samples_per_second": 763.573,
+      "eval_steps_per_second": 2.984,
+      "step": 2100
+    },
+    {
+      "epoch": 35.99,
+      "eval_accuracy": 0.9783507460302246,
+      "eval_f1": 0.9687094017421564,
+      "eval_loss": 0.10078005492687225,
+      "eval_precision": 0.9679341374688876,
+      "eval_recall": 0.969485908902628,
+      "eval_runtime": 8.9188,
+      "eval_samples_per_second": 774.772,
+      "eval_steps_per_second": 3.027,
+      "step": 2160
+    },
+    {
+      "epoch": 36.99,
+      "eval_accuracy": 0.9782229464200134,
+      "eval_f1": 0.9684928880880267,
+      "eval_loss": 0.10152223706245422,
+      "eval_precision": 0.9681291390728477,
+      "eval_recall": 0.9688569105441602,
+      "eval_runtime": 8.9289,
+      "eval_samples_per_second": 773.895,
+      "eval_steps_per_second": 3.024,
+      "step": 2220
+    },
+    {
+      "epoch": 37.99,
+      "eval_accuracy": 0.97806958688776,
+      "eval_f1": 0.9682817728476643,
+      "eval_loss": 0.10151796787977219,
+      "eval_precision": 0.9676920130243248,
+      "eval_recall": 0.9688722519675376,
+      "eval_runtime": 9.2785,
+      "eval_samples_per_second": 744.734,
+      "eval_steps_per_second": 2.91,
+      "step": 2280
+    },
+    {
+      "epoch": 38.99,
+      "eval_accuracy": 0.9781654365954184,
+      "eval_f1": 0.9684071725914399,
+      "eval_loss": 0.10238787531852722,
+      "eval_precision": 0.9678506849734898,
+      "eval_recall": 0.9689643005078011,
+      "eval_runtime": 8.88,
+      "eval_samples_per_second": 778.153,
+      "eval_steps_per_second": 3.041,
+      "step": 2340
+    },
+    {
+      "epoch": 39.99,
+      "eval_accuracy": 0.9782165564395029,
+      "eval_f1": 0.9685044199615122,
+      "eval_loss": 0.10218308120965958,
+      "eval_precision": 0.9680220083374204,
+      "eval_recall": 0.968987312642867,
+      "eval_runtime": 9.7749,
+      "eval_samples_per_second": 706.909,
+      "eval_steps_per_second": 2.762,
+      "step": 2400
+    },
+    {
+      "epoch": 39.99,
+      "step": 2400,
+      "total_flos": 1.3719917000335334e+17,
+      "train_loss": 0.19011780440807344,
+      "train_runtime": 1964.637,
+      "train_samples_per_second": 1266.168,
+      "train_steps_per_second": 1.222
+    }
+  ],
+  "max_steps": 2400,
+  "num_train_epochs": 40,
+  "total_flos": 1.3719917000335334e+17,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cfe30f9636ac9afcec5398df38fe874cf42b23a0ee7f4e32aab9bbb6aae85244
+size 3439