Pushing deberta-v3-large-hate to hub

Browse files

Files changed (15) hide show

README.md +115 -0
added_tokens.json +3 -0
all_results.json +14 -0
config.json +43 -0
eval_results.json +8 -0
pytorch_model.bin +3 -0
run_test.sh +1 -0
run_train.sh +1 -0
special_tokens_map.json +9 -0
spm.model +3 -0
test_results.json +8 -0
tokenizer.json +0 -0
tokenizer_config.json +16 -0
trainer_state.json +865 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,115 @@

+---
+license: mit
+tags:
+- generated_from_trainer
+metrics:
+- accuracy
+model-index:
+- name: deberta-v3-large-hate-lr7e-6-gas1-ls0.0
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# deberta-v3-large-hate-lr7e-6-gas1-ls0.0
+This model is a fine-tuned version of [microsoft/deberta-v3-large](https://huggingface.co/microsoft/deberta-v3-large) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 1.5689
+- Accuracy: 0.8028
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 7e-06
+- train_batch_size: 16
+- eval_batch_size: 16
+- seed: 42
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- lr_scheduler_warmup_steps: 50
+- num_epochs: 10.0
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Accuracy |
+|:-------------:|:-----:|:----:|:---------------:|:--------:|
+| 0.6362        | 0.18  | 100  | 0.5481          | 0.7197   |
+| 0.4264        | 0.36  | 200  | 0.4550          | 0.8008   |
+| 0.4174        | 0.53  | 300  | 0.4524          | 0.7868   |
+| 0.4197        | 0.71  | 400  | 0.4586          | 0.7918   |
+| 0.3819        | 0.89  | 500  | 0.4368          | 0.8078   |
+| 0.3558        | 1.07  | 600  | 0.4525          | 0.8068   |
+| 0.2982        | 1.24  | 700  | 0.4999          | 0.7928   |
+| 0.2885        | 1.42  | 800  | 0.5129          | 0.8108   |
+| 0.253         | 1.6   | 900  | 0.5873          | 0.8208   |
+| 0.3354        | 1.78  | 1000 | 0.4244          | 0.8178   |
+| 0.3083        | 1.95  | 1100 | 0.4853          | 0.8058   |
+| 0.2301        | 2.13  | 1200 | 0.7209          | 0.8018   |
+| 0.2167        | 2.31  | 1300 | 0.8090          | 0.7778   |
+| 0.1863        | 2.49  | 1400 | 0.6812          | 0.8038   |
+| 0.2181        | 2.66  | 1500 | 0.6958          | 0.8138   |
+| 0.2159        | 2.84  | 1600 | 0.6315          | 0.8118   |
+| 0.1828        | 3.02  | 1700 | 0.7173          | 0.8138   |
+| 0.1287        | 3.2   | 1800 | 0.9081          | 0.8018   |
+| 0.1711        | 3.37  | 1900 | 0.8858          | 0.8068   |
+| 0.1598        | 3.55  | 2000 | 0.7878          | 0.8028   |
+| 0.1467        | 3.73  | 2100 | 0.9003          | 0.7948   |
+| 0.127         | 3.91  | 2200 | 0.9066          | 0.8048   |
+| 0.1134        | 4.09  | 2300 | 0.9646          | 0.8118   |
+| 0.1017        | 4.26  | 2400 | 0.9778          | 0.8048   |
+| 0.085         | 4.44  | 2500 | 1.0529          | 0.8088   |
+| 0.0996        | 4.62  | 2600 | 1.0082          | 0.8058   |
+| 0.1054        | 4.8   | 2700 | 0.9698          | 0.8108   |
+| 0.1375        | 4.97  | 2800 | 0.9334          | 0.8048   |
+| 0.0487        | 5.15  | 2900 | 1.1273          | 0.8108   |
+| 0.0611        | 5.33  | 3000 | 1.1528          | 0.8058   |
+| 0.0668        | 5.51  | 3100 | 1.0148          | 0.8118   |
+| 0.0582        | 5.68  | 3200 | 1.1333          | 0.8108   |
+| 0.0869        | 5.86  | 3300 | 1.0607          | 0.8088   |
+| 0.0623        | 6.04  | 3400 | 1.1880          | 0.8068   |
+| 0.0317        | 6.22  | 3500 | 1.2836          | 0.8008   |
+| 0.0546        | 6.39  | 3600 | 1.2148          | 0.8058   |
+| 0.0486        | 6.57  | 3700 | 1.3348          | 0.8008   |
+| 0.0332        | 6.75  | 3800 | 1.3734          | 0.8018   |
+| 0.051         | 6.93  | 3900 | 1.2966          | 0.7978   |
+| 0.0217        | 7.1   | 4000 | 1.3853          | 0.8048   |
+| 0.0109        | 7.28  | 4100 | 1.4803          | 0.8068   |
+| 0.0345        | 7.46  | 4200 | 1.4906          | 0.7998   |
+| 0.0365        | 7.64  | 4300 | 1.4347          | 0.8028   |
+| 0.0265        | 7.82  | 4400 | 1.3977          | 0.8128   |
+| 0.0257        | 7.99  | 4500 | 1.3705          | 0.8108   |
+| 0.0036        | 8.17  | 4600 | 1.4353          | 0.8168   |
+| 0.0269        | 8.35  | 4700 | 1.4826          | 0.8068   |
+| 0.0231        | 8.53  | 4800 | 1.4811          | 0.8118   |
+| 0.0204        | 8.7   | 4900 | 1.5245          | 0.8028   |
+| 0.0263        | 8.88  | 5000 | 1.5123          | 0.8018   |
+| 0.0138        | 9.06  | 5100 | 1.5113          | 0.8028   |
+| 0.0089        | 9.24  | 5200 | 1.5846          | 0.7978   |
+| 0.029         | 9.41  | 5300 | 1.5362          | 0.8008   |
+| 0.0058        | 9.59  | 5400 | 1.5759          | 0.8018   |
+| 0.0084        | 9.77  | 5500 | 1.5679          | 0.8018   |
+| 0.0065        | 9.95  | 5600 | 1.5683          | 0.8028   |
+### Framework versions
+- Transformers 4.20.0.dev0
+- Pytorch 1.9.0
+- Datasets 2.2.2
+- Tokenizers 0.11.6

added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+    "epoch": 10.0,
+    "eval_accuracy": 0.8028028011322021,
+    "eval_loss": 1.568860650062561,
+    "eval_runtime": 6.2145,
+    "eval_samples": 999,
+    "eval_samples_per_second": 160.753,
+    "eval_steps_per_second": 10.138,
+    "train_loss": 0.13640729715885533,
+    "train_runtime": 2182.3127,
+    "train_samples": 9000,
+    "train_samples_per_second": 41.241,
+    "train_steps_per_second": 2.58
+}

config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "_name_or_path": "microsoft/deberta-v3-large",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": 0,
+    "1": 1
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "0": 0,
+    "1": 1
+  },
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 1024,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.20.0.dev0",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "eval_accuracy": 0.8208208084106445,
+    "eval_loss": 0.5872611403465271,
+    "eval_runtime": 6.1253,
+    "eval_samples": 999,
+    "eval_samples_per_second": 163.093,
+    "eval_steps_per_second": 10.285
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ab5223d2f36ffa1a5fa517d7faaf2c139d4aa6881beafc0a86c86709ddeb5fbb
+size 1740393387

run_test.sh ADDED Viewed

	@@ -0,0 +1 @@

+ jbsub -queue x86_1h -cores 4+1 -mem 30g -require a100 -o outputs/train/tweet_eval2/hate/deberta-v3-large-hate-lr7e-6-gas1-ls0.0/test.log /dccstor/tslm/envs/anaconda3/envs/tslm-gen/bin/python train_clf.py --model_name_or_path outputs/train/tweet_eval2/hate/deberta-v3-large-hate-lr7e-6-gas1-ls0.0/best_checkpoint --train_file data/tweet_eval/hate/train.csv --validation_file data/tweet_eval/hate/validation.csv --test_file data/tweet_eval/hate/test.csv --do_eval --do_predict --report_to none --per_device_eval_batch_size 16 --max_seq_length 256 --output_dir outputs/train/tweet_eval2/hate/deberta-v3-large-hate-lr7e-6-gas1-ls0.0/best_checkpoint

run_train.sh ADDED Viewed

	@@ -0,0 +1 @@

+ jbsub -queue x86_6h -cores 4+1 -mem 30g -require a100 -o outputs/train/tweet_eval2/hate/deberta-v3-large-hate-lr7e-6-gas1-ls0.0/train.log /dccstor/tslm/envs/anaconda3/envs/tslm-gen/bin/python train_clf.py --model_name_or_path microsoft/deberta-v3-large --train_file data/tweet_eval/hate/train.csv --validation_file data/tweet_eval/hate/validation.csv --do_train --do_eval --per_device_train_batch_size 16 --per_device_eval_batch_size 16 --max_seq_length 256 --learning_rate 7e-6 --output_dir outputs/train/tweet_eval2/hate/deberta-v3-large-hate-lr7e-6-gas1-ls0.0 --evaluation_strategy steps --save_strategy no --warmup_steps 50 --num_train_epochs 10 --overwrite_output_dir --logging_steps 100 --gradient_accumulation_steps 1 --label_smoothing_factor 0.0 --report_to clearml --metric_for_best_model accuracy --logging_dir outputs/train/tweet_eval2/hate/deberta-v3-large-hate-lr7e-6-gas1-ls0.0/tb \; rm -rf outputs/train/tweet_eval2/hate/deberta-v3-large-hate-lr7e-6-gas1-ls0.0/tb \; rm -rf outputs/train/tweet_eval2/hate/deberta-v3-large-hate-lr7e-6-gas1-ls0.0/checkpoint-* \; . outputs/train/tweet_eval2/hate/deberta-v3-large-hate-lr7e-6-gas1-ls0.0/run_test.sh

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

spm.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c679fbf93643d19aab7ee10c0b99e460bdbc02fedf34b92b05af343b4af586fd
+size 2464616

test_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "eval_accuracy": 0.6127946376800537,
+    "eval_loss": 1.4348669052124023,
+    "eval_runtime": 17.0067,
+    "eval_samples_per_second": 174.637,
+    "eval_steps_per_second": 10.937,
+    "test_samples": 2970
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "name_or_path": "microsoft/deberta-v3-large",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "special_tokens_map_file": null,
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,865 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 10.0,
+  "global_step": 5630,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.18,
+      "learning_rate": 6.937275985663082e-06,
+      "loss": 0.6362,
+      "step": 100
+    },
+    {
+      "epoch": 0.18,
+      "eval_accuracy": 0.7197197079658508,
+      "eval_loss": 0.5481122136116028,
+      "eval_runtime": 6.2072,
+      "eval_samples_per_second": 160.941,
+      "eval_steps_per_second": 10.149,
+      "step": 100
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 6.811827956989247e-06,
+      "loss": 0.4264,
+      "step": 200
+    },
+    {
+      "epoch": 0.36,
+      "eval_accuracy": 0.8008008003234863,
+      "eval_loss": 0.4550396203994751,
+      "eval_runtime": 6.2195,
+      "eval_samples_per_second": 160.623,
+      "eval_steps_per_second": 10.129,
+      "step": 200
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 6.6863799283154114e-06,
+      "loss": 0.4174,
+      "step": 300
+    },
+    {
+      "epoch": 0.53,
+      "eval_accuracy": 0.7867867946624756,
+      "eval_loss": 0.452409952878952,
+      "eval_runtime": 6.2183,
+      "eval_samples_per_second": 160.655,
+      "eval_steps_per_second": 10.131,
+      "step": 300
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 6.560931899641577e-06,
+      "loss": 0.4197,
+      "step": 400
+    },
+    {
+      "epoch": 0.71,
+      "eval_accuracy": 0.7917917966842651,
+      "eval_loss": 0.4586125910282135,
+      "eval_runtime": 6.2441,
+      "eval_samples_per_second": 159.991,
+      "eval_steps_per_second": 10.09,
+      "step": 400
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 6.435483870967742e-06,
+      "loss": 0.3819,
+      "step": 500
+    },
+    {
+      "epoch": 0.89,
+      "eval_accuracy": 0.8078078031539917,
+      "eval_loss": 0.4367608428001404,
+      "eval_runtime": 6.2213,
+      "eval_samples_per_second": 160.577,
+      "eval_steps_per_second": 10.126,
+      "step": 500
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 6.310035842293907e-06,
+      "loss": 0.3558,
+      "step": 600
+    },
+    {
+      "epoch": 1.07,
+      "eval_accuracy": 0.8068068027496338,
+      "eval_loss": 0.4524727463722229,
+      "eval_runtime": 6.2342,
+      "eval_samples_per_second": 160.246,
+      "eval_steps_per_second": 10.106,
+      "step": 600
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 6.184587813620071e-06,
+      "loss": 0.2982,
+      "step": 700
+    },
+    {
+      "epoch": 1.24,
+      "eval_accuracy": 0.792792797088623,
+      "eval_loss": 0.49992287158966064,
+      "eval_runtime": 6.206,
+      "eval_samples_per_second": 160.973,
+      "eval_steps_per_second": 10.151,
+      "step": 700
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 6.059139784946236e-06,
+      "loss": 0.2885,
+      "step": 800
+    },
+    {
+      "epoch": 1.42,
+      "eval_accuracy": 0.8108108043670654,
+      "eval_loss": 0.5129059553146362,
+      "eval_runtime": 6.2199,
+      "eval_samples_per_second": 160.613,
+      "eval_steps_per_second": 10.129,
+      "step": 800
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 5.933691756272401e-06,
+      "loss": 0.253,
+      "step": 900
+    },
+    {
+      "epoch": 1.6,
+      "eval_accuracy": 0.8208208084106445,
+      "eval_loss": 0.5872611403465271,
+      "eval_runtime": 6.2332,
+      "eval_samples_per_second": 160.27,
+      "eval_steps_per_second": 10.107,
+      "step": 900
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 5.8082437275985665e-06,
+      "loss": 0.3354,
+      "step": 1000
+    },
+    {
+      "epoch": 1.78,
+      "eval_accuracy": 0.8178178071975708,
+      "eval_loss": 0.4244420826435089,
+      "eval_runtime": 6.2275,
+      "eval_samples_per_second": 160.417,
+      "eval_steps_per_second": 10.116,
+      "step": 1000
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 5.682795698924731e-06,
+      "loss": 0.3083,
+      "step": 1100
+    },
+    {
+      "epoch": 1.95,
+      "eval_accuracy": 0.8058058023452759,
+      "eval_loss": 0.4852960705757141,
+      "eval_runtime": 6.2193,
+      "eval_samples_per_second": 160.63,
+      "eval_steps_per_second": 10.13,
+      "step": 1100
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 5.557347670250896e-06,
+      "loss": 0.2301,
+      "step": 1200
+    },
+    {
+      "epoch": 2.13,
+      "eval_accuracy": 0.8018018007278442,
+      "eval_loss": 0.7208853960037231,
+      "eval_runtime": 6.2021,
+      "eval_samples_per_second": 161.075,
+      "eval_steps_per_second": 10.158,
+      "step": 1200
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 5.431899641577061e-06,
+      "loss": 0.2167,
+      "step": 1300
+    },
+    {
+      "epoch": 2.31,
+      "eval_accuracy": 0.7777777910232544,
+      "eval_loss": 0.8089737892150879,
+      "eval_runtime": 6.2037,
+      "eval_samples_per_second": 161.034,
+      "eval_steps_per_second": 10.155,
+      "step": 1300
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 5.306451612903225e-06,
+      "loss": 0.1863,
+      "step": 1400
+    },
+    {
+      "epoch": 2.49,
+      "eval_accuracy": 0.8038038015365601,
+      "eval_loss": 0.6812323927879333,
+      "eval_runtime": 6.2398,
+      "eval_samples_per_second": 160.102,
+      "eval_steps_per_second": 10.097,
+      "step": 1400
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 5.181003584229391e-06,
+      "loss": 0.2181,
+      "step": 1500
+    },
+    {
+      "epoch": 2.66,
+      "eval_accuracy": 0.8138138055801392,
+      "eval_loss": 0.6958026885986328,
+      "eval_runtime": 6.2122,
+      "eval_samples_per_second": 160.812,
+      "eval_steps_per_second": 10.141,
+      "step": 1500
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 5.0555555555555555e-06,
+      "loss": 0.2159,
+      "step": 1600
+    },
+    {
+      "epoch": 2.84,
+      "eval_accuracy": 0.8118118047714233,
+      "eval_loss": 0.6314735412597656,
+      "eval_runtime": 6.2306,
+      "eval_samples_per_second": 160.337,
+      "eval_steps_per_second": 10.111,
+      "step": 1600
+    },
+    {
+      "epoch": 3.02,
+      "learning_rate": 4.930107526881721e-06,
+      "loss": 0.1828,
+      "step": 1700
+    },
+    {
+      "epoch": 3.02,
+      "eval_accuracy": 0.8138138055801392,
+      "eval_loss": 0.7173236608505249,
+      "eval_runtime": 6.2107,
+      "eval_samples_per_second": 160.851,
+      "eval_steps_per_second": 10.144,
+      "step": 1700
+    },
+    {
+      "epoch": 3.2,
+      "learning_rate": 4.804659498207885e-06,
+      "loss": 0.1287,
+      "step": 1800
+    },
+    {
+      "epoch": 3.2,
+      "eval_accuracy": 0.8018018007278442,
+      "eval_loss": 0.9080932140350342,
+      "eval_runtime": 6.2027,
+      "eval_samples_per_second": 161.06,
+      "eval_steps_per_second": 10.157,
+      "step": 1800
+    },
+    {
+      "epoch": 3.37,
+      "learning_rate": 4.67921146953405e-06,
+      "loss": 0.1711,
+      "step": 1900
+    },
+    {
+      "epoch": 3.37,
+      "eval_accuracy": 0.8068068027496338,
+      "eval_loss": 0.8858422040939331,
+      "eval_runtime": 6.2188,
+      "eval_samples_per_second": 160.641,
+      "eval_steps_per_second": 10.131,
+      "step": 1900
+    },
+    {
+      "epoch": 3.55,
+      "learning_rate": 4.553763440860215e-06,
+      "loss": 0.1598,
+      "step": 2000
+    },
+    {
+      "epoch": 3.55,
+      "eval_accuracy": 0.8028028011322021,
+      "eval_loss": 0.7877860069274902,
+      "eval_runtime": 6.2062,
+      "eval_samples_per_second": 160.967,
+      "eval_steps_per_second": 10.151,
+      "step": 2000
+    },
+    {
+      "epoch": 3.73,
+      "learning_rate": 4.42831541218638e-06,
+      "loss": 0.1467,
+      "step": 2100
+    },
+    {
+      "epoch": 3.73,
+      "eval_accuracy": 0.7947947978973389,
+      "eval_loss": 0.900332510471344,
+      "eval_runtime": 6.2358,
+      "eval_samples_per_second": 160.203,
+      "eval_steps_per_second": 10.103,
+      "step": 2100
+    },
+    {
+      "epoch": 3.91,
+      "learning_rate": 4.302867383512545e-06,
+      "loss": 0.127,
+      "step": 2200
+    },
+    {
+      "epoch": 3.91,
+      "eval_accuracy": 0.804804801940918,
+      "eval_loss": 0.9066368341445923,
+      "eval_runtime": 6.2129,
+      "eval_samples_per_second": 160.795,
+      "eval_steps_per_second": 10.14,
+      "step": 2200
+    },
+    {
+      "epoch": 4.09,
+      "learning_rate": 4.17741935483871e-06,
+      "loss": 0.1134,
+      "step": 2300
+    },
+    {
+      "epoch": 4.09,
+      "eval_accuracy": 0.8118118047714233,
+      "eval_loss": 0.9645766615867615,
+      "eval_runtime": 6.2157,
+      "eval_samples_per_second": 160.721,
+      "eval_steps_per_second": 10.136,
+      "step": 2300
+    },
+    {
+      "epoch": 4.26,
+      "learning_rate": 4.051971326164874e-06,
+      "loss": 0.1017,
+      "step": 2400
+    },
+    {
+      "epoch": 4.26,
+      "eval_accuracy": 0.804804801940918,
+      "eval_loss": 0.9778422713279724,
+      "eval_runtime": 6.2303,
+      "eval_samples_per_second": 160.346,
+      "eval_steps_per_second": 10.112,
+      "step": 2400
+    },
+    {
+      "epoch": 4.44,
+      "learning_rate": 3.926523297491039e-06,
+      "loss": 0.085,
+      "step": 2500
+    },
+    {
+      "epoch": 4.44,
+      "eval_accuracy": 0.8088088035583496,
+      "eval_loss": 1.0528582334518433,
+      "eval_runtime": 6.238,
+      "eval_samples_per_second": 160.149,
+      "eval_steps_per_second": 10.099,
+      "step": 2500
+    },
+    {
+      "epoch": 4.62,
+      "learning_rate": 3.801075268817204e-06,
+      "loss": 0.0996,
+      "step": 2600
+    },
+    {
+      "epoch": 4.62,
+      "eval_accuracy": 0.8058058023452759,
+      "eval_loss": 1.0082268714904785,
+      "eval_runtime": 6.2065,
+      "eval_samples_per_second": 160.961,
+      "eval_steps_per_second": 10.151,
+      "step": 2600
+    },
+    {
+      "epoch": 4.8,
+      "learning_rate": 3.6756272401433694e-06,
+      "loss": 0.1054,
+      "step": 2700
+    },
+    {
+      "epoch": 4.8,
+      "eval_accuracy": 0.8108108043670654,
+      "eval_loss": 0.9697705507278442,
+      "eval_runtime": 6.2348,
+      "eval_samples_per_second": 160.231,
+      "eval_steps_per_second": 10.105,
+      "step": 2700
+    },
+    {
+      "epoch": 4.97,
+      "learning_rate": 3.5501792114695336e-06,
+      "loss": 0.1375,
+      "step": 2800
+    },
+    {
+      "epoch": 4.97,
+      "eval_accuracy": 0.804804801940918,
+      "eval_loss": 0.9333746433258057,
+      "eval_runtime": 6.2109,
+      "eval_samples_per_second": 160.846,
+      "eval_steps_per_second": 10.143,
+      "step": 2800
+    },
+    {
+      "epoch": 5.15,
+      "learning_rate": 3.4247311827956988e-06,
+      "loss": 0.0487,
+      "step": 2900
+    },
+    {
+      "epoch": 5.15,
+      "eval_accuracy": 0.8108108043670654,
+      "eval_loss": 1.1273365020751953,
+      "eval_runtime": 6.2065,
+      "eval_samples_per_second": 160.961,
+      "eval_steps_per_second": 10.151,
+      "step": 2900
+    },
+    {
+      "epoch": 5.33,
+      "learning_rate": 3.299283154121864e-06,
+      "loss": 0.0611,
+      "step": 3000
+    },
+    {
+      "epoch": 5.33,
+      "eval_accuracy": 0.8058058023452759,
+      "eval_loss": 1.1528337001800537,
+      "eval_runtime": 6.2119,
+      "eval_samples_per_second": 160.821,
+      "eval_steps_per_second": 10.142,
+      "step": 3000
+    },
+    {
+      "epoch": 5.51,
+      "learning_rate": 3.1738351254480286e-06,
+      "loss": 0.0668,
+      "step": 3100
+    },
+    {
+      "epoch": 5.51,
+      "eval_accuracy": 0.8118118047714233,
+      "eval_loss": 1.0147671699523926,
+      "eval_runtime": 6.2218,
+      "eval_samples_per_second": 160.564,
+      "eval_steps_per_second": 10.126,
+      "step": 3100
+    },
+    {
+      "epoch": 5.68,
+      "learning_rate": 3.0483870967741937e-06,
+      "loss": 0.0582,
+      "step": 3200
+    },
+    {
+      "epoch": 5.68,
+      "eval_accuracy": 0.8108108043670654,
+      "eval_loss": 1.1332666873931885,
+      "eval_runtime": 6.2186,
+      "eval_samples_per_second": 160.648,
+      "eval_steps_per_second": 10.131,
+      "step": 3200
+    },
+    {
+      "epoch": 5.86,
+      "learning_rate": 2.9229390681003584e-06,
+      "loss": 0.0869,
+      "step": 3300
+    },
+    {
+      "epoch": 5.86,
+      "eval_accuracy": 0.8088088035583496,
+      "eval_loss": 1.060727596282959,
+      "eval_runtime": 6.1932,
+      "eval_samples_per_second": 161.305,
+      "eval_steps_per_second": 10.172,
+      "step": 3300
+    },
+    {
+      "epoch": 6.04,
+      "learning_rate": 2.797491039426523e-06,
+      "loss": 0.0623,
+      "step": 3400
+    },
+    {
+      "epoch": 6.04,
+      "eval_accuracy": 0.8068068027496338,
+      "eval_loss": 1.1880476474761963,
+      "eval_runtime": 6.2192,
+      "eval_samples_per_second": 160.631,
+      "eval_steps_per_second": 10.13,
+      "step": 3400
+    },
+    {
+      "epoch": 6.22,
+      "learning_rate": 2.6720430107526883e-06,
+      "loss": 0.0317,
+      "step": 3500
+    },
+    {
+      "epoch": 6.22,
+      "eval_accuracy": 0.8008008003234863,
+      "eval_loss": 1.2836244106292725,
+      "eval_runtime": 6.2079,
+      "eval_samples_per_second": 160.925,
+      "eval_steps_per_second": 10.148,
+      "step": 3500
+    },
+    {
+      "epoch": 6.39,
+      "learning_rate": 2.546594982078853e-06,
+      "loss": 0.0546,
+      "step": 3600
+    },
+    {
+      "epoch": 6.39,
+      "eval_accuracy": 0.8058058023452759,
+      "eval_loss": 1.2147704362869263,
+      "eval_runtime": 6.2243,
+      "eval_samples_per_second": 160.501,
+      "eval_steps_per_second": 10.122,
+      "step": 3600
+    },
+    {
+      "epoch": 6.57,
+      "learning_rate": 2.4211469534050177e-06,
+      "loss": 0.0486,
+      "step": 3700
+    },
+    {
+      "epoch": 6.57,
+      "eval_accuracy": 0.8008008003234863,
+      "eval_loss": 1.334807276725769,
+      "eval_runtime": 6.1963,
+      "eval_samples_per_second": 161.225,
+      "eval_steps_per_second": 10.167,
+      "step": 3700
+    },
+    {
+      "epoch": 6.75,
+      "learning_rate": 2.2956989247311828e-06,
+      "loss": 0.0332,
+      "step": 3800
+    },
+    {
+      "epoch": 6.75,
+      "eval_accuracy": 0.8018018007278442,
+      "eval_loss": 1.3734461069107056,
+      "eval_runtime": 6.3321,
+      "eval_samples_per_second": 157.768,
+      "eval_steps_per_second": 9.949,
+      "step": 3800
+    },
+    {
+      "epoch": 6.93,
+      "learning_rate": 2.1702508960573475e-06,
+      "loss": 0.051,
+      "step": 3900
+    },
+    {
+      "epoch": 6.93,
+      "eval_accuracy": 0.7977977991104126,
+      "eval_loss": 1.2966439723968506,
+      "eval_runtime": 6.2073,
+      "eval_samples_per_second": 160.94,
+      "eval_steps_per_second": 10.149,
+      "step": 3900
+    },
+    {
+      "epoch": 7.1,
+      "learning_rate": 2.044802867383512e-06,
+      "loss": 0.0217,
+      "step": 4000
+    },
+    {
+      "epoch": 7.1,
+      "eval_accuracy": 0.804804801940918,
+      "eval_loss": 1.385273814201355,
+      "eval_runtime": 6.2117,
+      "eval_samples_per_second": 160.826,
+      "eval_steps_per_second": 10.142,
+      "step": 4000
+    },
+    {
+      "epoch": 7.28,
+      "learning_rate": 1.9193548387096773e-06,
+      "loss": 0.0109,
+      "step": 4100
+    },
+    {
+      "epoch": 7.28,
+      "eval_accuracy": 0.8068068027496338,
+      "eval_loss": 1.480326533317566,
+      "eval_runtime": 6.2106,
+      "eval_samples_per_second": 160.854,
+      "eval_steps_per_second": 10.144,
+      "step": 4100
+    },
+    {
+      "epoch": 7.46,
+      "learning_rate": 1.793906810035842e-06,
+      "loss": 0.0345,
+      "step": 4200
+    },
+    {
+      "epoch": 7.46,
+      "eval_accuracy": 0.7997997999191284,
+      "eval_loss": 1.4906260967254639,
+      "eval_runtime": 6.2002,
+      "eval_samples_per_second": 161.124,
+      "eval_steps_per_second": 10.161,
+      "step": 4200
+    },
+    {
+      "epoch": 7.64,
+      "learning_rate": 1.6684587813620071e-06,
+      "loss": 0.0365,
+      "step": 4300
+    },
+    {
+      "epoch": 7.64,
+      "eval_accuracy": 0.8028028011322021,
+      "eval_loss": 1.4347106218338013,
+      "eval_runtime": 6.2133,
+      "eval_samples_per_second": 160.783,
+      "eval_steps_per_second": 10.139,
+      "step": 4300
+    },
+    {
+      "epoch": 7.82,
+      "learning_rate": 1.543010752688172e-06,
+      "loss": 0.0265,
+      "step": 4400
+    },
+    {
+      "epoch": 7.82,
+      "eval_accuracy": 0.8128128051757812,
+      "eval_loss": 1.3976863622665405,
+      "eval_runtime": 6.224,
+      "eval_samples_per_second": 160.508,
+      "eval_steps_per_second": 10.122,
+      "step": 4400
+    },
+    {
+      "epoch": 7.99,
+      "learning_rate": 1.417562724014337e-06,
+      "loss": 0.0257,
+      "step": 4500
+    },
+    {
+      "epoch": 7.99,
+      "eval_accuracy": 0.8108108043670654,
+      "eval_loss": 1.370467185974121,
+      "eval_runtime": 6.2313,
+      "eval_samples_per_second": 160.321,
+      "eval_steps_per_second": 10.11,
+      "step": 4500
+    },
+    {
+      "epoch": 8.17,
+      "learning_rate": 1.2921146953405017e-06,
+      "loss": 0.0036,
+      "step": 4600
+    },
+    {
+      "epoch": 8.17,
+      "eval_accuracy": 0.8168168067932129,
+      "eval_loss": 1.4352822303771973,
+      "eval_runtime": 6.2072,
+      "eval_samples_per_second": 160.943,
+      "eval_steps_per_second": 10.15,
+      "step": 4600
+    },
+    {
+      "epoch": 8.35,
+      "learning_rate": 1.1666666666666666e-06,
+      "loss": 0.0269,
+      "step": 4700
+    },
+    {
+      "epoch": 8.35,
+      "eval_accuracy": 0.8068068027496338,
+      "eval_loss": 1.4826140403747559,
+      "eval_runtime": 6.2178,
+      "eval_samples_per_second": 160.669,
+      "eval_steps_per_second": 10.132,
+      "step": 4700
+    },
+    {
+      "epoch": 8.53,
+      "learning_rate": 1.0412186379928315e-06,
+      "loss": 0.0231,
+      "step": 4800
+    },
+    {
+      "epoch": 8.53,
+      "eval_accuracy": 0.8118118047714233,
+      "eval_loss": 1.4810999631881714,
+      "eval_runtime": 6.3061,
+      "eval_samples_per_second": 158.417,
+      "eval_steps_per_second": 9.99,
+      "step": 4800
+    },
+    {
+      "epoch": 8.7,
+      "learning_rate": 9.157706093189965e-07,
+      "loss": 0.0204,
+      "step": 4900
+    },
+    {
+      "epoch": 8.7,
+      "eval_accuracy": 0.8028028011322021,
+      "eval_loss": 1.5245323181152344,
+      "eval_runtime": 6.2057,
+      "eval_samples_per_second": 160.982,
+      "eval_steps_per_second": 10.152,
+      "step": 4900
+    },
+    {
+      "epoch": 8.88,
+      "learning_rate": 7.903225806451612e-07,
+      "loss": 0.0263,
+      "step": 5000
+    },
+    {
+      "epoch": 8.88,
+      "eval_accuracy": 0.8018018007278442,
+      "eval_loss": 1.5123308897018433,
+      "eval_runtime": 6.2053,
+      "eval_samples_per_second": 160.991,
+      "eval_steps_per_second": 10.153,
+      "step": 5000
+    },
+    {
+      "epoch": 9.06,
+      "learning_rate": 6.648745519713261e-07,
+      "loss": 0.0138,
+      "step": 5100
+    },
+    {
+      "epoch": 9.06,
+      "eval_accuracy": 0.8028028011322021,
+      "eval_loss": 1.51128089427948,
+      "eval_runtime": 6.2898,
+      "eval_samples_per_second": 158.83,
+      "eval_steps_per_second": 10.016,
+      "step": 5100
+    },
+    {
+      "epoch": 9.24,
+      "learning_rate": 5.39426523297491e-07,
+      "loss": 0.0089,
+      "step": 5200
+    },
+    {
+      "epoch": 9.24,
+      "eval_accuracy": 0.7977977991104126,
+      "eval_loss": 1.5846397876739502,
+      "eval_runtime": 6.2124,
+      "eval_samples_per_second": 160.808,
+      "eval_steps_per_second": 10.141,
+      "step": 5200
+    },
+    {
+      "epoch": 9.41,
+      "learning_rate": 4.1397849462365595e-07,
+      "loss": 0.029,
+      "step": 5300
+    },
+    {
+      "epoch": 9.41,
+      "eval_accuracy": 0.8008008003234863,
+      "eval_loss": 1.5361814498901367,
+      "eval_runtime": 6.2541,
+      "eval_samples_per_second": 159.736,
+      "eval_steps_per_second": 10.073,
+      "step": 5300
+    },
+    {
+      "epoch": 9.59,
+      "learning_rate": 2.8853046594982076e-07,
+      "loss": 0.0058,
+      "step": 5400
+    },
+    {
+      "epoch": 9.59,
+      "eval_accuracy": 0.8018018007278442,
+      "eval_loss": 1.5759379863739014,
+      "eval_runtime": 6.221,
+      "eval_samples_per_second": 160.585,
+      "eval_steps_per_second": 10.127,
+      "step": 5400
+    },
+    {
+      "epoch": 9.77,
+      "learning_rate": 1.6308243727598568e-07,
+      "loss": 0.0084,
+      "step": 5500
+    },
+    {
+      "epoch": 9.77,
+      "eval_accuracy": 0.8018018007278442,
+      "eval_loss": 1.5678976774215698,
+      "eval_runtime": 6.2009,
+      "eval_samples_per_second": 161.105,
+      "eval_steps_per_second": 10.16,
+      "step": 5500
+    },
+    {
+      "epoch": 9.95,
+      "learning_rate": 3.763440860215054e-08,
+      "loss": 0.0065,
+      "step": 5600
+    },
+    {
+      "epoch": 9.95,
+      "eval_accuracy": 0.8028028011322021,
+      "eval_loss": 1.568334937095642,
+      "eval_runtime": 6.2439,
+      "eval_samples_per_second": 159.996,
+      "eval_steps_per_second": 10.09,
+      "step": 5600
+    },
+    {
+      "epoch": 10.0,
+      "step": 5630,
+      "total_flos": 4.193719446528e+16,
+      "train_loss": 0.13640729715885533,
+      "train_runtime": 2182.3127,
+      "train_samples_per_second": 41.241,
+      "train_steps_per_second": 2.58
+    }
+  ],
+  "max_steps": 5630,
+  "num_train_epochs": 10,
+  "total_flos": 4.193719446528e+16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:905229a66e041e28383381e29a8c40d438d511982854d7195ae501648f5d83ad
+size 3311