adding model

Files changed (13) hide show

README.md +238 -0
all_results.json +15 -0
config.json +82 -0
eval_results.json +10 -0
merges.txt +0 -0
pytorch_model.bin +3 -0
special_tokens_map.json +5 -0
tokenizer.json +0 -0
tokenizer_config.json +34 -0
train_results.json +8 -0
trainer_state.json +1819 -0
training_args.bin +3 -0
vocab.json +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,238 @@

+---
+license: apache-2.0
+tags:
+- generated_from_trainer
+metrics:
+- accuracy
+model-index:
+- name: output
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# output
+This model is a fine-tuned version of [EleutherAI/gpt-neo-2.7B](https://huggingface.co/EleutherAI/gpt-neo-2.7B) on the [Lila dataset](https://github.com/allenai/Lila).
+It achieves the following results on the evaluation set:
+- Loss: 0.5884
+- Accuracy: 0.8664
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 4
+- eval_batch_size: 4
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 2
+- total_train_batch_size: 8
+- total_eval_batch_size: 8
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 10.0
+### Training results
+| Training Loss | Epoch | Step  | Validation Loss | Accuracy |
+|:-------------:|:-----:|:-----:|:---------------:|:--------:|
+| No log        | 0.06  | 100   | 0.7930          | 0.8214   |
+| No log        | 0.11  | 200   | 0.7544          | 0.8290   |
+| No log        | 0.17  | 300   | 0.7358          | 0.8328   |
+| No log        | 0.23  | 400   | 0.7192          | 0.8357   |
+| 0.8156        | 0.28  | 500   | 0.7012          | 0.8397   |
+| 0.8156        | 0.34  | 600   | 0.6904          | 0.8419   |
+| 0.8156        | 0.4   | 700   | 0.6802          | 0.8440   |
+| 0.8156        | 0.45  | 800   | 0.6670          | 0.8465   |
+| 0.8156        | 0.51  | 900   | 0.6572          | 0.8486   |
+| 0.7219        | 0.57  | 1000  | 0.6499          | 0.8500   |
+| 0.7219        | 0.62  | 1100  | 0.6411          | 0.8522   |
+| 0.7219        | 0.68  | 1200  | 0.6343          | 0.8537   |
+| 0.7219        | 0.74  | 1300  | 0.6299          | 0.8546   |
+| 0.7219        | 0.79  | 1400  | 0.6221          | 0.8561   |
+| 0.662         | 0.85  | 1500  | 0.6157          | 0.8574   |
+| 0.662         | 0.91  | 1600  | 0.6138          | 0.8579   |
+| 0.662         | 0.96  | 1700  | 0.6055          | 0.8595   |
+| 0.662         | 1.02  | 1800  | 0.6143          | 0.8598   |
+| 0.662         | 1.08  | 1900  | 0.6191          | 0.8599   |
+| 0.5707        | 1.14  | 2000  | 0.6118          | 0.8607   |
+| 0.5707        | 1.19  | 2100  | 0.6123          | 0.8611   |
+| 0.5707        | 1.25  | 2200  | 0.6089          | 0.8617   |
+| 0.5707        | 1.31  | 2300  | 0.6064          | 0.8619   |
+| 0.5707        | 1.36  | 2400  | 0.6079          | 0.8625   |
+| 0.4923        | 1.42  | 2500  | 0.6040          | 0.8625   |
+| 0.4923        | 1.48  | 2600  | 0.6030          | 0.8630   |
+| 0.4923        | 1.53  | 2700  | 0.6021          | 0.8636   |
+| 0.4923        | 1.59  | 2800  | 0.6001          | 0.8643   |
+| 0.4923        | 1.65  | 2900  | 0.5981          | 0.8644   |
+| 0.4909        | 1.7   | 3000  | 0.5942          | 0.8648   |
+| 0.4909        | 1.76  | 3100  | 0.5918          | 0.8650   |
+| 0.4909        | 1.82  | 3200  | 0.5923          | 0.8659   |
+| 0.4909        | 1.87  | 3300  | 0.5884          | 0.8664   |
+| 0.4909        | 1.93  | 3400  | 0.5884          | 0.8663   |
+| 0.4964        | 1.99  | 3500  | 0.5903          | 0.8669   |
+| 0.4964        | 2.04  | 3600  | 0.6421          | 0.8655   |
+| 0.4964        | 2.1   | 3700  | 0.6401          | 0.8651   |
+| 0.4964        | 2.16  | 3800  | 0.6411          | 0.8649   |
+| 0.4964        | 2.21  | 3900  | 0.6387          | 0.8645   |
+| 0.345         | 2.27  | 4000  | 0.6362          | 0.8654   |
+| 0.345         | 2.33  | 4100  | 0.6362          | 0.8654   |
+| 0.345         | 2.38  | 4200  | 0.6362          | 0.8654   |
+| 0.345         | 2.44  | 4300  | 0.6357          | 0.8655   |
+| 0.345         | 2.5   | 4400  | 0.6362          | 0.8656   |
+| 0.3463        | 2.55  | 4500  | 0.6377          | 0.8658   |
+| 0.3463        | 2.61  | 4600  | 0.6357          | 0.8660   |
+| 0.3463        | 2.67  | 4700  | 0.6294          | 0.8665   |
+| 0.3463        | 2.72  | 4800  | 0.6333          | 0.8665   |
+| 0.3463        | 2.78  | 4900  | 0.6362          | 0.8662   |
+| 0.3508        | 2.84  | 5000  | 0.6357          | 0.8666   |
+| 0.3508        | 2.89  | 5100  | 0.6299          | 0.8673   |
+| 0.3508        | 2.95  | 5200  | 0.6313          | 0.8668   |
+| 0.3508        | 3.01  | 5300  | 0.7188          | 0.8646   |
+| 0.3508        | 3.06  | 5400  | 0.7017          | 0.8656   |
+| 0.295         | 3.12  | 5500  | 0.6982          | 0.8653   |
+| 0.295         | 3.18  | 5600  | 0.7031          | 0.8655   |
+| 0.295         | 3.23  | 5700  | 0.6992          | 0.8651   |
+| 0.295         | 3.29  | 5800  | 0.6997          | 0.8653   |
+| 0.295         | 3.35  | 5900  | 0.7041          | 0.8651   |
+| 0.2348        | 3.41  | 6000  | 0.7075          | 0.8649   |
+| 0.2348        | 3.46  | 6100  | 0.6992          | 0.8650   |
+| 0.2348        | 3.52  | 6200  | 0.7065          | 0.8647   |
+| 0.2348        | 3.58  | 6300  | 0.6997          | 0.8652   |
+| 0.2348        | 3.63  | 6400  | 0.7026          | 0.8651   |
+| 0.2411        | 3.69  | 6500  | 0.7046          | 0.8656   |
+| 0.2411        | 3.75  | 6600  | 0.7007          | 0.8655   |
+| 0.2411        | 3.8   | 6700  | 0.7026          | 0.8651   |
+| 0.2411        | 3.86  | 6800  | 0.7031          | 0.8655   |
+| 0.2411        | 3.92  | 6900  | 0.7012          | 0.8658   |
+| 0.251         | 3.97  | 7000  | 0.7051          | 0.8656   |
+| 0.251         | 4.03  | 7100  | 0.7607          | 0.8650   |
+| 0.251         | 4.09  | 7200  | 0.7632          | 0.8656   |
+| 0.251         | 4.14  | 7300  | 0.7588          | 0.8655   |
+| 0.251         | 4.2   | 7400  | 0.7578          | 0.8651   |
+| 0.1797        | 4.26  | 7500  | 0.7710          | 0.8645   |
+| 0.1797        | 4.31  | 7600  | 0.7627          | 0.8648   |
+| 0.1797        | 4.37  | 7700  | 0.7583          | 0.8650   |
+| 0.1797        | 4.43  | 7800  | 0.7646          | 0.8649   |
+| 0.1797        | 4.48  | 7900  | 0.7598          | 0.8646   |
+| 0.1784        | 4.54  | 8000  | 0.7656          | 0.8650   |
+| 0.1784        | 4.6   | 8100  | 0.7617          | 0.8648   |
+| 0.1784        | 4.65  | 8200  | 0.7573          | 0.8651   |
+| 0.1784        | 4.71  | 8300  | 0.7671          | 0.8648   |
+| 0.1784        | 4.77  | 8400  | 0.7563          | 0.8651   |
+| 0.1827        | 4.82  | 8500  | 0.7651          | 0.8649   |
+| 0.1827        | 4.88  | 8600  | 0.7637          | 0.8650   |
+| 0.1827        | 4.94  | 8700  | 0.7607          | 0.8654   |
+| 0.1827        | 4.99  | 8800  | 0.7607          | 0.8650   |
+| 0.1827        | 5.05  | 8900  | 0.8149          | 0.8646   |
+| 0.167         | 5.11  | 9000  | 0.8081          | 0.8648   |
+| 0.167         | 5.16  | 9100  | 0.8184          | 0.8644   |
+| 0.167         | 5.22  | 9200  | 0.8140          | 0.8647   |
+| 0.167         | 5.28  | 9300  | 0.8169          | 0.8644   |
+| 0.167         | 5.33  | 9400  | 0.8120          | 0.8645   |
+| 0.1371        | 5.39  | 9500  | 0.8154          | 0.8643   |
+| 0.1371        | 5.45  | 9600  | 0.8179          | 0.8642   |
+| 0.1371        | 5.51  | 9700  | 0.8154          | 0.8643   |
+| 0.1371        | 5.56  | 9800  | 0.8120          | 0.8645   |
+| 0.1371        | 5.62  | 9900  | 0.8110          | 0.8650   |
+| 0.1425        | 5.68  | 10000 | 0.8159          | 0.8645   |
+| 0.1425        | 5.73  | 10100 | 0.8174          | 0.8646   |
+| 0.1425        | 5.79  | 10200 | 0.8159          | 0.8649   |
+| 0.1425        | 5.85  | 10300 | 0.8110          | 0.8639   |
+| 0.1425        | 5.9   | 10400 | 0.8135          | 0.8645   |
+| 0.1505        | 5.96  | 10500 | 0.8140          | 0.8642   |
+| 0.1505        | 6.02  | 10600 | 0.8628          | 0.8640   |
+| 0.1505        | 6.07  | 10700 | 0.8540          | 0.8644   |
+| 0.1505        | 6.13  | 10800 | 0.8530          | 0.8642   |
+| 0.1505        | 6.19  | 10900 | 0.8560          | 0.8647   |
+| 0.1086        | 6.24  | 11000 | 0.8555          | 0.8649   |
+| 0.1086        | 6.3   | 11100 | 0.8604          | 0.8644   |
+| 0.1086        | 6.36  | 11200 | 0.8569          | 0.8642   |
+| 0.1086        | 6.41  | 11300 | 0.8530          | 0.8639   |
+| 0.1086        | 6.47  | 11400 | 0.8589          | 0.8643   |
+| 0.1076        | 6.53  | 11500 | 0.8525          | 0.8639   |
+| 0.1076        | 6.58  | 11600 | 0.8579          | 0.8640   |
+| 0.1076        | 6.64  | 11700 | 0.8594          | 0.8640   |
+| 0.1076        | 6.7   | 11800 | 0.8599          | 0.8643   |
+| 0.1076        | 6.75  | 11900 | 0.8564          | 0.8640   |
+| 0.1109        | 6.81  | 12000 | 0.8633          | 0.8640   |
+| 0.1109        | 6.87  | 12100 | 0.8584          | 0.8638   |
+| 0.1109        | 6.92  | 12200 | 0.8647          | 0.8636   |
+| 0.1109        | 6.98  | 12300 | 0.8599          | 0.8635   |
+| 0.1109        | 7.04  | 12400 | 0.8979          | 0.8632   |
+| 0.1028        | 7.09  | 12500 | 0.8936          | 0.8635   |
+| 0.1028        | 7.15  | 12600 | 0.9043          | 0.8637   |
+| 0.1028        | 7.21  | 12700 | 0.8989          | 0.8642   |
+| 0.1028        | 7.26  | 12800 | 0.8936          | 0.8642   |
+| 0.1028        | 7.32  | 12900 | 0.8921          | 0.8641   |
+| 0.0774        | 7.38  | 13000 | 0.8955          | 0.8634   |
+| 0.0774        | 7.43  | 13100 | 0.8950          | 0.8636   |
+| 0.0774        | 7.49  | 13200 | 0.8994          | 0.8635   |
+| 0.0774        | 7.55  | 13300 | 0.8999          | 0.8635   |
+| 0.0774        | 7.6   | 13400 | 0.8936          | 0.8631   |
+| 0.0852        | 7.66  | 13500 | 0.9048          | 0.8634   |
+| 0.0852        | 7.72  | 13600 | 0.8960          | 0.8632   |
+| 0.0852        | 7.78  | 13700 | 0.9023          | 0.8635   |
+| 0.0852        | 7.83  | 13800 | 0.8984          | 0.8638   |
+| 0.0852        | 7.89  | 13900 | 0.9019          | 0.8635   |
+| 0.0879        | 7.95  | 14000 | 0.9014          | 0.8634   |
+| 0.0879        | 8.0   | 14100 | 0.9136          | 0.8630   |
+| 0.0879        | 8.06  | 14200 | 0.9312          | 0.8639   |
+| 0.0879        | 8.12  | 14300 | 0.9346          | 0.8635   |
+| 0.0879        | 8.17  | 14400 | 0.9307          | 0.8635   |
+| 0.0611        | 8.23  | 14500 | 0.9419          | 0.8641   |
+| 0.0611        | 8.29  | 14600 | 0.9331          | 0.8631   |
+| 0.0611        | 8.34  | 14700 | 0.9375          | 0.8636   |
+| 0.0611        | 8.4   | 14800 | 0.9292          | 0.8626   |
+| 0.0611        | 8.46  | 14900 | 0.9458          | 0.8637   |
+| 0.061         | 8.51  | 15000 | 0.9336          | 0.8634   |
+| 0.061         | 8.57  | 15100 | 0.9409          | 0.8630   |
+| 0.061         | 8.63  | 15200 | 0.9390          | 0.8632   |
+| 0.061         | 8.68  | 15300 | 0.9375          | 0.8628   |
+| 0.061         | 8.74  | 15400 | 0.9365          | 0.8630   |
+| 0.0646        | 8.8   | 15500 | 0.9370          | 0.8628   |
+| 0.0646        | 8.85  | 15600 | 0.9355          | 0.8629   |
+| 0.0646        | 8.91  | 15700 | 0.9375          | 0.8632   |
+| 0.0646        | 8.97  | 15800 | 0.9390          | 0.8630   |
+| 0.0646        | 9.02  | 15900 | 0.9717          | 0.8630   |
+| 0.0593        | 9.08  | 16000 | 0.9673          | 0.8626   |
+| 0.0593        | 9.14  | 16100 | 0.9644          | 0.8630   |
+| 0.0593        | 9.19  | 16200 | 0.9624          | 0.8631   |
+| 0.0593        | 9.25  | 16300 | 0.9648          | 0.8633   |
+| 0.0593        | 9.31  | 16400 | 0.9673          | 0.8632   |
+| 0.0415        | 9.36  | 16500 | 0.9658          | 0.8633   |
+| 0.0415        | 9.42  | 16600 | 0.9688          | 0.8628   |
+| 0.0415        | 9.48  | 16700 | 0.9653          | 0.8632   |
+| 0.0415        | 9.53  | 16800 | 0.9658          | 0.8628   |
+| 0.0415        | 9.59  | 16900 | 0.9668          | 0.8629   |
+| 0.0471        | 9.65  | 17000 | 0.9604          | 0.8625   |
+| 0.0471        | 9.7   | 17100 | 0.9658          | 0.8621   |
+| 0.0471        | 9.76  | 17200 | 0.9731          | 0.8630   |
+| 0.0471        | 9.82  | 17300 | 0.9692          | 0.8626   |
+| 0.0471        | 9.88  | 17400 | 0.9673          | 0.8623   |
+| 0.0528        | 9.93  | 17500 | 0.9614          | 0.8620   |
+| 0.0528        | 9.99  | 17600 | 0.9697          | 0.8621   |
+### Framework versions
+- Transformers 4.21.0.dev0
+- Pytorch 1.12.1+cu113
+- Datasets 2.4.0
+- Tokenizers 0.12.1

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 10.0,
+    "eval_accuracy": 0.8663780555904803,
+    "eval_loss": 0.58837890625,
+    "eval_runtime": 291.8211,
+    "eval_samples": 4315,
+    "eval_samples_per_second": 14.786,
+    "eval_steps_per_second": 1.85,
+    "perplexity": 1.8010663501633464,
+    "train_loss": 0.2421213565700847,
+    "train_runtime": 122603.1424,
+    "train_samples": 14090,
+    "train_samples_per_second": 1.149,
+    "train_steps_per_second": 0.144
+}

config.json ADDED Viewed

	@@ -0,0 +1,82 @@

+{
+  "_name_or_path": "EleutherAI/gpt-neo-2.7B",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPTNeoForCausalLM"
+  ],
+  "attention_dropout": 0,
+  "attention_layers": [
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local"
+  ],
+  "attention_types": [
+    [
+      [
+        "global",
+        "local"
+      ],
+      16
+    ]
+  ],
+  "bos_token_id": 50256,
+  "embed_dropout": 0,
+  "eos_token_id": 50256,
+  "gradient_checkpointing": false,
+  "hidden_size": 2560,
+  "initializer_range": 0.02,
+  "intermediate_size": null,
+  "layer_norm_epsilon": 1e-05,
+  "max_position_embeddings": 2048,
+  "model_type": "gpt_neo",
+  "num_heads": 20,
+  "num_layers": 32,
+  "resid_dropout": 0,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50,
+      "temperature": 0.9
+    }
+  },
+  "tokenizer_class": "GPT2Tokenizer",
+  "torch_dtype": "float16",
+  "transformers_version": "4.21.0.dev0",
+  "use_cache": true,
+  "vocab_size": 50257,
+  "window_size": 256
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 10.0,
+    "eval_accuracy": 0.8663780555904803,
+    "eval_loss": 0.58837890625,
+    "eval_runtime": 291.8211,
+    "eval_samples": 4315,
+    "eval_samples_per_second": 14.786,
+    "eval_steps_per_second": 1.85,
+    "perplexity": 1.8010663501633464
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:078fb54c98e33d61f8d121f0b99e7bbbe3d79b6dd9f40fe7c021bedf08162fdf
+size 5436910218

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "errors": "replace",
+  "model_max_length": 2048,
+  "name_or_path": "EleutherAI/gpt-neo-2.7B",
+  "pad_token": null,
+  "special_tokens_map_file": null,
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 10.0,
+    "train_loss": 0.2421213565700847,
+    "train_runtime": 122603.1424,
+    "train_samples": 14090,
+    "train_samples_per_second": 1.149,
+    "train_steps_per_second": 0.144
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1819 @@

+{
+  "best_metric": 0.58837890625,
+  "best_model_checkpoint": "/output/checkpoint-3300",
+  "epoch": 10.0,
+  "global_step": 17620,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06,
+      "eval_accuracy": 0.8214358287770616,
+      "eval_loss": 0.79296875,
+      "eval_runtime": 301.7299,
+      "eval_samples_per_second": 14.301,
+      "eval_steps_per_second": 1.79,
+      "step": 100
+    },
+    {
+      "epoch": 0.11,
+      "eval_accuracy": 0.828983212304709,
+      "eval_loss": 0.75439453125,
+      "eval_runtime": 295.5652,
+      "eval_samples_per_second": 14.599,
+      "eval_steps_per_second": 1.827,
+      "step": 200
+    },
+    {
+      "epoch": 0.17,
+      "eval_accuracy": 0.83275463867547,
+      "eval_loss": 0.73583984375,
+      "eval_runtime": 297.8323,
+      "eval_samples_per_second": 14.488,
+      "eval_steps_per_second": 1.813,
+      "step": 300
+    },
+    {
+      "epoch": 0.23,
+      "eval_accuracy": 0.8357279670702464,
+      "eval_loss": 0.71923828125,
+      "eval_runtime": 297.4382,
+      "eval_samples_per_second": 14.507,
+      "eval_steps_per_second": 1.816,
+      "step": 400
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 5e-05,
+      "loss": 0.8156,
+      "step": 500
+    },
+    {
+      "epoch": 0.28,
+      "eval_accuracy": 0.8396754144819782,
+      "eval_loss": 0.701171875,
+      "eval_runtime": 295.955,
+      "eval_samples_per_second": 14.58,
+      "eval_steps_per_second": 1.825,
+      "step": 500
+    },
+    {
+      "epoch": 0.34,
+      "eval_accuracy": 0.8418578941585707,
+      "eval_loss": 0.6904296875,
+      "eval_runtime": 305.3997,
+      "eval_samples_per_second": 14.129,
+      "eval_steps_per_second": 1.768,
+      "step": 600
+    },
+    {
+      "epoch": 0.4,
+      "eval_accuracy": 0.8439807939976145,
+      "eval_loss": 0.68017578125,
+      "eval_runtime": 303.944,
+      "eval_samples_per_second": 14.197,
+      "eval_steps_per_second": 1.777,
+      "step": 700
+    },
+    {
+      "epoch": 0.45,
+      "eval_accuracy": 0.8464999110833223,
+      "eval_loss": 0.6669921875,
+      "eval_runtime": 297.0827,
+      "eval_samples_per_second": 14.525,
+      "eval_steps_per_second": 1.818,
+      "step": 800
+    },
+    {
+      "epoch": 0.51,
+      "eval_accuracy": 0.8485815807686252,
+      "eval_loss": 0.6572265625,
+      "eval_runtime": 292.5803,
+      "eval_samples_per_second": 14.748,
+      "eval_steps_per_second": 1.846,
+      "step": 900
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 5e-05,
+      "loss": 0.7219,
+      "step": 1000
+    },
+    {
+      "epoch": 0.57,
+      "eval_accuracy": 0.8500273546212319,
+      "eval_loss": 0.64990234375,
+      "eval_runtime": 292.7704,
+      "eval_samples_per_second": 14.739,
+      "eval_steps_per_second": 1.844,
+      "step": 1000
+    },
+    {
+      "epoch": 0.62,
+      "eval_accuracy": 0.8521808372666221,
+      "eval_loss": 0.64111328125,
+      "eval_runtime": 292.5084,
+      "eval_samples_per_second": 14.752,
+      "eval_steps_per_second": 1.846,
+      "step": 1100
+    },
+    {
+      "epoch": 0.68,
+      "eval_accuracy": 0.853712016437692,
+      "eval_loss": 0.63427734375,
+      "eval_runtime": 292.6573,
+      "eval_samples_per_second": 14.744,
+      "eval_steps_per_second": 1.845,
+      "step": 1200
+    },
+    {
+      "epoch": 0.74,
+      "eval_accuracy": 0.8545884970136456,
+      "eval_loss": 0.6298828125,
+      "eval_runtime": 291.6972,
+      "eval_samples_per_second": 14.793,
+      "eval_steps_per_second": 1.851,
+      "step": 1300
+    },
+    {
+      "epoch": 0.79,
+      "eval_accuracy": 0.856088866839063,
+      "eval_loss": 0.6220703125,
+      "eval_runtime": 291.6264,
+      "eval_samples_per_second": 14.796,
+      "eval_steps_per_second": 1.852,
+      "step": 1400
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 5e-05,
+      "loss": 0.662,
+      "step": 1500
+    },
+    {
+      "epoch": 0.85,
+      "eval_accuracy": 0.857388975917739,
+      "eval_loss": 0.61572265625,
+      "eval_runtime": 292.8293,
+      "eval_samples_per_second": 14.736,
+      "eval_steps_per_second": 1.844,
+      "step": 1500
+    },
+    {
+      "epoch": 0.91,
+      "eval_accuracy": 0.8579150001868949,
+      "eval_loss": 0.61376953125,
+      "eval_runtime": 292.6424,
+      "eval_samples_per_second": 14.745,
+      "eval_steps_per_second": 1.845,
+      "step": 1600
+    },
+    {
+      "epoch": 0.96,
+      "eval_accuracy": 0.8595497078209298,
+      "eval_loss": 0.60546875,
+      "eval_runtime": 292.7935,
+      "eval_samples_per_second": 14.737,
+      "eval_steps_per_second": 1.844,
+      "step": 1700
+    },
+    {
+      "epoch": 1.02,
+      "eval_accuracy": 0.8597678651728665,
+      "eval_loss": 0.6142578125,
+      "eval_runtime": 292.6887,
+      "eval_samples_per_second": 14.743,
+      "eval_steps_per_second": 1.845,
+      "step": 1800
+    },
+    {
+      "epoch": 1.08,
+      "eval_accuracy": 0.8598800021294695,
+      "eval_loss": 0.619140625,
+      "eval_runtime": 291.7039,
+      "eval_samples_per_second": 14.792,
+      "eval_steps_per_second": 1.851,
+      "step": 1900
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 5e-05,
+      "loss": 0.5707,
+      "step": 2000
+    },
+    {
+      "epoch": 1.14,
+      "eval_accuracy": 0.8606622423540152,
+      "eval_loss": 0.61181640625,
+      "eval_runtime": 292.661,
+      "eval_samples_per_second": 14.744,
+      "eval_steps_per_second": 1.845,
+      "step": 2000
+    },
+    {
+      "epoch": 1.19,
+      "eval_accuracy": 0.8611497549411055,
+      "eval_loss": 0.6123046875,
+      "eval_runtime": 292.734,
+      "eval_samples_per_second": 14.74,
+      "eval_steps_per_second": 1.845,
+      "step": 2100
+    },
+    {
+      "epoch": 1.25,
+      "eval_accuracy": 0.8616524456617156,
+      "eval_loss": 0.60888671875,
+      "eval_runtime": 291.6011,
+      "eval_samples_per_second": 14.798,
+      "eval_steps_per_second": 1.852,
+      "step": 2200
+    },
+    {
+      "epoch": 1.31,
+      "eval_accuracy": 0.8618950692587294,
+      "eval_loss": 0.6064453125,
+      "eval_runtime": 291.5809,
+      "eval_samples_per_second": 14.799,
+      "eval_steps_per_second": 1.852,
+      "step": 2300
+    },
+    {
+      "epoch": 1.36,
+      "eval_accuracy": 0.8625089907787176,
+      "eval_loss": 0.60791015625,
+      "eval_runtime": 292.7393,
+      "eval_samples_per_second": 14.74,
+      "eval_steps_per_second": 1.845,
+      "step": 2400
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 5e-05,
+      "loss": 0.4923,
+      "step": 2500
+    },
+    {
+      "epoch": 1.42,
+      "eval_accuracy": 0.8624713852538769,
+      "eval_loss": 0.60400390625,
+      "eval_runtime": 292.7894,
+      "eval_samples_per_second": 14.738,
+      "eval_steps_per_second": 1.844,
+      "step": 2500
+    },
+    {
+      "epoch": 1.48,
+      "eval_accuracy": 0.8630089630276525,
+      "eval_loss": 0.60302734375,
+      "eval_runtime": 291.5842,
+      "eval_samples_per_second": 14.798,
+      "eval_steps_per_second": 1.852,
+      "step": 2600
+    },
+    {
+      "epoch": 1.53,
+      "eval_accuracy": 0.8636167679863714,
+      "eval_loss": 0.60205078125,
+      "eval_runtime": 291.6586,
+      "eval_samples_per_second": 14.795,
+      "eval_steps_per_second": 1.851,
+      "step": 2700
+    },
+    {
+      "epoch": 1.59,
+      "eval_accuracy": 0.8643006901519965,
+      "eval_loss": 0.60009765625,
+      "eval_runtime": 291.5536,
+      "eval_samples_per_second": 14.8,
+      "eval_steps_per_second": 1.852,
+      "step": 2800
+    },
+    {
+      "epoch": 1.65,
+      "eval_accuracy": 0.864360949607464,
+      "eval_loss": 0.59814453125,
+      "eval_runtime": 292.9127,
+      "eval_samples_per_second": 14.731,
+      "eval_steps_per_second": 1.844,
+      "step": 2900
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 5e-05,
+      "loss": 0.4909,
+      "step": 3000
+    },
+    {
+      "epoch": 1.7,
+      "eval_accuracy": 0.8647961316148062,
+      "eval_loss": 0.59423828125,
+      "eval_runtime": 292.7189,
+      "eval_samples_per_second": 14.741,
+      "eval_steps_per_second": 1.845,
+      "step": 3000
+    },
+    {
+      "epoch": 1.76,
+      "eval_accuracy": 0.8649898227216659,
+      "eval_loss": 0.591796875,
+      "eval_runtime": 291.4828,
+      "eval_samples_per_second": 14.804,
+      "eval_steps_per_second": 1.853,
+      "step": 3100
+    },
+    {
+      "epoch": 1.82,
+      "eval_accuracy": 0.8659145561698547,
+      "eval_loss": 0.59228515625,
+      "eval_runtime": 291.6085,
+      "eval_samples_per_second": 14.797,
+      "eval_steps_per_second": 1.852,
+      "step": 3200
+    },
+    {
+      "epoch": 1.87,
+      "eval_accuracy": 0.8663780555904803,
+      "eval_loss": 0.58837890625,
+      "eval_runtime": 291.6163,
+      "eval_samples_per_second": 14.797,
+      "eval_steps_per_second": 1.852,
+      "step": 3300
+    },
+    {
+      "epoch": 1.93,
+      "eval_accuracy": 0.8662514201182762,
+      "eval_loss": 0.58837890625,
+      "eval_runtime": 291.7936,
+      "eval_samples_per_second": 14.788,
+      "eval_steps_per_second": 1.851,
+      "step": 3400
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 5e-05,
+      "loss": 0.4964,
+      "step": 3500
+    },
+    {
+      "epoch": 1.99,
+      "eval_accuracy": 0.8669489346422774,
+      "eval_loss": 0.59033203125,
+      "eval_runtime": 291.5679,
+      "eval_samples_per_second": 14.799,
+      "eval_steps_per_second": 1.852,
+      "step": 3500
+    },
+    {
+      "epoch": 2.04,
+      "eval_accuracy": 0.8654691798937304,
+      "eval_loss": 0.64208984375,
+      "eval_runtime": 291.7326,
+      "eval_samples_per_second": 14.791,
+      "eval_steps_per_second": 1.851,
+      "step": 3600
+    },
+    {
+      "epoch": 2.1,
+      "eval_accuracy": 0.8650994677459,
+      "eval_loss": 0.64013671875,
+      "eval_runtime": 293.0337,
+      "eval_samples_per_second": 14.725,
+      "eval_steps_per_second": 1.843,
+      "step": 3700
+    },
+    {
+      "epoch": 2.16,
+      "eval_accuracy": 0.8649474598713937,
+      "eval_loss": 0.64111328125,
+      "eval_runtime": 291.5404,
+      "eval_samples_per_second": 14.801,
+      "eval_steps_per_second": 1.852,
+      "step": 3800
+    },
+    {
+      "epoch": 2.21,
+      "eval_accuracy": 0.8645410483559476,
+      "eval_loss": 0.638671875,
+      "eval_runtime": 291.6679,
+      "eval_samples_per_second": 14.794,
+      "eval_steps_per_second": 1.851,
+      "step": 3900
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 5e-05,
+      "loss": 0.345,
+      "step": 4000
+    },
+    {
+      "epoch": 2.27,
+      "eval_accuracy": 0.8653572694764337,
+      "eval_loss": 0.63623046875,
+      "eval_runtime": 291.7901,
+      "eval_samples_per_second": 14.788,
+      "eval_steps_per_second": 1.851,
+      "step": 4000
+    },
+    {
+      "epoch": 2.33,
+      "eval_accuracy": 0.8654186616284325,
+      "eval_loss": 0.63623046875,
+      "eval_runtime": 291.6935,
+      "eval_samples_per_second": 14.793,
+      "eval_steps_per_second": 1.851,
+      "step": 4100
+    },
+    {
+      "epoch": 2.38,
+      "eval_accuracy": 0.8653559102405961,
+      "eval_loss": 0.63623046875,
+      "eval_runtime": 291.8601,
+      "eval_samples_per_second": 14.784,
+      "eval_steps_per_second": 1.85,
+      "step": 4200
+    },
+    {
+      "epoch": 2.44,
+      "eval_accuracy": 0.8654696329723429,
+      "eval_loss": 0.6357421875,
+      "eval_runtime": 292.876,
+      "eval_samples_per_second": 14.733,
+      "eval_steps_per_second": 1.844,
+      "step": 4300
+    },
+    {
+      "epoch": 2.5,
+      "eval_accuracy": 0.8655647794809758,
+      "eval_loss": 0.63623046875,
+      "eval_runtime": 291.8742,
+      "eval_samples_per_second": 14.784,
+      "eval_steps_per_second": 1.85,
+      "step": 4400
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 5e-05,
+      "loss": 0.3463,
+      "step": 4500
+    },
+    {
+      "epoch": 2.55,
+      "eval_accuracy": 0.865790865708632,
+      "eval_loss": 0.6376953125,
+      "eval_runtime": 292.8657,
+      "eval_samples_per_second": 14.734,
+      "eval_steps_per_second": 1.844,
+      "step": 4500
+    },
+    {
+      "epoch": 2.61,
+      "eval_accuracy": 0.8660047188137496,
+      "eval_loss": 0.6357421875,
+      "eval_runtime": 292.8962,
+      "eval_samples_per_second": 14.732,
+      "eval_steps_per_second": 1.844,
+      "step": 4600
+    },
+    {
+      "epoch": 2.67,
+      "eval_accuracy": 0.8664827167499765,
+      "eval_loss": 0.62939453125,
+      "eval_runtime": 291.8634,
+      "eval_samples_per_second": 14.784,
+      "eval_steps_per_second": 1.85,
+      "step": 4700
+    },
+    {
+      "epoch": 2.72,
+      "eval_accuracy": 0.8664838494465078,
+      "eval_loss": 0.63330078125,
+      "eval_runtime": 292.9139,
+      "eval_samples_per_second": 14.731,
+      "eval_steps_per_second": 1.844,
+      "step": 4800
+    },
+    {
+      "epoch": 2.78,
+      "eval_accuracy": 0.8661707721252445,
+      "eval_loss": 0.63623046875,
+      "eval_runtime": 291.8657,
+      "eval_samples_per_second": 14.784,
+      "eval_steps_per_second": 1.85,
+      "step": 4900
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 5e-05,
+      "loss": 0.3508,
+      "step": 5000
+    },
+    {
+      "epoch": 2.84,
+      "eval_accuracy": 0.8666297407597449,
+      "eval_loss": 0.6357421875,
+      "eval_runtime": 291.8826,
+      "eval_samples_per_second": 14.783,
+      "eval_steps_per_second": 1.85,
+      "step": 5000
+    },
+    {
+      "epoch": 2.89,
+      "eval_accuracy": 0.8673172875542703,
+      "eval_loss": 0.6298828125,
+      "eval_runtime": 291.7729,
+      "eval_samples_per_second": 14.789,
+      "eval_steps_per_second": 1.851,
+      "step": 5100
+    },
+    {
+      "epoch": 2.95,
+      "eval_accuracy": 0.866801004475284,
+      "eval_loss": 0.63134765625,
+      "eval_runtime": 291.9322,
+      "eval_samples_per_second": 14.781,
+      "eval_steps_per_second": 1.85,
+      "step": 5200
+    },
+    {
+      "epoch": 3.01,
+      "eval_accuracy": 0.8646230555848169,
+      "eval_loss": 0.71875,
+      "eval_runtime": 291.8776,
+      "eval_samples_per_second": 14.784,
+      "eval_steps_per_second": 1.85,
+      "step": 5300
+    },
+    {
+      "epoch": 3.06,
+      "eval_accuracy": 0.8655867537936839,
+      "eval_loss": 0.70166015625,
+      "eval_runtime": 293.0438,
+      "eval_samples_per_second": 14.725,
+      "eval_steps_per_second": 1.843,
+      "step": 5400
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 5e-05,
+      "loss": 0.295,
+      "step": 5500
+    },
+    {
+      "epoch": 3.12,
+      "eval_accuracy": 0.8652775276406272,
+      "eval_loss": 0.6982421875,
+      "eval_runtime": 291.9251,
+      "eval_samples_per_second": 14.781,
+      "eval_steps_per_second": 1.85,
+      "step": 5500
+    },
+    {
+      "epoch": 3.18,
+      "eval_accuracy": 0.8654533221422916,
+      "eval_loss": 0.703125,
+      "eval_runtime": 292.9873,
+      "eval_samples_per_second": 14.728,
+      "eval_steps_per_second": 1.843,
+      "step": 5600
+    },
+    {
+      "epoch": 3.23,
+      "eval_accuracy": 0.8650992412065936,
+      "eval_loss": 0.69921875,
+      "eval_runtime": 293.1169,
+      "eval_samples_per_second": 14.721,
+      "eval_steps_per_second": 1.842,
+      "step": 5700
+    },
+    {
+      "epoch": 3.29,
+      "eval_accuracy": 0.8652641618215573,
+      "eval_loss": 0.69970703125,
+      "eval_runtime": 293.0467,
+      "eval_samples_per_second": 14.725,
+      "eval_steps_per_second": 1.843,
+      "step": 5800
+    },
+    {
+      "epoch": 3.35,
+      "eval_accuracy": 0.865102865835494,
+      "eval_loss": 0.7041015625,
+      "eval_runtime": 292.9654,
+      "eval_samples_per_second": 14.729,
+      "eval_steps_per_second": 1.843,
+      "step": 5900
+    },
+    {
+      "epoch": 3.41,
+      "learning_rate": 5e-05,
+      "loss": 0.2348,
+      "step": 6000
+    },
+    {
+      "epoch": 3.41,
+      "eval_accuracy": 0.8649191424581101,
+      "eval_loss": 0.70751953125,
+      "eval_runtime": 291.6546,
+      "eval_samples_per_second": 14.795,
+      "eval_steps_per_second": 1.852,
+      "step": 6000
+    },
+    {
+      "epoch": 3.46,
+      "eval_accuracy": 0.8649929942719536,
+      "eval_loss": 0.69921875,
+      "eval_runtime": 293.0033,
+      "eval_samples_per_second": 14.727,
+      "eval_steps_per_second": 1.843,
+      "step": 6100
+    },
+    {
+      "epoch": 3.52,
+      "eval_accuracy": 0.8647333802269698,
+      "eval_loss": 0.70654296875,
+      "eval_runtime": 292.0433,
+      "eval_samples_per_second": 14.775,
+      "eval_steps_per_second": 1.849,
+      "step": 6200
+    },
+    {
+      "epoch": 3.58,
+      "eval_accuracy": 0.8651932550186952,
+      "eval_loss": 0.69970703125,
+      "eval_runtime": 292.8338,
+      "eval_samples_per_second": 14.735,
+      "eval_steps_per_second": 1.844,
+      "step": 6300
+    },
+    {
+      "epoch": 3.63,
+      "eval_accuracy": 0.8651128335649698,
+      "eval_loss": 0.70263671875,
+      "eval_runtime": 291.8152,
+      "eval_samples_per_second": 14.787,
+      "eval_steps_per_second": 1.85,
+      "step": 6400
+    },
+    {
+      "epoch": 3.69,
+      "learning_rate": 5e-05,
+      "loss": 0.2411,
+      "step": 6500
+    },
+    {
+      "epoch": 3.69,
+      "eval_accuracy": 0.8655713491208575,
+      "eval_loss": 0.70458984375,
+      "eval_runtime": 292.9241,
+      "eval_samples_per_second": 14.731,
+      "eval_steps_per_second": 1.843,
+      "step": 6500
+    },
+    {
+      "epoch": 3.75,
+      "eval_accuracy": 0.8655097304295525,
+      "eval_loss": 0.70068359375,
+      "eval_runtime": 293.0902,
+      "eval_samples_per_second": 14.722,
+      "eval_steps_per_second": 1.842,
+      "step": 6600
+    },
+    {
+      "epoch": 3.8,
+      "eval_accuracy": 0.8651318628666963,
+      "eval_loss": 0.70263671875,
+      "eval_runtime": 292.9879,
+      "eval_samples_per_second": 14.728,
+      "eval_steps_per_second": 1.843,
+      "step": 6700
+    },
+    {
+      "epoch": 3.86,
+      "eval_accuracy": 0.8654825457128003,
+      "eval_loss": 0.703125,
+      "eval_runtime": 292.8939,
+      "eval_samples_per_second": 14.732,
+      "eval_steps_per_second": 1.844,
+      "step": 6800
+    },
+    {
+      "epoch": 3.92,
+      "eval_accuracy": 0.8657906391693256,
+      "eval_loss": 0.701171875,
+      "eval_runtime": 292.7957,
+      "eval_samples_per_second": 14.737,
+      "eval_steps_per_second": 1.844,
+      "step": 6900
+    },
+    {
+      "epoch": 3.97,
+      "learning_rate": 5e-05,
+      "loss": 0.251,
+      "step": 7000
+    },
+    {
+      "epoch": 3.97,
+      "eval_accuracy": 0.8656236797006056,
+      "eval_loss": 0.705078125,
+      "eval_runtime": 292.768,
+      "eval_samples_per_second": 14.739,
+      "eval_steps_per_second": 1.844,
+      "step": 7000
+    },
+    {
+      "epoch": 4.03,
+      "eval_accuracy": 0.8650197259100934,
+      "eval_loss": 0.7607421875,
+      "eval_runtime": 293.0243,
+      "eval_samples_per_second": 14.726,
+      "eval_steps_per_second": 1.843,
+      "step": 7100
+    },
+    {
+      "epoch": 4.09,
+      "eval_accuracy": 0.8655654590988946,
+      "eval_loss": 0.76318359375,
+      "eval_runtime": 293.1258,
+      "eval_samples_per_second": 14.721,
+      "eval_steps_per_second": 1.842,
+      "step": 7200
+    },
+    {
+      "epoch": 4.14,
+      "eval_accuracy": 0.8654986300035453,
+      "eval_loss": 0.7587890625,
+      "eval_runtime": 291.7489,
+      "eval_samples_per_second": 14.79,
+      "eval_steps_per_second": 1.851,
+      "step": 7300
+    },
+    {
+      "epoch": 4.2,
+      "eval_accuracy": 0.8650992412065936,
+      "eval_loss": 0.7578125,
+      "eval_runtime": 291.7365,
+      "eval_samples_per_second": 14.791,
+      "eval_steps_per_second": 1.851,
+      "step": 7400
+    },
+    {
+      "epoch": 4.26,
+      "learning_rate": 5e-05,
+      "loss": 0.1797,
+      "step": 7500
+    },
+    {
+      "epoch": 4.26,
+      "eval_accuracy": 0.8644635719132038,
+      "eval_loss": 0.77099609375,
+      "eval_runtime": 292.8962,
+      "eval_samples_per_second": 14.732,
+      "eval_steps_per_second": 1.844,
+      "step": 7500
+    },
+    {
+      "epoch": 4.31,
+      "eval_accuracy": 0.8648369086899346,
+      "eval_loss": 0.7626953125,
+      "eval_runtime": 291.9443,
+      "eval_samples_per_second": 14.78,
+      "eval_steps_per_second": 1.85,
+      "step": 7600
+    },
+    {
+      "epoch": 4.37,
+      "eval_accuracy": 0.8650006966083668,
+      "eval_loss": 0.75830078125,
+      "eval_runtime": 292.6223,
+      "eval_samples_per_second": 14.746,
+      "eval_steps_per_second": 1.845,
+      "step": 7700
+    },
+    {
+      "epoch": 4.43,
+      "eval_accuracy": 0.8648572972274987,
+      "eval_loss": 0.7646484375,
+      "eval_runtime": 292.6746,
+      "eval_samples_per_second": 14.743,
+      "eval_steps_per_second": 1.845,
+      "step": 7800
+    },
+    {
+      "epoch": 4.48,
+      "eval_accuracy": 0.8645709515443751,
+      "eval_loss": 0.759765625,
+      "eval_runtime": 292.8238,
+      "eval_samples_per_second": 14.736,
+      "eval_steps_per_second": 1.844,
+      "step": 7900
+    },
+    {
+      "epoch": 4.54,
+      "learning_rate": 5e-05,
+      "loss": 0.1784,
+      "step": 8000
+    },
+    {
+      "epoch": 4.54,
+      "eval_accuracy": 0.8649886900251346,
+      "eval_loss": 0.765625,
+      "eval_runtime": 292.7739,
+      "eval_samples_per_second": 14.738,
+      "eval_steps_per_second": 1.844,
+      "step": 8000
+    },
+    {
+      "epoch": 4.6,
+      "eval_accuracy": 0.8647777819309984,
+      "eval_loss": 0.76171875,
+      "eval_runtime": 291.5794,
+      "eval_samples_per_second": 14.799,
+      "eval_steps_per_second": 1.852,
+      "step": 8100
+    },
+    {
+      "epoch": 4.65,
+      "eval_accuracy": 0.8650895000164242,
+      "eval_loss": 0.75732421875,
+      "eval_runtime": 292.5766,
+      "eval_samples_per_second": 14.748,
+      "eval_steps_per_second": 1.846,
+      "step": 8200
+    },
+    {
+      "epoch": 4.71,
+      "eval_accuracy": 0.8647773288523859,
+      "eval_loss": 0.76708984375,
+      "eval_runtime": 292.8751,
+      "eval_samples_per_second": 14.733,
+      "eval_steps_per_second": 1.844,
+      "step": 8300
+    },
+    {
+      "epoch": 4.77,
+      "eval_accuracy": 0.8651295974736336,
+      "eval_loss": 0.75634765625,
+      "eval_runtime": 292.7435,
+      "eval_samples_per_second": 14.74,
+      "eval_steps_per_second": 1.845,
+      "step": 8400
+    },
+    {
+      "epoch": 4.82,
+      "learning_rate": 5e-05,
+      "loss": 0.1827,
+      "step": 8500
+    },
+    {
+      "epoch": 4.82,
+      "eval_accuracy": 0.8648883331124575,
+      "eval_loss": 0.76513671875,
+      "eval_runtime": 291.561,
+      "eval_samples_per_second": 14.8,
+      "eval_steps_per_second": 1.852,
+      "step": 8500
+    },
+    {
+      "epoch": 4.88,
+      "eval_accuracy": 0.8649513110396002,
+      "eval_loss": 0.763671875,
+      "eval_runtime": 292.871,
+      "eval_samples_per_second": 14.733,
+      "eval_steps_per_second": 1.844,
+      "step": 8600
+    },
+    {
+      "epoch": 4.94,
+      "eval_accuracy": 0.8653917034509865,
+      "eval_loss": 0.7607421875,
+      "eval_runtime": 292.9668,
+      "eval_samples_per_second": 14.729,
+      "eval_steps_per_second": 1.843,
+      "step": 8700
+    },
+    {
+      "epoch": 4.99,
+      "eval_accuracy": 0.86499322081126,
+      "eval_loss": 0.7607421875,
+      "eval_runtime": 292.8128,
+      "eval_samples_per_second": 14.736,
+      "eval_steps_per_second": 1.844,
+      "step": 8800
+    },
+    {
+      "epoch": 5.05,
+      "eval_accuracy": 0.8645997220362712,
+      "eval_loss": 0.81494140625,
+      "eval_runtime": 292.864,
+      "eval_samples_per_second": 14.734,
+      "eval_steps_per_second": 1.844,
+      "step": 8900
+    },
+    {
+      "epoch": 5.11,
+      "learning_rate": 5e-05,
+      "loss": 0.167,
+      "step": 9000
+    },
+    {
+      "epoch": 5.11,
+      "eval_accuracy": 0.8647852577281052,
+      "eval_loss": 0.80810546875,
+      "eval_runtime": 292.7519,
+      "eval_samples_per_second": 14.739,
+      "eval_steps_per_second": 1.845,
+      "step": 9000
+    },
+    {
+      "epoch": 5.16,
+      "eval_accuracy": 0.8643582311357888,
+      "eval_loss": 0.818359375,
+      "eval_runtime": 291.6434,
+      "eval_samples_per_second": 14.795,
+      "eval_steps_per_second": 1.852,
+      "step": 9100
+    },
+    {
+      "epoch": 5.22,
+      "eval_accuracy": 0.8647263575084754,
+      "eval_loss": 0.81396484375,
+      "eval_runtime": 292.5189,
+      "eval_samples_per_second": 14.751,
+      "eval_steps_per_second": 1.846,
+      "step": 9200
+    },
+    {
+      "epoch": 5.28,
+      "eval_accuracy": 0.8643802054484968,
+      "eval_loss": 0.81689453125,
+      "eval_runtime": 291.4921,
+      "eval_samples_per_second": 14.803,
+      "eval_steps_per_second": 1.853,
+      "step": 9300
+    },
+    {
+      "epoch": 5.33,
+      "eval_accuracy": 0.8644685557779417,
+      "eval_loss": 0.81201171875,
+      "eval_runtime": 292.6907,
+      "eval_samples_per_second": 14.743,
+      "eval_steps_per_second": 1.845,
+      "step": 9400
+    },
+    {
+      "epoch": 5.39,
+      "learning_rate": 5e-05,
+      "loss": 0.1371,
+      "step": 9500
+    },
+    {
+      "epoch": 5.39,
+      "eval_accuracy": 0.8642560619086617,
+      "eval_loss": 0.8154296875,
+      "eval_runtime": 292.8129,
+      "eval_samples_per_second": 14.736,
+      "eval_steps_per_second": 1.844,
+      "step": 9500
+    },
+    {
+      "epoch": 5.45,
+      "eval_accuracy": 0.8642103009687954,
+      "eval_loss": 0.81787109375,
+      "eval_runtime": 292.7443,
+      "eval_samples_per_second": 14.74,
+      "eval_steps_per_second": 1.845,
+      "step": 9600
+    },
+    {
+      "epoch": 5.51,
+      "eval_accuracy": 0.8642599130768682,
+      "eval_loss": 0.8154296875,
+      "eval_runtime": 291.6813,
+      "eval_samples_per_second": 14.794,
+      "eval_steps_per_second": 1.851,
+      "step": 9700
+    },
+    {
+      "epoch": 5.56,
+      "eval_accuracy": 0.8645023101345757,
+      "eval_loss": 0.81201171875,
+      "eval_runtime": 292.6716,
+      "eval_samples_per_second": 14.743,
+      "eval_steps_per_second": 1.845,
+      "step": 9800
+    },
+    {
+      "epoch": 5.62,
+      "eval_accuracy": 0.8649979781366915,
+      "eval_loss": 0.81103515625,
+      "eval_runtime": 292.7654,
+      "eval_samples_per_second": 14.739,
+      "eval_steps_per_second": 1.844,
+      "step": 9900
+    },
+    {
+      "epoch": 5.68,
+      "learning_rate": 5e-05,
+      "loss": 0.1425,
+      "step": 10000
+    },
+    {
+      "epoch": 5.68,
+      "eval_accuracy": 0.8645428606703978,
+      "eval_loss": 0.81591796875,
+      "eval_runtime": 292.6875,
+      "eval_samples_per_second": 14.743,
+      "eval_steps_per_second": 1.845,
+      "step": 10000
+    },
+    {
+      "epoch": 5.73,
+      "eval_accuracy": 0.8646024405079464,
+      "eval_loss": 0.8173828125,
+      "eval_runtime": 292.6736,
+      "eval_samples_per_second": 14.743,
+      "eval_steps_per_second": 1.845,
+      "step": 10100
+    },
+    {
+      "epoch": 5.79,
+      "eval_accuracy": 0.8649073624141841,
+      "eval_loss": 0.81591796875,
+      "eval_runtime": 292.7868,
+      "eval_samples_per_second": 14.738,
+      "eval_steps_per_second": 1.844,
+      "step": 10200
+    },
+    {
+      "epoch": 5.85,
+      "eval_accuracy": 0.8639400395764169,
+      "eval_loss": 0.81103515625,
+      "eval_runtime": 292.8417,
+      "eval_samples_per_second": 14.735,
+      "eval_steps_per_second": 1.844,
+      "step": 10300
+    },
+    {
+      "epoch": 5.9,
+      "eval_accuracy": 0.8645482976137482,
+      "eval_loss": 0.8134765625,
+      "eval_runtime": 292.765,
+      "eval_samples_per_second": 14.739,
+      "eval_steps_per_second": 1.844,
+      "step": 10400
+    },
+    {
+      "epoch": 5.96,
+      "learning_rate": 5e-05,
+      "loss": 0.1505,
+      "step": 10500
+    },
+    {
+      "epoch": 5.96,
+      "eval_accuracy": 0.8642195890803523,
+      "eval_loss": 0.81396484375,
+      "eval_runtime": 292.5807,
+      "eval_samples_per_second": 14.748,
+      "eval_steps_per_second": 1.846,
+      "step": 10500
+    },
+    {
+      "epoch": 6.02,
+      "eval_accuracy": 0.8639674508324753,
+      "eval_loss": 0.86279296875,
+      "eval_runtime": 292.6261,
+      "eval_samples_per_second": 14.746,
+      "eval_steps_per_second": 1.845,
+      "step": 10600
+    },
+    {
+      "epoch": 6.07,
+      "eval_accuracy": 0.8644205294450127,
+      "eval_loss": 0.85400390625,
+      "eval_runtime": 292.6297,
+      "eval_samples_per_second": 14.746,
+      "eval_steps_per_second": 1.845,
+      "step": 10700
+    },
+    {
+      "epoch": 6.13,
+      "eval_accuracy": 0.8642433757075105,
+      "eval_loss": 0.85302734375,
+      "eval_runtime": 291.5398,
+      "eval_samples_per_second": 14.801,
+      "eval_steps_per_second": 1.852,
+      "step": 10800
+    },
+    {
+      "epoch": 6.19,
+      "eval_accuracy": 0.8646898846801662,
+      "eval_loss": 0.85595703125,
+      "eval_runtime": 291.664,
+      "eval_samples_per_second": 14.794,
+      "eval_steps_per_second": 1.851,
+      "step": 10900
+    },
+    {
+      "epoch": 6.24,
+      "learning_rate": 5e-05,
+      "loss": 0.1086,
+      "step": 11000
+    },
+    {
+      "epoch": 6.24,
+      "eval_accuracy": 0.864855937991661,
+      "eval_loss": 0.85546875,
+      "eval_runtime": 292.8292,
+      "eval_samples_per_second": 14.736,
+      "eval_steps_per_second": 1.844,
+      "step": 11000
+    },
+    {
+      "epoch": 6.3,
+      "eval_accuracy": 0.8643829239201721,
+      "eval_loss": 0.8603515625,
+      "eval_runtime": 292.6815,
+      "eval_samples_per_second": 14.743,
+      "eval_steps_per_second": 1.845,
+      "step": 11100
+    },
+    {
+      "epoch": 6.36,
+      "eval_accuracy": 0.8641971616890317,
+      "eval_loss": 0.85693359375,
+      "eval_runtime": 292.4181,
+      "eval_samples_per_second": 14.756,
+      "eval_steps_per_second": 1.847,
+      "step": 11200
+    },
+    {
+      "epoch": 6.41,
+      "eval_accuracy": 0.8638854436036061,
+      "eval_loss": 0.85302734375,
+      "eval_runtime": 293.018,
+      "eval_samples_per_second": 14.726,
+      "eval_steps_per_second": 1.843,
+      "step": 11300
+    },
+    {
+      "epoch": 6.47,
+      "eval_accuracy": 0.8642818873895762,
+      "eval_loss": 0.85888671875,
+      "eval_runtime": 291.7384,
+      "eval_samples_per_second": 14.791,
+      "eval_steps_per_second": 1.851,
+      "step": 11400
+    },
+    {
+      "epoch": 6.53,
+      "learning_rate": 5e-05,
+      "loss": 0.1076,
+      "step": 11500
+    },
+    {
+      "epoch": 6.53,
+      "eval_accuracy": 0.8638872559180562,
+      "eval_loss": 0.8525390625,
+      "eval_runtime": 293.4652,
+      "eval_samples_per_second": 14.704,
+      "eval_steps_per_second": 1.84,
+      "step": 11500
+    },
+    {
+      "epoch": 6.58,
+      "eval_accuracy": 0.8640002990318842,
+      "eval_loss": 0.85791015625,
+      "eval_runtime": 292.9912,
+      "eval_samples_per_second": 14.727,
+      "eval_steps_per_second": 1.843,
+      "step": 11600
+    },
+    {
+      "epoch": 6.64,
+      "eval_accuracy": 0.8639792308764013,
+      "eval_loss": 0.859375,
+      "eval_runtime": 292.1362,
+      "eval_samples_per_second": 14.771,
+      "eval_steps_per_second": 1.848,
+      "step": 11700
+    },
+    {
+      "epoch": 6.7,
+      "eval_accuracy": 0.864300237073384,
+      "eval_loss": 0.85986328125,
+      "eval_runtime": 292.9015,
+      "eval_samples_per_second": 14.732,
+      "eval_steps_per_second": 1.844,
+      "step": 11800
+    },
+    {
+      "epoch": 6.75,
+      "eval_accuracy": 0.8639912374596336,
+      "eval_loss": 0.8564453125,
+      "eval_runtime": 292.927,
+      "eval_samples_per_second": 14.731,
+      "eval_steps_per_second": 1.843,
+      "step": 11900
+    },
+    {
+      "epoch": 6.81,
+      "learning_rate": 5e-05,
+      "loss": 0.1109,
+      "step": 12000
+    },
+    {
+      "epoch": 6.81,
+      "eval_accuracy": 0.8640392637925625,
+      "eval_loss": 0.86328125,
+      "eval_runtime": 292.9284,
+      "eval_samples_per_second": 14.731,
+      "eval_steps_per_second": 1.843,
+      "step": 12000
+    },
+    {
+      "epoch": 6.87,
+      "eval_accuracy": 0.8638109121718437,
+      "eval_loss": 0.8583984375,
+      "eval_runtime": 292.6011,
+      "eval_samples_per_second": 14.747,
+      "eval_steps_per_second": 1.846,
+      "step": 12100
+    },
+    {
+      "epoch": 6.92,
+      "eval_accuracy": 0.863599550999095,
+      "eval_loss": 0.86474609375,
+      "eval_runtime": 292.8714,
+      "eval_samples_per_second": 14.733,
+      "eval_steps_per_second": 1.844,
+      "step": 12200
+    },
+    {
+      "epoch": 6.98,
+      "eval_accuracy": 0.8634767666950973,
+      "eval_loss": 0.85986328125,
+      "eval_runtime": 291.6716,
+      "eval_samples_per_second": 14.794,
+      "eval_steps_per_second": 1.851,
+      "step": 12300
+    },
+    {
+      "epoch": 7.04,
+      "eval_accuracy": 0.8632459231420095,
+      "eval_loss": 0.89794921875,
+      "eval_runtime": 292.8834,
+      "eval_samples_per_second": 14.733,
+      "eval_steps_per_second": 1.844,
+      "step": 12400
+    },
+    {
+      "epoch": 7.09,
+      "learning_rate": 5e-05,
+      "loss": 0.1028,
+      "step": 12500
+    },
+    {
+      "epoch": 7.09,
+      "eval_accuracy": 0.8634595497078209,
+      "eval_loss": 0.8935546875,
+      "eval_runtime": 291.8248,
+      "eval_samples_per_second": 14.786,
+      "eval_steps_per_second": 1.85,
+      "step": 12500
+    },
+    {
+      "epoch": 7.15,
+      "eval_accuracy": 0.8637445361551069,
+      "eval_loss": 0.904296875,
+      "eval_runtime": 293.127,
+      "eval_samples_per_second": 14.721,
+      "eval_steps_per_second": 1.842,
+      "step": 12600
+    },
+    {
+      "epoch": 7.21,
+      "eval_accuracy": 0.8641618215572539,
+      "eval_loss": 0.89892578125,
+      "eval_runtime": 291.7379,
+      "eval_samples_per_second": 14.791,
+      "eval_steps_per_second": 1.851,
+      "step": 12700
+    },
+    {
+      "epoch": 7.26,
+      "eval_accuracy": 0.8641742812190987,
+      "eval_loss": 0.8935546875,
+      "eval_runtime": 291.8762,
+      "eval_samples_per_second": 14.784,
+      "eval_steps_per_second": 1.85,
+      "step": 12800
+    },
+    {
+      "epoch": 7.32,
+      "eval_accuracy": 0.8641423391769147,
+      "eval_loss": 0.89208984375,
+      "eval_runtime": 293.0894,
+      "eval_samples_per_second": 14.722,
+      "eval_steps_per_second": 1.842,
+      "step": 12900
+    },
+    {
+      "epoch": 7.38,
+      "learning_rate": 5e-05,
+      "loss": 0.0774,
+      "step": 13000
+    },
+    {
+      "epoch": 7.38,
+      "eval_accuracy": 0.8633791282540956,
+      "eval_loss": 0.8955078125,
+      "eval_runtime": 292.6585,
+      "eval_samples_per_second": 14.744,
+      "eval_steps_per_second": 1.845,
+      "step": 13000
+    },
+    {
+      "epoch": 7.43,
+      "eval_accuracy": 0.8636269622551535,
+      "eval_loss": 0.89501953125,
+      "eval_runtime": 294.4392,
+      "eval_samples_per_second": 14.655,
+      "eval_steps_per_second": 1.834,
+      "step": 13100
+    },
+    {
+      "epoch": 7.49,
+      "eval_accuracy": 0.8635223010956573,
+      "eval_loss": 0.8994140625,
+      "eval_runtime": 292.0929,
+      "eval_samples_per_second": 14.773,
+      "eval_steps_per_second": 1.849,
+      "step": 13200
+    },
+    {
+      "epoch": 7.55,
+      "eval_accuracy": 0.8635028187153182,
+      "eval_loss": 0.89990234375,
+      "eval_runtime": 291.6539,
+      "eval_samples_per_second": 14.795,
+      "eval_steps_per_second": 1.852,
+      "step": 13300
+    },
+    {
+      "epoch": 7.6,
+      "eval_accuracy": 0.8631285757813624,
+      "eval_loss": 0.8935546875,
+      "eval_runtime": 293.1835,
+      "eval_samples_per_second": 14.718,
+      "eval_steps_per_second": 1.842,
+      "step": 13400
+    },
+    {
+      "epoch": 7.66,
+      "learning_rate": 5e-05,
+      "loss": 0.0852,
+      "step": 13500
+    },
+    {
+      "epoch": 7.66,
+      "eval_accuracy": 0.863441879641932,
+      "eval_loss": 0.90478515625,
+      "eval_runtime": 292.8044,
+      "eval_samples_per_second": 14.737,
+      "eval_steps_per_second": 1.844,
+      "step": 13500
+    },
+    {
+      "epoch": 7.72,
+      "eval_accuracy": 0.8632284796154269,
+      "eval_loss": 0.89599609375,
+      "eval_runtime": 292.7129,
+      "eval_samples_per_second": 14.741,
+      "eval_steps_per_second": 1.845,
+      "step": 13600
+    },
+    {
+      "epoch": 7.78,
+      "eval_accuracy": 0.8634731420661971,
+      "eval_loss": 0.90234375,
+      "eval_runtime": 292.9408,
+      "eval_samples_per_second": 14.73,
+      "eval_steps_per_second": 1.843,
+      "step": 13700
+    },
+    {
+      "epoch": 7.83,
+      "eval_accuracy": 0.8638301680128765,
+      "eval_loss": 0.8984375,
+      "eval_runtime": 292.9793,
+      "eval_samples_per_second": 14.728,
+      "eval_steps_per_second": 1.843,
+      "step": 13800
+    },
+    {
+      "epoch": 7.89,
+      "eval_accuracy": 0.8635458611835093,
+      "eval_loss": 0.90185546875,
+      "eval_runtime": 292.8153,
+      "eval_samples_per_second": 14.736,
+      "eval_steps_per_second": 1.844,
+      "step": 13900
+    },
+    {
+      "epoch": 7.95,
+      "learning_rate": 5e-05,
+      "loss": 0.0879,
+      "step": 14000
+    },
+    {
+      "epoch": 7.95,
+      "eval_accuracy": 0.863396345241372,
+      "eval_loss": 0.9013671875,
+      "eval_runtime": 292.8988,
+      "eval_samples_per_second": 14.732,
+      "eval_steps_per_second": 1.844,
+      "step": 14000
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.8630044322415271,
+      "eval_loss": 0.91357421875,
+      "eval_runtime": 292.7911,
+      "eval_samples_per_second": 14.737,
+      "eval_steps_per_second": 1.844,
+      "step": 14100
+    },
+    {
+      "epoch": 8.06,
+      "eval_accuracy": 0.8638926928614067,
+      "eval_loss": 0.93115234375,
+      "eval_runtime": 292.7997,
+      "eval_samples_per_second": 14.737,
+      "eval_steps_per_second": 1.844,
+      "step": 14200
+    },
+    {
+      "epoch": 8.12,
+      "eval_accuracy": 0.8635213949384323,
+      "eval_loss": 0.9345703125,
+      "eval_runtime": 292.7958,
+      "eval_samples_per_second": 14.737,
+      "eval_steps_per_second": 1.844,
+      "step": 14300
+    },
+    {
+      "epoch": 8.17,
+      "eval_accuracy": 0.8635272849603952,
+      "eval_loss": 0.9306640625,
+      "eval_runtime": 291.7965,
+      "eval_samples_per_second": 14.788,
+      "eval_steps_per_second": 1.851,
+      "step": 14400
+    },
+    {
+      "epoch": 8.23,
+      "learning_rate": 5e-05,
+      "loss": 0.0611,
+      "step": 14500
+    },
+    {
+      "epoch": 8.23,
+      "eval_accuracy": 0.8640974843942736,
+      "eval_loss": 0.94189453125,
+      "eval_runtime": 292.9438,
+      "eval_samples_per_second": 14.73,
+      "eval_steps_per_second": 1.843,
+      "step": 14500
+    },
+    {
+      "epoch": 8.29,
+      "eval_accuracy": 0.863091196795828,
+      "eval_loss": 0.93310546875,
+      "eval_runtime": 292.6114,
+      "eval_samples_per_second": 14.747,
+      "eval_steps_per_second": 1.845,
+      "step": 14600
+    },
+    {
+      "epoch": 8.34,
+      "eval_accuracy": 0.8635660231817672,
+      "eval_loss": 0.9375,
+      "eval_runtime": 292.5076,
+      "eval_samples_per_second": 14.752,
+      "eval_steps_per_second": 1.846,
+      "step": 14700
+    },
+    {
+      "epoch": 8.4,
+      "eval_accuracy": 0.8626125192416824,
+      "eval_loss": 0.92919921875,
+      "eval_runtime": 292.6676,
+      "eval_samples_per_second": 14.744,
+      "eval_steps_per_second": 1.845,
+      "step": 14800
+    },
+    {
+      "epoch": 8.46,
+      "eval_accuracy": 0.8637236945389302,
+      "eval_loss": 0.94580078125,
+      "eval_runtime": 291.6673,
+      "eval_samples_per_second": 14.794,
+      "eval_steps_per_second": 1.851,
+      "step": 14900
+    },
+    {
+      "epoch": 8.51,
+      "learning_rate": 5e-05,
+      "loss": 0.061,
+      "step": 15000
+    },
+    {
+      "epoch": 8.51,
+      "eval_accuracy": 0.8634267015084119,
+      "eval_loss": 0.93359375,
+      "eval_runtime": 291.6632,
+      "eval_samples_per_second": 14.794,
+      "eval_steps_per_second": 1.851,
+      "step": 15000
+    },
+    {
+      "epoch": 8.57,
+      "eval_accuracy": 0.8629693186490555,
+      "eval_loss": 0.94091796875,
+      "eval_runtime": 292.9394,
+      "eval_samples_per_second": 14.73,
+      "eval_steps_per_second": 1.843,
+      "step": 15100
+    },
+    {
+      "epoch": 8.63,
+      "eval_accuracy": 0.8632108095495379,
+      "eval_loss": 0.93896484375,
+      "eval_runtime": 292.836,
+      "eval_samples_per_second": 14.735,
+      "eval_steps_per_second": 1.844,
+      "step": 15200
+    },
+    {
+      "epoch": 8.68,
+      "eval_accuracy": 0.862787634125428,
+      "eval_loss": 0.9375,
+      "eval_runtime": 291.5974,
+      "eval_samples_per_second": 14.798,
+      "eval_steps_per_second": 1.852,
+      "step": 15300
+    },
+    {
+      "epoch": 8.74,
+      "eval_accuracy": 0.8629693186490555,
+      "eval_loss": 0.9365234375,
+      "eval_runtime": 292.847,
+      "eval_samples_per_second": 14.735,
+      "eval_steps_per_second": 1.844,
+      "step": 15400
+    },
+    {
+      "epoch": 8.8,
+      "learning_rate": 5e-05,
+      "loss": 0.0646,
+      "step": 15500
+    },
+    {
+      "epoch": 8.8,
+      "eval_accuracy": 0.8628259192681874,
+      "eval_loss": 0.93701171875,
+      "eval_runtime": 292.6735,
+      "eval_samples_per_second": 14.743,
+      "eval_steps_per_second": 1.845,
+      "step": 15500
+    },
+    {
+      "epoch": 8.85,
+      "eval_accuracy": 0.8629194800016764,
+      "eval_loss": 0.935546875,
+      "eval_runtime": 292.789,
+      "eval_samples_per_second": 14.738,
+      "eval_steps_per_second": 1.844,
+      "step": 15600
+    },
+    {
+      "epoch": 8.91,
+      "eval_accuracy": 0.8632305184691833,
+      "eval_loss": 0.9375,
+      "eval_runtime": 291.6374,
+      "eval_samples_per_second": 14.796,
+      "eval_steps_per_second": 1.852,
+      "step": 15700
+    },
+    {
+      "epoch": 8.97,
+      "eval_accuracy": 0.8629763413675499,
+      "eval_loss": 0.93896484375,
+      "eval_runtime": 293.0327,
+      "eval_samples_per_second": 14.725,
+      "eval_steps_per_second": 1.843,
+      "step": 15800
+    },
+    {
+      "epoch": 9.02,
+      "eval_accuracy": 0.8630309373403606,
+      "eval_loss": 0.9716796875,
+      "eval_runtime": 292.645,
+      "eval_samples_per_second": 14.745,
+      "eval_steps_per_second": 1.845,
+      "step": 15900
+    },
+    {
+      "epoch": 9.08,
+      "learning_rate": 5e-05,
+      "loss": 0.0593,
+      "step": 16000
+    },
+    {
+      "epoch": 9.08,
+      "eval_accuracy": 0.8626426489694161,
+      "eval_loss": 0.96728515625,
+      "eval_runtime": 292.8134,
+      "eval_samples_per_second": 14.736,
+      "eval_steps_per_second": 1.844,
+      "step": 16000
+    },
+    {
+      "epoch": 9.14,
+      "eval_accuracy": 0.862975661749631,
+      "eval_loss": 0.96435546875,
+      "eval_runtime": 292.9061,
+      "eval_samples_per_second": 14.732,
+      "eval_steps_per_second": 1.844,
+      "step": 16100
+    },
+    {
+      "epoch": 9.19,
+      "eval_accuracy": 0.8630644651576883,
+      "eval_loss": 0.96240234375,
+      "eval_runtime": 293.8107,
+      "eval_samples_per_second": 14.686,
+      "eval_steps_per_second": 1.838,
+      "step": 16200
+    },
+    {
+      "epoch": 9.25,
+      "eval_accuracy": 0.8633050499009457,
+      "eval_loss": 0.96484375,
+      "eval_runtime": 291.7944,
+      "eval_samples_per_second": 14.788,
+      "eval_steps_per_second": 1.851,
+      "step": 16300
+    },
+    {
+      "epoch": 9.31,
+      "eval_accuracy": 0.8632493212316036,
+      "eval_loss": 0.96728515625,
+      "eval_runtime": 291.6912,
+      "eval_samples_per_second": 14.793,
+      "eval_steps_per_second": 1.851,
+      "step": 16400
+    },
+    {
+      "epoch": 9.36,
+      "learning_rate": 5e-05,
+      "loss": 0.0415,
+      "step": 16500
+    },
+    {
+      "epoch": 9.36,
+      "eval_accuracy": 0.8633073152940084,
+      "eval_loss": 0.9658203125,
+      "eval_runtime": 291.6781,
+      "eval_samples_per_second": 14.794,
+      "eval_steps_per_second": 1.851,
+      "step": 16500
+    },
+    {
+      "epoch": 9.42,
+      "eval_accuracy": 0.8627819706427713,
+      "eval_loss": 0.96875,
+      "eval_runtime": 292.5363,
+      "eval_samples_per_second": 14.75,
+      "eval_steps_per_second": 1.846,
+      "step": 16600
+    },
+    {
+      "epoch": 9.48,
+      "eval_accuracy": 0.8632289326940394,
+      "eval_loss": 0.96533203125,
+      "eval_runtime": 292.6096,
+      "eval_samples_per_second": 14.747,
+      "eval_steps_per_second": 1.845,
+      "step": 16700
+    },
+    {
+      "epoch": 9.53,
+      "eval_accuracy": 0.862821388482062,
+      "eval_loss": 0.9658203125,
+      "eval_runtime": 291.5436,
+      "eval_samples_per_second": 14.801,
+      "eval_steps_per_second": 1.852,
+      "step": 16800
+    },
+    {
+      "epoch": 9.59,
+      "eval_accuracy": 0.8629199330802889,
+      "eval_loss": 0.966796875,
+      "eval_runtime": 292.7541,
+      "eval_samples_per_second": 14.739,
+      "eval_steps_per_second": 1.845,
+      "step": 16900
+    },
+    {
+      "epoch": 9.65,
+      "learning_rate": 5e-05,
+      "loss": 0.0471,
+      "step": 17000
+    },
+    {
+      "epoch": 9.65,
+      "eval_accuracy": 0.8625384408885325,
+      "eval_loss": 0.96044921875,
+      "eval_runtime": 292.6838,
+      "eval_samples_per_second": 14.743,
+      "eval_steps_per_second": 1.845,
+      "step": 17000
+    },
+    {
+      "epoch": 9.7,
+      "eval_accuracy": 0.8620747149286004,
+      "eval_loss": 0.9658203125,
+      "eval_runtime": 291.636,
+      "eval_samples_per_second": 14.796,
+      "eval_steps_per_second": 1.852,
+      "step": 17100
+    },
+    {
+      "epoch": 9.76,
+      "eval_accuracy": 0.8629695451883618,
+      "eval_loss": 0.97314453125,
+      "eval_runtime": 291.7564,
+      "eval_samples_per_second": 14.79,
+      "eval_steps_per_second": 1.851,
+      "step": 17200
+    },
+    {
+      "epoch": 9.82,
+      "eval_accuracy": 0.8626276973752023,
+      "eval_loss": 0.96923828125,
+      "eval_runtime": 291.4249,
+      "eval_samples_per_second": 14.807,
+      "eval_steps_per_second": 1.853,
+      "step": 17300
+    },
+    {
+      "epoch": 9.88,
+      "eval_accuracy": 0.8622577586880655,
+      "eval_loss": 0.96728515625,
+      "eval_runtime": 291.5949,
+      "eval_samples_per_second": 14.798,
+      "eval_steps_per_second": 1.852,
+      "step": 17400
+    },
+    {
+      "epoch": 9.93,
+      "learning_rate": 5e-05,
+      "loss": 0.0528,
+      "step": 17500
+    },
+    {
+      "epoch": 9.93,
+      "eval_accuracy": 0.8619999569575318,
+      "eval_loss": 0.96142578125,
+      "eval_runtime": 292.6583,
+      "eval_samples_per_second": 14.744,
+      "eval_steps_per_second": 1.845,
+      "step": 17500
+    },
+    {
+      "epoch": 9.99,
+      "eval_accuracy": 0.8620715433783127,
+      "eval_loss": 0.9697265625,
+      "eval_runtime": 291.7031,
+      "eval_samples_per_second": 14.792,
+      "eval_steps_per_second": 1.851,
+      "step": 17600
+    },
+    {
+      "epoch": 10.0,
+      "step": 17620,
+      "total_flos": 2.179292736824279e+18,
+      "train_loss": 0.2421213565700847,
+      "train_runtime": 122603.1424,
+      "train_samples_per_second": 1.149,
+      "train_steps_per_second": 0.144
+    }
+  ],
+  "max_steps": 17620,
+  "num_train_epochs": 10,
+  "total_flos": 2.179292736824279e+18,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1329a0f14c187b18f591e204cf458a0fc5d096cbe27c3326c557bbea66879f40
+size 4463

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff