First model version

Files changed (14) hide show

README.md +80 -0
all_results.json +15 -0
config.json +39 -0
eval_results.json +10 -0
generation_config.json +6 -0
merges.txt +0 -0
pytorch_model.bin +3 -0
special_tokens_map.json +5 -0
tokenizer.json +0 -0
tokenizer_config.json +10 -0
train_results.json +8 -0
trainer_state.json +3352 -0
training_args.bin +3 -0
vocab.json +0 -0

README.md CHANGED Viewed

@@ -1,3 +1,83 @@
 ---
 license: mit
 ---

 ---
 license: mit
+tags:
+- generated_from_trainer
+metrics:
+- accuracy
+model-index:
+- name: gpt2-large-finetuned
+  results: []
 ---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# gpt2-large-finetuned
+This model is a fine-tuned version of [gpt2-large](https://huggingface.co/gpt2-large) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 2.2374
+- Accuracy: 0.5978
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 2.294e-05
+- train_batch_size: 4
+- eval_batch_size: 4
+- seed: 42
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 6.0
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Accuracy |
+|:-------------:|:-----:|:----:|:---------------:|:--------:|
+| 2.5507        | 0.23  | 100  | 2.5061          | 0.5568   |
+| 2.465         | 0.46  | 200  | 2.4254          | 0.5672   |
+| 2.3919        | 0.7   | 300  | 2.3827          | 0.5726   |
+| 2.4222        | 0.93  | 400  | 2.3489          | 0.5760   |
+| 2.1958        | 1.16  | 500  | 2.3302          | 0.5793   |
+| 2.2087        | 1.39  | 600  | 2.3123          | 0.5818   |
+| 2.2436        | 1.62  | 700  | 2.2960          | 0.5841   |
+| 2.1737        | 1.86  | 800  | 2.2810          | 0.5866   |
+| 2.0763        | 2.09  | 900  | 2.2779          | 0.5876   |
+| 2.0852        | 2.32  | 1000 | 2.2678          | 0.5894   |
+| 2.0946        | 2.55  | 1100 | 2.2594          | 0.5906   |
+| 2.0497        | 2.78  | 1200 | 2.2516          | 0.5920   |
+| 2.0141        | 3.02  | 1300 | 2.2513          | 0.5928   |
+| 2.0316        | 3.25  | 1400 | 2.2505          | 0.5932   |
+| 1.9783        | 3.48  | 1500 | 2.2430          | 0.5938   |
+| 1.9917        | 3.71  | 1600 | 2.2386          | 0.5948   |
+| 2.0152        | 3.94  | 1700 | 2.2315          | 0.5960   |
+| 1.886         | 4.18  | 1800 | 2.2420          | 0.5957   |
+| 1.9151        | 4.41  | 1900 | 2.2409          | 0.5967   |
+| 1.9538        | 4.64  | 2000 | 2.2379          | 0.5971   |
+| 1.8886        | 4.87  | 2100 | 2.2349          | 0.5976   |
+| 1.9408        | 5.1   | 2200 | 2.2410          | 0.5975   |
+| 1.9168        | 5.34  | 2300 | 2.2394          | 0.5976   |
+| 1.8002        | 5.57  | 2400 | 2.2381          | 0.5977   |
+| 1.8888        | 5.8   | 2500 | 2.2367          | 0.5978   |
+### Framework versions
+- Transformers 4.26.0
+- Pytorch 1.13.1
+- Datasets 2.9.0
+- Tokenizers 0.13.2

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 6.0,
+    "eval_accuracy": 0.5978312760008184,
+    "eval_loss": 2.2373838424682617,
+    "eval_runtime": 58.1232,
+    "eval_samples": 430,
+    "eval_samples_per_second": 7.398,
+    "eval_steps_per_second": 1.858,
+    "perplexity": 9.368788970328781,
+    "train_loss": 2.103886123784088,
+    "train_runtime": 6222.0683,
+    "train_samples": 1723,
+    "train_samples_per_second": 1.662,
+    "train_steps_per_second": 0.416
+}

config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "_name_or_path": "gpt2-large",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 1280,
+  "n_head": 20,
+  "n_inner": null,
+  "n_layer": 36,
+  "n_positions": 1024,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.26.0",
+  "use_cache": true,
+  "vocab_size": 50257
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 6.0,
+    "eval_accuracy": 0.5978312760008184,
+    "eval_loss": 2.2373838424682617,
+    "eval_runtime": 58.1232,
+    "eval_samples": 430,
+    "eval_samples_per_second": 7.398,
+    "eval_steps_per_second": 1.858,
+    "perplexity": 9.368788970328781
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.26.0"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1ec777bb140f4ef1ab2fd98a9c3619d22b5b322b3ca101fbb85dbb1169259bdc
+size 3134035005

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "add_prefix_space": false,
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 1024,
+  "name_or_path": "gpt2-large",
+  "special_tokens_map_file": null,
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 6.0,
+    "train_loss": 2.103886123784088,
+    "train_runtime": 6222.0683,
+    "train_samples": 1723,
+    "train_samples_per_second": 1.662,
+    "train_steps_per_second": 0.416
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,3352 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 6.0,
+  "global_step": 2586,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 2.2895645784996133e-05,
+      "loss": 3.3205,
+      "step": 5
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2.2851291569992266e-05,
+      "loss": 2.9999,
+      "step": 10
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 2.28069373549884e-05,
+      "loss": 2.9241,
+      "step": 15
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 2.2762583139984532e-05,
+      "loss": 2.7706,
+      "step": 20
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 2.2718228924980665e-05,
+      "loss": 2.8128,
+      "step": 25
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 2.2673874709976798e-05,
+      "loss": 2.7359,
+      "step": 30
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.262952049497293e-05,
+      "loss": 2.7496,
+      "step": 35
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.2585166279969064e-05,
+      "loss": 2.6543,
+      "step": 40
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 2.2540812064965197e-05,
+      "loss": 2.6493,
+      "step": 45
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 2.2496457849961333e-05,
+      "loss": 2.6312,
+      "step": 50
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 2.2452103634957466e-05,
+      "loss": 2.6222,
+      "step": 55
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 2.2407749419953595e-05,
+      "loss": 2.6328,
+      "step": 60
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 2.236339520494973e-05,
+      "loss": 2.6085,
+      "step": 65
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 2.2319040989945864e-05,
+      "loss": 2.5869,
+      "step": 70
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 2.2274686774941994e-05,
+      "loss": 2.6353,
+      "step": 75
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 2.223033255993813e-05,
+      "loss": 2.6266,
+      "step": 80
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 2.2185978344934263e-05,
+      "loss": 2.6341,
+      "step": 85
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 2.2141624129930393e-05,
+      "loss": 2.601,
+      "step": 90
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 2.209726991492653e-05,
+      "loss": 2.5009,
+      "step": 95
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 2.205291569992266e-05,
+      "loss": 2.5507,
+      "step": 100
+    },
+    {
+      "epoch": 0.23,
+      "eval_accuracy": 0.5567914705949215,
+      "eval_loss": 2.5061137676239014,
+      "eval_runtime": 58.2489,
+      "eval_samples_per_second": 7.382,
+      "eval_steps_per_second": 1.854,
+      "step": 100
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 2.2008561484918795e-05,
+      "loss": 2.5848,
+      "step": 105
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 2.1964207269914927e-05,
+      "loss": 2.5978,
+      "step": 110
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 2.191985305491106e-05,
+      "loss": 2.4714,
+      "step": 115
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 2.1875498839907193e-05,
+      "loss": 2.5151,
+      "step": 120
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 2.1831144624903326e-05,
+      "loss": 2.5547,
+      "step": 125
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 2.178679040989946e-05,
+      "loss": 2.5302,
+      "step": 130
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 2.1742436194895592e-05,
+      "loss": 2.5061,
+      "step": 135
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 2.1698081979891725e-05,
+      "loss": 2.4813,
+      "step": 140
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 2.1653727764887858e-05,
+      "loss": 2.44,
+      "step": 145
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 2.1609373549883994e-05,
+      "loss": 2.4794,
+      "step": 150
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 2.1565019334880123e-05,
+      "loss": 2.5501,
+      "step": 155
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 2.1520665119876256e-05,
+      "loss": 2.4405,
+      "step": 160
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 2.1476310904872393e-05,
+      "loss": 2.4833,
+      "step": 165
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 2.1431956689868522e-05,
+      "loss": 2.5244,
+      "step": 170
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 2.1387602474864655e-05,
+      "loss": 2.5057,
+      "step": 175
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 2.134324825986079e-05,
+      "loss": 2.4521,
+      "step": 180
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 2.129889404485692e-05,
+      "loss": 2.4377,
+      "step": 185
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 2.1254539829853054e-05,
+      "loss": 2.4831,
+      "step": 190
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 2.121018561484919e-05,
+      "loss": 2.4314,
+      "step": 195
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 2.1165831399845323e-05,
+      "loss": 2.465,
+      "step": 200
+    },
+    {
+      "epoch": 0.46,
+      "eval_accuracy": 0.5671849780626975,
+      "eval_loss": 2.42543625831604,
+      "eval_runtime": 58.1969,
+      "eval_samples_per_second": 7.389,
+      "eval_steps_per_second": 1.856,
+      "step": 200
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 2.1121477184841452e-05,
+      "loss": 2.475,
+      "step": 205
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 2.107712296983759e-05,
+      "loss": 2.4854,
+      "step": 210
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 2.103276875483372e-05,
+      "loss": 2.4716,
+      "step": 215
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 2.0988414539829854e-05,
+      "loss": 2.4928,
+      "step": 220
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 2.0944060324825987e-05,
+      "loss": 2.4601,
+      "step": 225
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 2.089970610982212e-05,
+      "loss": 2.4256,
+      "step": 230
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 2.0855351894818253e-05,
+      "loss": 2.4221,
+      "step": 235
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 2.0810997679814386e-05,
+      "loss": 2.43,
+      "step": 240
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 2.076664346481052e-05,
+      "loss": 2.4551,
+      "step": 245
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 2.072228924980665e-05,
+      "loss": 2.4228,
+      "step": 250
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 2.0677935034802784e-05,
+      "loss": 2.4224,
+      "step": 255
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 2.0633580819798917e-05,
+      "loss": 2.5017,
+      "step": 260
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 2.058922660479505e-05,
+      "loss": 2.4203,
+      "step": 265
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 2.0544872389791183e-05,
+      "loss": 2.4648,
+      "step": 270
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 2.0500518174787316e-05,
+      "loss": 2.4495,
+      "step": 275
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 2.045616395978345e-05,
+      "loss": 2.4038,
+      "step": 280
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 2.0411809744779582e-05,
+      "loss": 2.4055,
+      "step": 285
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 2.0367455529775715e-05,
+      "loss": 2.4111,
+      "step": 290
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 2.032310131477185e-05,
+      "loss": 2.4462,
+      "step": 295
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 2.027874709976798e-05,
+      "loss": 2.3919,
+      "step": 300
+    },
+    {
+      "epoch": 0.7,
+      "eval_accuracy": 0.5726067880606516,
+      "eval_loss": 2.382695436477661,
+      "eval_runtime": 58.2041,
+      "eval_samples_per_second": 7.388,
+      "eval_steps_per_second": 1.856,
+      "step": 300
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 2.0234392884764117e-05,
+      "loss": 2.3573,
+      "step": 305
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 2.019003866976025e-05,
+      "loss": 2.4338,
+      "step": 310
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 2.014568445475638e-05,
+      "loss": 2.398,
+      "step": 315
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 2.0101330239752515e-05,
+      "loss": 2.3701,
+      "step": 320
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 2.0056976024748648e-05,
+      "loss": 2.4837,
+      "step": 325
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 2.0012621809744778e-05,
+      "loss": 2.3821,
+      "step": 330
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 1.9968267594740914e-05,
+      "loss": 2.408,
+      "step": 335
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 1.9923913379737047e-05,
+      "loss": 2.386,
+      "step": 340
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 1.987955916473318e-05,
+      "loss": 2.4007,
+      "step": 345
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 1.9835204949729313e-05,
+      "loss": 2.44,
+      "step": 350
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 1.9790850734725446e-05,
+      "loss": 2.3848,
+      "step": 355
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 1.974649651972158e-05,
+      "loss": 2.3972,
+      "step": 360
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 1.970214230471771e-05,
+      "loss": 2.3759,
+      "step": 365
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 1.9657788089713844e-05,
+      "loss": 2.3842,
+      "step": 370
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 1.9613433874709977e-05,
+      "loss": 2.3788,
+      "step": 375
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 1.956907965970611e-05,
+      "loss": 2.4706,
+      "step": 380
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 1.9524725444702243e-05,
+      "loss": 2.3689,
+      "step": 385
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 1.948037122969838e-05,
+      "loss": 2.3853,
+      "step": 390
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 1.943601701469451e-05,
+      "loss": 2.4519,
+      "step": 395
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 1.939166279969064e-05,
+      "loss": 2.4222,
+      "step": 400
+    },
+    {
+      "epoch": 0.93,
+      "eval_accuracy": 0.5760144581599945,
+      "eval_loss": 2.3488640785217285,
+      "eval_runtime": 58.2409,
+      "eval_samples_per_second": 7.383,
+      "eval_steps_per_second": 1.854,
+      "step": 400
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 1.9347308584686778e-05,
+      "loss": 2.3769,
+      "step": 405
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 1.9302954369682907e-05,
+      "loss": 2.3834,
+      "step": 410
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 1.925860015467904e-05,
+      "loss": 2.4063,
+      "step": 415
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.9214245939675176e-05,
+      "loss": 2.3603,
+      "step": 420
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 1.9169891724671306e-05,
+      "loss": 2.3989,
+      "step": 425
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 1.912553750966744e-05,
+      "loss": 2.3888,
+      "step": 430
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 1.9081183294663575e-05,
+      "loss": 2.2754,
+      "step": 435
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 1.9036829079659708e-05,
+      "loss": 2.2926,
+      "step": 440
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 1.8992474864655837e-05,
+      "loss": 2.2617,
+      "step": 445
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 1.8948120649651974e-05,
+      "loss": 2.2712,
+      "step": 450
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 1.8903766434648107e-05,
+      "loss": 2.2109,
+      "step": 455
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 1.885941221964424e-05,
+      "loss": 2.258,
+      "step": 460
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 1.8815058004640372e-05,
+      "loss": 2.2625,
+      "step": 465
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 1.8770703789636505e-05,
+      "loss": 2.3066,
+      "step": 470
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 1.8726349574632638e-05,
+      "loss": 2.2384,
+      "step": 475
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 1.868199535962877e-05,
+      "loss": 2.2411,
+      "step": 480
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 1.8637641144624904e-05,
+      "loss": 2.2545,
+      "step": 485
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 1.8593286929621037e-05,
+      "loss": 2.2706,
+      "step": 490
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 1.854893271461717e-05,
+      "loss": 2.2407,
+      "step": 495
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 1.8504578499613303e-05,
+      "loss": 2.1958,
+      "step": 500
+    },
+    {
+      "epoch": 1.16,
+      "eval_accuracy": 0.5792607242719771,
+      "eval_loss": 2.3301777839660645,
+      "eval_runtime": 58.2054,
+      "eval_samples_per_second": 7.388,
+      "eval_steps_per_second": 1.855,
+      "step": 500
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 1.8460224284609435e-05,
+      "loss": 2.2448,
+      "step": 505
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 1.841587006960557e-05,
+      "loss": 2.3031,
+      "step": 510
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 1.83715158546017e-05,
+      "loss": 2.196,
+      "step": 515
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 1.8327161639597834e-05,
+      "loss": 2.3195,
+      "step": 520
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 1.8282807424593967e-05,
+      "loss": 2.2407,
+      "step": 525
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 1.82384532095901e-05,
+      "loss": 2.2314,
+      "step": 530
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 1.8194098994586236e-05,
+      "loss": 2.2374,
+      "step": 535
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 1.8149744779582366e-05,
+      "loss": 2.2567,
+      "step": 540
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 1.8105390564578502e-05,
+      "loss": 2.2234,
+      "step": 545
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 1.8061036349574635e-05,
+      "loss": 2.2688,
+      "step": 550
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 1.8016682134570764e-05,
+      "loss": 2.2644,
+      "step": 555
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 1.79723279195669e-05,
+      "loss": 2.255,
+      "step": 560
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 1.7927973704563033e-05,
+      "loss": 2.2402,
+      "step": 565
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 1.7883619489559163e-05,
+      "loss": 2.1857,
+      "step": 570
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 1.78392652745553e-05,
+      "loss": 2.278,
+      "step": 575
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 1.7794911059551432e-05,
+      "loss": 2.2623,
+      "step": 580
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 1.7750556844547565e-05,
+      "loss": 2.2192,
+      "step": 585
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 1.7706202629543698e-05,
+      "loss": 2.2716,
+      "step": 590
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 1.766184841453983e-05,
+      "loss": 2.2689,
+      "step": 595
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 1.7617494199535964e-05,
+      "loss": 2.2087,
+      "step": 600
+    },
+    {
+      "epoch": 1.39,
+      "eval_accuracy": 0.5817590761326695,
+      "eval_loss": 2.3123257160186768,
+      "eval_runtime": 58.2597,
+      "eval_samples_per_second": 7.381,
+      "eval_steps_per_second": 1.854,
+      "step": 600
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 1.7573139984532096e-05,
+      "loss": 2.2795,
+      "step": 605
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 1.752878576952823e-05,
+      "loss": 2.2978,
+      "step": 610
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 1.7484431554524362e-05,
+      "loss": 2.202,
+      "step": 615
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 1.7440077339520495e-05,
+      "loss": 2.2099,
+      "step": 620
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 1.7395723124516628e-05,
+      "loss": 2.2414,
+      "step": 625
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 1.7351368909512764e-05,
+      "loss": 2.2039,
+      "step": 630
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 1.7307014694508894e-05,
+      "loss": 2.2568,
+      "step": 635
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 1.7262660479505027e-05,
+      "loss": 2.2013,
+      "step": 640
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 1.7218306264501163e-05,
+      "loss": 2.2123,
+      "step": 645
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 1.7173952049497292e-05,
+      "loss": 2.2459,
+      "step": 650
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 1.7129597834493425e-05,
+      "loss": 2.3154,
+      "step": 655
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 1.708524361948956e-05,
+      "loss": 2.1588,
+      "step": 660
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 1.704088940448569e-05,
+      "loss": 2.2633,
+      "step": 665
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 1.6996535189481824e-05,
+      "loss": 2.2424,
+      "step": 670
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 1.695218097447796e-05,
+      "loss": 2.2245,
+      "step": 675
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 1.6907826759474093e-05,
+      "loss": 2.2103,
+      "step": 680
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 1.6863472544470223e-05,
+      "loss": 2.1734,
+      "step": 685
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 1.681911832946636e-05,
+      "loss": 2.1947,
+      "step": 690
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 1.6774764114462492e-05,
+      "loss": 2.2474,
+      "step": 695
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 1.673040989945862e-05,
+      "loss": 2.2436,
+      "step": 700
+    },
+    {
+      "epoch": 1.62,
+      "eval_accuracy": 0.5841005705971948,
+      "eval_loss": 2.2960166931152344,
+      "eval_runtime": 58.2447,
+      "eval_samples_per_second": 7.383,
+      "eval_steps_per_second": 1.854,
+      "step": 700
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 1.6686055684454758e-05,
+      "loss": 2.2242,
+      "step": 705
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 1.664170146945089e-05,
+      "loss": 2.1763,
+      "step": 710
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 1.6597347254447023e-05,
+      "loss": 2.2591,
+      "step": 715
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 1.6552993039443156e-05,
+      "loss": 2.2595,
+      "step": 720
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 1.650863882443929e-05,
+      "loss": 2.26,
+      "step": 725
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 1.6464284609435422e-05,
+      "loss": 2.2275,
+      "step": 730
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 1.6419930394431555e-05,
+      "loss": 2.1895,
+      "step": 735
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 1.6375576179427688e-05,
+      "loss": 2.1943,
+      "step": 740
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 1.633122196442382e-05,
+      "loss": 2.2282,
+      "step": 745
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 1.6286867749419954e-05,
+      "loss": 2.1926,
+      "step": 750
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 1.6242513534416086e-05,
+      "loss": 2.2124,
+      "step": 755
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 1.619815931941222e-05,
+      "loss": 2.2104,
+      "step": 760
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 1.6153805104408352e-05,
+      "loss": 2.1821,
+      "step": 765
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 1.6109450889404485e-05,
+      "loss": 2.2004,
+      "step": 770
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 1.606509667440062e-05,
+      "loss": 2.213,
+      "step": 775
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 1.602074245939675e-05,
+      "loss": 2.2022,
+      "step": 780
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 1.5976388244392884e-05,
+      "loss": 2.2303,
+      "step": 785
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 1.593203402938902e-05,
+      "loss": 2.173,
+      "step": 790
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 1.588767981438515e-05,
+      "loss": 2.1799,
+      "step": 795
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 1.5843325599381286e-05,
+      "loss": 2.1737,
+      "step": 800
+    },
+    {
+      "epoch": 1.86,
+      "eval_accuracy": 0.5866239287094501,
+      "eval_loss": 2.2810451984405518,
+      "eval_runtime": 58.2336,
+      "eval_samples_per_second": 7.384,
+      "eval_steps_per_second": 1.855,
+      "step": 800
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 1.579897138437742e-05,
+      "loss": 2.1741,
+      "step": 805
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 1.5754617169373548e-05,
+      "loss": 2.2198,
+      "step": 810
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 1.5710262954369684e-05,
+      "loss": 2.2216,
+      "step": 815
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 1.5665908739365817e-05,
+      "loss": 2.2283,
+      "step": 820
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 1.562155452436195e-05,
+      "loss": 2.1685,
+      "step": 825
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 1.5577200309358083e-05,
+      "loss": 2.2341,
+      "step": 830
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 1.5532846094354216e-05,
+      "loss": 2.2037,
+      "step": 835
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 1.548849187935035e-05,
+      "loss": 2.1839,
+      "step": 840
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 1.5444137664346482e-05,
+      "loss": 2.1978,
+      "step": 845
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 1.5399783449342615e-05,
+      "loss": 2.2348,
+      "step": 850
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 1.5355429234338747e-05,
+      "loss": 2.1423,
+      "step": 855
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 1.531107501933488e-05,
+      "loss": 2.2643,
+      "step": 860
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 1.5266720804331013e-05,
+      "loss": 2.2016,
+      "step": 865
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 1.5222366589327146e-05,
+      "loss": 2.1568,
+      "step": 870
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 1.517801237432328e-05,
+      "loss": 2.1041,
+      "step": 875
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 1.5133658159319412e-05,
+      "loss": 2.0597,
+      "step": 880
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 1.5089303944315546e-05,
+      "loss": 2.0842,
+      "step": 885
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 1.504494972931168e-05,
+      "loss": 2.09,
+      "step": 890
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 1.500059551430781e-05,
+      "loss": 2.1268,
+      "step": 895
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 1.4956241299303945e-05,
+      "loss": 2.0763,
+      "step": 900
+    },
+    {
+      "epoch": 2.09,
+      "eval_accuracy": 0.5876264520675624,
+      "eval_loss": 2.2779171466827393,
+      "eval_runtime": 58.2423,
+      "eval_samples_per_second": 7.383,
+      "eval_steps_per_second": 1.854,
+      "step": 900
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 1.4911887084300078e-05,
+      "loss": 2.0782,
+      "step": 905
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 1.486753286929621e-05,
+      "loss": 2.0983,
+      "step": 910
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 1.4823178654292344e-05,
+      "loss": 2.0846,
+      "step": 915
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 1.4778824439288477e-05,
+      "loss": 2.0959,
+      "step": 920
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 1.473447022428461e-05,
+      "loss": 2.091,
+      "step": 925
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 1.4690116009280744e-05,
+      "loss": 2.1233,
+      "step": 930
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 1.4645761794276875e-05,
+      "loss": 2.0943,
+      "step": 935
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 1.4601407579273008e-05,
+      "loss": 2.103,
+      "step": 940
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 1.4557053364269143e-05,
+      "loss": 2.1249,
+      "step": 945
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 1.4512699149265274e-05,
+      "loss": 2.0495,
+      "step": 950
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 1.4468344934261409e-05,
+      "loss": 2.0974,
+      "step": 955
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 1.4423990719257541e-05,
+      "loss": 2.1103,
+      "step": 960
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 1.4379636504253674e-05,
+      "loss": 2.1507,
+      "step": 965
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 1.4335282289249809e-05,
+      "loss": 2.1357,
+      "step": 970
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 1.429092807424594e-05,
+      "loss": 2.0539,
+      "step": 975
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 1.4246573859242073e-05,
+      "loss": 2.0619,
+      "step": 980
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 1.4202219644238208e-05,
+      "loss": 2.091,
+      "step": 985
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 1.4157865429234339e-05,
+      "loss": 2.1239,
+      "step": 990
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 1.4113511214230472e-05,
+      "loss": 2.0991,
+      "step": 995
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 1.4069156999226606e-05,
+      "loss": 2.0852,
+      "step": 1000
+    },
+    {
+      "epoch": 2.32,
+      "eval_accuracy": 0.5893882561549478,
+      "eval_loss": 2.2678375244140625,
+      "eval_runtime": 58.2516,
+      "eval_samples_per_second": 7.382,
+      "eval_steps_per_second": 1.854,
+      "step": 1000
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 1.4024802784222737e-05,
+      "loss": 2.0668,
+      "step": 1005
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 1.398044856921887e-05,
+      "loss": 2.1403,
+      "step": 1010
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 1.3936094354215005e-05,
+      "loss": 2.1447,
+      "step": 1015
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 1.3891740139211138e-05,
+      "loss": 2.0871,
+      "step": 1020
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 1.3847385924207269e-05,
+      "loss": 2.1181,
+      "step": 1025
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 1.3803031709203403e-05,
+      "loss": 2.0435,
+      "step": 1030
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 1.3758677494199536e-05,
+      "loss": 2.0696,
+      "step": 1035
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 1.3714323279195671e-05,
+      "loss": 2.1185,
+      "step": 1040
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 1.3669969064191802e-05,
+      "loss": 2.0651,
+      "step": 1045
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 1.3625614849187935e-05,
+      "loss": 2.0914,
+      "step": 1050
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 1.358126063418407e-05,
+      "loss": 2.0895,
+      "step": 1055
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 1.35369064191802e-05,
+      "loss": 2.1037,
+      "step": 1060
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 1.3492552204176334e-05,
+      "loss": 2.1207,
+      "step": 1065
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 1.3448197989172468e-05,
+      "loss": 2.0958,
+      "step": 1070
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 1.3403843774168601e-05,
+      "loss": 2.1155,
+      "step": 1075
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 1.3359489559164732e-05,
+      "loss": 2.0974,
+      "step": 1080
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 1.3315135344160867e-05,
+      "loss": 2.0724,
+      "step": 1085
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 1.3270781129157e-05,
+      "loss": 2.052,
+      "step": 1090
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 1.3226426914153131e-05,
+      "loss": 2.0653,
+      "step": 1095
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 1.3182072699149266e-05,
+      "loss": 2.0946,
+      "step": 1100
+    },
+    {
+      "epoch": 2.55,
+      "eval_accuracy": 0.5905817363431767,
+      "eval_loss": 2.25939679145813,
+      "eval_runtime": 58.2432,
+      "eval_samples_per_second": 7.383,
+      "eval_steps_per_second": 1.854,
+      "step": 1100
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 1.3137718484145398e-05,
+      "loss": 2.1256,
+      "step": 1105
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 1.3093364269141531e-05,
+      "loss": 2.0605,
+      "step": 1110
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 1.3049010054137666e-05,
+      "loss": 2.0764,
+      "step": 1115
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 1.3004655839133797e-05,
+      "loss": 2.1162,
+      "step": 1120
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 1.2960301624129932e-05,
+      "loss": 2.1343,
+      "step": 1125
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 1.2915947409126065e-05,
+      "loss": 2.1427,
+      "step": 1130
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 1.2871593194122196e-05,
+      "loss": 2.0705,
+      "step": 1135
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 1.282723897911833e-05,
+      "loss": 2.0804,
+      "step": 1140
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 1.2782884764114463e-05,
+      "loss": 2.0478,
+      "step": 1145
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 1.2738530549110594e-05,
+      "loss": 2.0797,
+      "step": 1150
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 1.2694176334106729e-05,
+      "loss": 2.0719,
+      "step": 1155
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 1.2649822119102862e-05,
+      "loss": 2.0958,
+      "step": 1160
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 1.2605467904098995e-05,
+      "loss": 2.0709,
+      "step": 1165
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 1.256111368909513e-05,
+      "loss": 2.0724,
+      "step": 1170
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 1.251675947409126e-05,
+      "loss": 2.0813,
+      "step": 1175
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 1.2472405259087393e-05,
+      "loss": 2.1098,
+      "step": 1180
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 1.2428051044083528e-05,
+      "loss": 2.0715,
+      "step": 1185
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 1.238369682907966e-05,
+      "loss": 2.0848,
+      "step": 1190
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 1.2339342614075792e-05,
+      "loss": 2.1323,
+      "step": 1195
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 1.2294988399071927e-05,
+      "loss": 2.0497,
+      "step": 1200
+    },
+    {
+      "epoch": 2.78,
+      "eval_accuracy": 0.5920070926822615,
+      "eval_loss": 2.2515528202056885,
+      "eval_runtime": 58.2138,
+      "eval_samples_per_second": 7.387,
+      "eval_steps_per_second": 1.855,
+      "step": 1200
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 1.2250634184068058e-05,
+      "loss": 2.0428,
+      "step": 1205
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 1.2206279969064194e-05,
+      "loss": 2.0776,
+      "step": 1210
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 1.2161925754060325e-05,
+      "loss": 2.1259,
+      "step": 1215
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 1.2117571539056458e-05,
+      "loss": 2.131,
+      "step": 1220
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 1.2073217324052593e-05,
+      "loss": 2.0149,
+      "step": 1225
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 1.2028863109048724e-05,
+      "loss": 2.1355,
+      "step": 1230
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 1.1984508894044857e-05,
+      "loss": 2.0664,
+      "step": 1235
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 1.1940154679040991e-05,
+      "loss": 2.0407,
+      "step": 1240
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 1.1895800464037123e-05,
+      "loss": 2.0636,
+      "step": 1245
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 1.1851446249033255e-05,
+      "loss": 2.0867,
+      "step": 1250
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 1.180709203402939e-05,
+      "loss": 2.0693,
+      "step": 1255
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 1.1762737819025523e-05,
+      "loss": 2.0812,
+      "step": 1260
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 1.1718383604021654e-05,
+      "loss": 2.1114,
+      "step": 1265
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 1.1674029389017789e-05,
+      "loss": 2.158,
+      "step": 1270
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 1.1629675174013922e-05,
+      "loss": 2.0781,
+      "step": 1275
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 1.1585320959010053e-05,
+      "loss": 2.1295,
+      "step": 1280
+    },
+    {
+      "epoch": 2.98,
+      "learning_rate": 1.1540966744006187e-05,
+      "loss": 2.0517,
+      "step": 1285
+    },
+    {
+      "epoch": 2.99,
+      "learning_rate": 1.149661252900232e-05,
+      "loss": 2.0954,
+      "step": 1290
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 1.1452258313998453e-05,
+      "loss": 2.0296,
+      "step": 1295
+    },
+    {
+      "epoch": 3.02,
+      "learning_rate": 1.1407904098994586e-05,
+      "loss": 2.0141,
+      "step": 1300
+    },
+    {
+      "epoch": 3.02,
+      "eval_accuracy": 0.5928277523926436,
+      "eval_loss": 2.251300573348999,
+      "eval_runtime": 58.199,
+      "eval_samples_per_second": 7.388,
+      "eval_steps_per_second": 1.856,
+      "step": 1300
+    },
+    {
+      "epoch": 3.03,
+      "learning_rate": 1.1363549883990719e-05,
+      "loss": 1.9846,
+      "step": 1305
+    },
+    {
+      "epoch": 3.04,
+      "learning_rate": 1.1319195668986852e-05,
+      "loss": 2.0017,
+      "step": 1310
+    },
+    {
+      "epoch": 3.05,
+      "learning_rate": 1.1274841453982986e-05,
+      "loss": 2.0075,
+      "step": 1315
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 1.123048723897912e-05,
+      "loss": 1.9859,
+      "step": 1320
+    },
+    {
+      "epoch": 3.07,
+      "learning_rate": 1.118613302397525e-05,
+      "loss": 1.959,
+      "step": 1325
+    },
+    {
+      "epoch": 3.09,
+      "learning_rate": 1.1141778808971385e-05,
+      "loss": 2.0016,
+      "step": 1330
+    },
+    {
+      "epoch": 3.1,
+      "learning_rate": 1.1097424593967518e-05,
+      "loss": 2.0378,
+      "step": 1335
+    },
+    {
+      "epoch": 3.11,
+      "learning_rate": 1.105307037896365e-05,
+      "loss": 1.9978,
+      "step": 1340
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 1.1008716163959784e-05,
+      "loss": 2.0025,
+      "step": 1345
+    },
+    {
+      "epoch": 3.13,
+      "learning_rate": 1.0964361948955917e-05,
+      "loss": 1.9221,
+      "step": 1350
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 1.0920007733952051e-05,
+      "loss": 1.9976,
+      "step": 1355
+    },
+    {
+      "epoch": 3.16,
+      "learning_rate": 1.0875653518948182e-05,
+      "loss": 1.9718,
+      "step": 1360
+    },
+    {
+      "epoch": 3.17,
+      "learning_rate": 1.0831299303944315e-05,
+      "loss": 2.0334,
+      "step": 1365
+    },
+    {
+      "epoch": 3.18,
+      "learning_rate": 1.078694508894045e-05,
+      "loss": 2.0087,
+      "step": 1370
+    },
+    {
+      "epoch": 3.19,
+      "learning_rate": 1.0742590873936581e-05,
+      "loss": 2.0111,
+      "step": 1375
+    },
+    {
+      "epoch": 3.2,
+      "learning_rate": 1.0698236658932716e-05,
+      "loss": 2.0332,
+      "step": 1380
+    },
+    {
+      "epoch": 3.21,
+      "learning_rate": 1.0653882443928848e-05,
+      "loss": 1.9301,
+      "step": 1385
+    },
+    {
+      "epoch": 3.23,
+      "learning_rate": 1.0609528228924981e-05,
+      "loss": 1.9898,
+      "step": 1390
+    },
+    {
+      "epoch": 3.24,
+      "learning_rate": 1.0565174013921114e-05,
+      "loss": 1.9965,
+      "step": 1395
+    },
+    {
+      "epoch": 3.25,
+      "learning_rate": 1.0520819798917247e-05,
+      "loss": 2.0316,
+      "step": 1400
+    },
+    {
+      "epoch": 3.25,
+      "eval_accuracy": 0.5931710200277343,
+      "eval_loss": 2.2504708766937256,
+      "eval_runtime": 58.2338,
+      "eval_samples_per_second": 7.384,
+      "eval_steps_per_second": 1.855,
+      "step": 1400
+    },
+    {
+      "epoch": 3.26,
+      "learning_rate": 1.047646558391338e-05,
+      "loss": 2.0107,
+      "step": 1405
+    },
+    {
+      "epoch": 3.27,
+      "learning_rate": 1.0432111368909513e-05,
+      "loss": 1.9955,
+      "step": 1410
+    },
+    {
+      "epoch": 3.28,
+      "learning_rate": 1.0387757153905646e-05,
+      "loss": 1.9849,
+      "step": 1415
+    },
+    {
+      "epoch": 3.29,
+      "learning_rate": 1.0343402938901779e-05,
+      "loss": 1.9644,
+      "step": 1420
+    },
+    {
+      "epoch": 3.31,
+      "learning_rate": 1.0299048723897911e-05,
+      "loss": 1.9953,
+      "step": 1425
+    },
+    {
+      "epoch": 3.32,
+      "learning_rate": 1.0254694508894044e-05,
+      "loss": 1.9783,
+      "step": 1430
+    },
+    {
+      "epoch": 3.33,
+      "learning_rate": 1.0210340293890179e-05,
+      "loss": 2.0231,
+      "step": 1435
+    },
+    {
+      "epoch": 3.34,
+      "learning_rate": 1.0165986078886312e-05,
+      "loss": 1.9832,
+      "step": 1440
+    },
+    {
+      "epoch": 3.35,
+      "learning_rate": 1.0121631863882443e-05,
+      "loss": 2.0026,
+      "step": 1445
+    },
+    {
+      "epoch": 3.36,
+      "learning_rate": 1.0077277648878578e-05,
+      "loss": 2.0112,
+      "step": 1450
+    },
+    {
+      "epoch": 3.38,
+      "learning_rate": 1.003292343387471e-05,
+      "loss": 2.0493,
+      "step": 1455
+    },
+    {
+      "epoch": 3.39,
+      "learning_rate": 9.988569218870843e-06,
+      "loss": 2.0369,
+      "step": 1460
+    },
+    {
+      "epoch": 3.4,
+      "learning_rate": 9.944215003866976e-06,
+      "loss": 1.9922,
+      "step": 1465
+    },
+    {
+      "epoch": 3.41,
+      "learning_rate": 9.899860788863109e-06,
+      "loss": 2.0055,
+      "step": 1470
+    },
+    {
+      "epoch": 3.42,
+      "learning_rate": 9.855506573859244e-06,
+      "loss": 1.9911,
+      "step": 1475
+    },
+    {
+      "epoch": 3.43,
+      "learning_rate": 9.811152358855375e-06,
+      "loss": 2.0245,
+      "step": 1480
+    },
+    {
+      "epoch": 3.45,
+      "learning_rate": 9.766798143851508e-06,
+      "loss": 1.9636,
+      "step": 1485
+    },
+    {
+      "epoch": 3.46,
+      "learning_rate": 9.722443928847642e-06,
+      "loss": 1.9372,
+      "step": 1490
+    },
+    {
+      "epoch": 3.47,
+      "learning_rate": 9.678089713843774e-06,
+      "loss": 1.9605,
+      "step": 1495
+    },
+    {
+      "epoch": 3.48,
+      "learning_rate": 9.633735498839908e-06,
+      "loss": 1.9783,
+      "step": 1500
+    },
+    {
+      "epoch": 3.48,
+      "eval_accuracy": 0.593768896769647,
+      "eval_loss": 2.2429721355438232,
+      "eval_runtime": 58.2214,
+      "eval_samples_per_second": 7.386,
+      "eval_steps_per_second": 1.855,
+      "step": 1500
+    },
+    {
+      "epoch": 3.49,
+      "learning_rate": 9.589381283836041e-06,
+      "loss": 1.9702,
+      "step": 1505
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 9.545027068832172e-06,
+      "loss": 1.9922,
+      "step": 1510
+    },
+    {
+      "epoch": 3.52,
+      "learning_rate": 9.500672853828307e-06,
+      "loss": 1.9904,
+      "step": 1515
+    },
+    {
+      "epoch": 3.53,
+      "learning_rate": 9.45631863882444e-06,
+      "loss": 2.0219,
+      "step": 1520
+    },
+    {
+      "epoch": 3.54,
+      "learning_rate": 9.411964423820573e-06,
+      "loss": 2.0095,
+      "step": 1525
+    },
+    {
+      "epoch": 3.55,
+      "learning_rate": 9.367610208816705e-06,
+      "loss": 1.9953,
+      "step": 1530
+    },
+    {
+      "epoch": 3.56,
+      "learning_rate": 9.323255993812838e-06,
+      "loss": 1.9974,
+      "step": 1535
+    },
+    {
+      "epoch": 3.57,
+      "learning_rate": 9.278901778808971e-06,
+      "loss": 1.9874,
+      "step": 1540
+    },
+    {
+      "epoch": 3.58,
+      "learning_rate": 9.234547563805104e-06,
+      "loss": 1.9871,
+      "step": 1545
+    },
+    {
+      "epoch": 3.6,
+      "learning_rate": 9.190193348801237e-06,
+      "loss": 1.997,
+      "step": 1550
+    },
+    {
+      "epoch": 3.61,
+      "learning_rate": 9.145839133797372e-06,
+      "loss": 2.0049,
+      "step": 1555
+    },
+    {
+      "epoch": 3.62,
+      "learning_rate": 9.101484918793504e-06,
+      "loss": 1.9514,
+      "step": 1560
+    },
+    {
+      "epoch": 3.63,
+      "learning_rate": 9.057130703789636e-06,
+      "loss": 1.9647,
+      "step": 1565
+    },
+    {
+      "epoch": 3.64,
+      "learning_rate": 9.01277648878577e-06,
+      "loss": 1.9638,
+      "step": 1570
+    },
+    {
+      "epoch": 3.65,
+      "learning_rate": 8.968422273781903e-06,
+      "loss": 2.0392,
+      "step": 1575
+    },
+    {
+      "epoch": 3.67,
+      "learning_rate": 8.924068058778036e-06,
+      "loss": 2.0167,
+      "step": 1580
+    },
+    {
+      "epoch": 3.68,
+      "learning_rate": 8.879713843774169e-06,
+      "loss": 2.0097,
+      "step": 1585
+    },
+    {
+      "epoch": 3.69,
+      "learning_rate": 8.835359628770302e-06,
+      "loss": 1.9624,
+      "step": 1590
+    },
+    {
+      "epoch": 3.7,
+      "learning_rate": 8.791005413766435e-06,
+      "loss": 2.0064,
+      "step": 1595
+    },
+    {
+      "epoch": 3.71,
+      "learning_rate": 8.746651198762568e-06,
+      "loss": 1.9917,
+      "step": 1600
+    },
+    {
+      "epoch": 3.71,
+      "eval_accuracy": 0.5947941530837255,
+      "eval_loss": 2.238585948944092,
+      "eval_runtime": 58.2344,
+      "eval_samples_per_second": 7.384,
+      "eval_steps_per_second": 1.855,
+      "step": 1600
+    },
+    {
+      "epoch": 3.72,
+      "learning_rate": 8.7022969837587e-06,
+      "loss": 2.0178,
+      "step": 1605
+    },
+    {
+      "epoch": 3.74,
+      "learning_rate": 8.657942768754835e-06,
+      "loss": 1.995,
+      "step": 1610
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 8.613588553750966e-06,
+      "loss": 2.0199,
+      "step": 1615
+    },
+    {
+      "epoch": 3.76,
+      "learning_rate": 8.5692343387471e-06,
+      "loss": 2.0151,
+      "step": 1620
+    },
+    {
+      "epoch": 3.77,
+      "learning_rate": 8.524880123743234e-06,
+      "loss": 1.9532,
+      "step": 1625
+    },
+    {
+      "epoch": 3.78,
+      "learning_rate": 8.480525908739365e-06,
+      "loss": 1.9242,
+      "step": 1630
+    },
+    {
+      "epoch": 3.79,
+      "learning_rate": 8.4361716937355e-06,
+      "loss": 1.9664,
+      "step": 1635
+    },
+    {
+      "epoch": 3.81,
+      "learning_rate": 8.391817478731632e-06,
+      "loss": 1.9545,
+      "step": 1640
+    },
+    {
+      "epoch": 3.82,
+      "learning_rate": 8.347463263727765e-06,
+      "loss": 1.9732,
+      "step": 1645
+    },
+    {
+      "epoch": 3.83,
+      "learning_rate": 8.303109048723898e-06,
+      "loss": 1.9884,
+      "step": 1650
+    },
+    {
+      "epoch": 3.84,
+      "learning_rate": 8.258754833720031e-06,
+      "loss": 2.0224,
+      "step": 1655
+    },
+    {
+      "epoch": 3.85,
+      "learning_rate": 8.214400618716164e-06,
+      "loss": 1.9914,
+      "step": 1660
+    },
+    {
+      "epoch": 3.86,
+      "learning_rate": 8.170046403712297e-06,
+      "loss": 1.9627,
+      "step": 1665
+    },
+    {
+      "epoch": 3.87,
+      "learning_rate": 8.12569218870843e-06,
+      "loss": 1.977,
+      "step": 1670
+    },
+    {
+      "epoch": 3.89,
+      "learning_rate": 8.081337973704564e-06,
+      "loss": 2.0249,
+      "step": 1675
+    },
+    {
+      "epoch": 3.9,
+      "learning_rate": 8.036983758700697e-06,
+      "loss": 2.067,
+      "step": 1680
+    },
+    {
+      "epoch": 3.91,
+      "learning_rate": 7.992629543696828e-06,
+      "loss": 1.9708,
+      "step": 1685
+    },
+    {
+      "epoch": 3.92,
+      "learning_rate": 7.948275328692963e-06,
+      "loss": 1.9988,
+      "step": 1690
+    },
+    {
+      "epoch": 3.93,
+      "learning_rate": 7.903921113689096e-06,
+      "loss": 2.0803,
+      "step": 1695
+    },
+    {
+      "epoch": 3.94,
+      "learning_rate": 7.859566898685229e-06,
+      "loss": 2.0152,
+      "step": 1700
+    },
+    {
+      "epoch": 3.94,
+      "eval_accuracy": 0.596026279297097,
+      "eval_loss": 2.2315049171447754,
+      "eval_runtime": 58.2112,
+      "eval_samples_per_second": 7.387,
+      "eval_steps_per_second": 1.855,
+      "step": 1700
+    },
+    {
+      "epoch": 3.96,
+      "learning_rate": 7.815212683681361e-06,
+      "loss": 1.9705,
+      "step": 1705
+    },
+    {
+      "epoch": 3.97,
+      "learning_rate": 7.770858468677494e-06,
+      "loss": 1.9686,
+      "step": 1710
+    },
+    {
+      "epoch": 3.98,
+      "learning_rate": 7.726504253673627e-06,
+      "loss": 1.9508,
+      "step": 1715
+    },
+    {
+      "epoch": 3.99,
+      "learning_rate": 7.68215003866976e-06,
+      "loss": 1.9775,
+      "step": 1720
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 7.637795823665893e-06,
+      "loss": 1.9657,
+      "step": 1725
+    },
+    {
+      "epoch": 4.01,
+      "learning_rate": 7.593441608662027e-06,
+      "loss": 1.8765,
+      "step": 1730
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 7.549087393658159e-06,
+      "loss": 1.9449,
+      "step": 1735
+    },
+    {
+      "epoch": 4.04,
+      "learning_rate": 7.5047331786542925e-06,
+      "loss": 1.9377,
+      "step": 1740
+    },
+    {
+      "epoch": 4.05,
+      "learning_rate": 7.460378963650426e-06,
+      "loss": 1.8993,
+      "step": 1745
+    },
+    {
+      "epoch": 4.06,
+      "learning_rate": 7.416024748646558e-06,
+      "loss": 1.9302,
+      "step": 1750
+    },
+    {
+      "epoch": 4.07,
+      "learning_rate": 7.371670533642691e-06,
+      "loss": 1.9457,
+      "step": 1755
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 7.327316318638825e-06,
+      "loss": 1.9081,
+      "step": 1760
+    },
+    {
+      "epoch": 4.1,
+      "learning_rate": 7.282962103634959e-06,
+      "loss": 1.906,
+      "step": 1765
+    },
+    {
+      "epoch": 4.11,
+      "learning_rate": 7.238607888631091e-06,
+      "loss": 1.9133,
+      "step": 1770
+    },
+    {
+      "epoch": 4.12,
+      "learning_rate": 7.1942536736272235e-06,
+      "loss": 1.9495,
+      "step": 1775
+    },
+    {
+      "epoch": 4.13,
+      "learning_rate": 7.149899458623357e-06,
+      "loss": 1.8968,
+      "step": 1780
+    },
+    {
+      "epoch": 4.14,
+      "learning_rate": 7.105545243619489e-06,
+      "loss": 1.8823,
+      "step": 1785
+    },
+    {
+      "epoch": 4.15,
+      "learning_rate": 7.061191028615623e-06,
+      "loss": 1.9294,
+      "step": 1790
+    },
+    {
+      "epoch": 4.16,
+      "learning_rate": 7.016836813611756e-06,
+      "loss": 1.9581,
+      "step": 1795
+    },
+    {
+      "epoch": 4.18,
+      "learning_rate": 6.972482598607888e-06,
+      "loss": 1.886,
+      "step": 1800
+    },
+    {
+      "epoch": 4.18,
+      "eval_accuracy": 0.5957148378003592,
+      "eval_loss": 2.241971969604492,
+      "eval_runtime": 58.1995,
+      "eval_samples_per_second": 7.388,
+      "eval_steps_per_second": 1.856,
+      "step": 1800
+    },
+    {
+      "epoch": 4.19,
+      "learning_rate": 6.928128383604022e-06,
+      "loss": 1.9006,
+      "step": 1805
+    },
+    {
+      "epoch": 4.2,
+      "learning_rate": 6.883774168600155e-06,
+      "loss": 1.9951,
+      "step": 1810
+    },
+    {
+      "epoch": 4.21,
+      "learning_rate": 6.839419953596288e-06,
+      "loss": 1.8455,
+      "step": 1815
+    },
+    {
+      "epoch": 4.22,
+      "learning_rate": 6.79506573859242e-06,
+      "loss": 1.9753,
+      "step": 1820
+    },
+    {
+      "epoch": 4.23,
+      "learning_rate": 6.750711523588554e-06,
+      "loss": 1.9538,
+      "step": 1825
+    },
+    {
+      "epoch": 4.25,
+      "learning_rate": 6.706357308584687e-06,
+      "loss": 1.9943,
+      "step": 1830
+    },
+    {
+      "epoch": 4.26,
+      "learning_rate": 6.66200309358082e-06,
+      "loss": 1.873,
+      "step": 1835
+    },
+    {
+      "epoch": 4.27,
+      "learning_rate": 6.617648878576953e-06,
+      "loss": 1.9086,
+      "step": 1840
+    },
+    {
+      "epoch": 4.28,
+      "learning_rate": 6.5732946635730864e-06,
+      "loss": 1.9429,
+      "step": 1845
+    },
+    {
+      "epoch": 4.29,
+      "learning_rate": 6.528940448569219e-06,
+      "loss": 1.9145,
+      "step": 1850
+    },
+    {
+      "epoch": 4.3,
+      "learning_rate": 6.484586233565351e-06,
+      "loss": 1.9733,
+      "step": 1855
+    },
+    {
+      "epoch": 4.32,
+      "learning_rate": 6.440232018561485e-06,
+      "loss": 1.9154,
+      "step": 1860
+    },
+    {
+      "epoch": 4.33,
+      "learning_rate": 6.395877803557619e-06,
+      "loss": 1.9516,
+      "step": 1865
+    },
+    {
+      "epoch": 4.34,
+      "learning_rate": 6.351523588553751e-06,
+      "loss": 1.841,
+      "step": 1870
+    },
+    {
+      "epoch": 4.35,
+      "learning_rate": 6.307169373549884e-06,
+      "loss": 1.964,
+      "step": 1875
+    },
+    {
+      "epoch": 4.36,
+      "learning_rate": 6.2628151585460175e-06,
+      "loss": 1.897,
+      "step": 1880
+    },
+    {
+      "epoch": 4.37,
+      "learning_rate": 6.2184609435421495e-06,
+      "loss": 1.9151,
+      "step": 1885
+    },
+    {
+      "epoch": 4.39,
+      "learning_rate": 6.174106728538283e-06,
+      "loss": 1.901,
+      "step": 1890
+    },
+    {
+      "epoch": 4.4,
+      "learning_rate": 6.129752513534416e-06,
+      "loss": 1.9238,
+      "step": 1895
+    },
+    {
+      "epoch": 4.41,
+      "learning_rate": 6.08539829853055e-06,
+      "loss": 1.9151,
+      "step": 1900
+    },
+    {
+      "epoch": 4.41,
+      "eval_accuracy": 0.5966559821773625,
+      "eval_loss": 2.2408835887908936,
+      "eval_runtime": 58.2356,
+      "eval_samples_per_second": 7.384,
+      "eval_steps_per_second": 1.855,
+      "step": 1900
+    },
+    {
+      "epoch": 4.42,
+      "learning_rate": 6.041044083526682e-06,
+      "loss": 1.8906,
+      "step": 1905
+    },
+    {
+      "epoch": 4.43,
+      "learning_rate": 5.996689868522816e-06,
+      "loss": 1.8945,
+      "step": 1910
+    },
+    {
+      "epoch": 4.44,
+      "learning_rate": 5.9523356535189485e-06,
+      "loss": 1.8905,
+      "step": 1915
+    },
+    {
+      "epoch": 4.45,
+      "learning_rate": 5.9079814385150805e-06,
+      "loss": 1.9209,
+      "step": 1920
+    },
+    {
+      "epoch": 4.47,
+      "learning_rate": 5.863627223511214e-06,
+      "loss": 1.8885,
+      "step": 1925
+    },
+    {
+      "epoch": 4.48,
+      "learning_rate": 5.819273008507348e-06,
+      "loss": 1.8773,
+      "step": 1930
+    },
+    {
+      "epoch": 4.49,
+      "learning_rate": 5.774918793503481e-06,
+      "loss": 1.9252,
+      "step": 1935
+    },
+    {
+      "epoch": 4.5,
+      "learning_rate": 5.730564578499614e-06,
+      "loss": 1.9655,
+      "step": 1940
+    },
+    {
+      "epoch": 4.51,
+      "learning_rate": 5.686210363495747e-06,
+      "loss": 1.9207,
+      "step": 1945
+    },
+    {
+      "epoch": 4.52,
+      "learning_rate": 5.6418561484918795e-06,
+      "loss": 1.9147,
+      "step": 1950
+    },
+    {
+      "epoch": 4.54,
+      "learning_rate": 5.5975019334880124e-06,
+      "loss": 1.8857,
+      "step": 1955
+    },
+    {
+      "epoch": 4.55,
+      "learning_rate": 5.553147718484145e-06,
+      "loss": 1.959,
+      "step": 1960
+    },
+    {
+      "epoch": 4.56,
+      "learning_rate": 5.508793503480279e-06,
+      "loss": 1.8938,
+      "step": 1965
+    },
+    {
+      "epoch": 4.57,
+      "learning_rate": 5.464439288476412e-06,
+      "loss": 1.9368,
+      "step": 1970
+    },
+    {
+      "epoch": 4.58,
+      "learning_rate": 5.420085073472544e-06,
+      "loss": 1.9247,
+      "step": 1975
+    },
+    {
+      "epoch": 4.59,
+      "learning_rate": 5.375730858468678e-06,
+      "loss": 1.9154,
+      "step": 1980
+    },
+    {
+      "epoch": 4.61,
+      "learning_rate": 5.331376643464811e-06,
+      "loss": 1.8864,
+      "step": 1985
+    },
+    {
+      "epoch": 4.62,
+      "learning_rate": 5.2870224284609435e-06,
+      "loss": 1.9635,
+      "step": 1990
+    },
+    {
+      "epoch": 4.63,
+      "learning_rate": 5.242668213457076e-06,
+      "loss": 1.891,
+      "step": 1995
+    },
+    {
+      "epoch": 4.64,
+      "learning_rate": 5.19831399845321e-06,
+      "loss": 1.9538,
+      "step": 2000
+    },
+    {
+      "epoch": 4.64,
+      "eval_accuracy": 0.5971379208438473,
+      "eval_loss": 2.2378673553466797,
+      "eval_runtime": 58.2169,
+      "eval_samples_per_second": 7.386,
+      "eval_steps_per_second": 1.855,
+      "step": 2000
+    },
+    {
+      "epoch": 4.65,
+      "learning_rate": 5.153959783449343e-06,
+      "loss": 1.9781,
+      "step": 2005
+    },
+    {
+      "epoch": 4.66,
+      "learning_rate": 5.109605568445476e-06,
+      "loss": 1.9347,
+      "step": 2010
+    },
+    {
+      "epoch": 4.68,
+      "learning_rate": 5.065251353441609e-06,
+      "loss": 1.9551,
+      "step": 2015
+    },
+    {
+      "epoch": 4.69,
+      "learning_rate": 5.020897138437742e-06,
+      "loss": 1.8674,
+      "step": 2020
+    },
+    {
+      "epoch": 4.7,
+      "learning_rate": 4.976542923433875e-06,
+      "loss": 1.9526,
+      "step": 2025
+    },
+    {
+      "epoch": 4.71,
+      "learning_rate": 4.932188708430008e-06,
+      "loss": 1.9281,
+      "step": 2030
+    },
+    {
+      "epoch": 4.72,
+      "learning_rate": 4.88783449342614e-06,
+      "loss": 1.909,
+      "step": 2035
+    },
+    {
+      "epoch": 4.73,
+      "learning_rate": 4.843480278422274e-06,
+      "loss": 1.9404,
+      "step": 2040
+    },
+    {
+      "epoch": 4.74,
+      "learning_rate": 4.799126063418407e-06,
+      "loss": 1.9413,
+      "step": 2045
+    },
+    {
+      "epoch": 4.76,
+      "learning_rate": 4.75477184841454e-06,
+      "loss": 1.9653,
+      "step": 2050
+    },
+    {
+      "epoch": 4.77,
+      "learning_rate": 4.710417633410673e-06,
+      "loss": 1.931,
+      "step": 2055
+    },
+    {
+      "epoch": 4.78,
+      "learning_rate": 4.6660634184068055e-06,
+      "loss": 1.9733,
+      "step": 2060
+    },
+    {
+      "epoch": 4.79,
+      "learning_rate": 4.621709203402939e-06,
+      "loss": 1.8921,
+      "step": 2065
+    },
+    {
+      "epoch": 4.8,
+      "learning_rate": 4.577354988399072e-06,
+      "loss": 1.9374,
+      "step": 2070
+    },
+    {
+      "epoch": 4.81,
+      "learning_rate": 4.533000773395205e-06,
+      "loss": 1.9668,
+      "step": 2075
+    },
+    {
+      "epoch": 4.83,
+      "learning_rate": 4.488646558391338e-06,
+      "loss": 1.8869,
+      "step": 2080
+    },
+    {
+      "epoch": 4.84,
+      "learning_rate": 4.444292343387472e-06,
+      "loss": 1.9688,
+      "step": 2085
+    },
+    {
+      "epoch": 4.85,
+      "learning_rate": 4.3999381283836045e-06,
+      "loss": 1.9266,
+      "step": 2090
+    },
+    {
+      "epoch": 4.86,
+      "learning_rate": 4.3555839133797366e-06,
+      "loss": 1.907,
+      "step": 2095
+    },
+    {
+      "epoch": 4.87,
+      "learning_rate": 4.31122969837587e-06,
+      "loss": 1.8886,
+      "step": 2100
+    },
+    {
+      "epoch": 4.87,
+      "eval_accuracy": 0.5975880333719794,
+      "eval_loss": 2.2348711490631104,
+      "eval_runtime": 58.2184,
+      "eval_samples_per_second": 7.386,
+      "eval_steps_per_second": 1.855,
+      "step": 2100
+    },
+    {
+      "epoch": 4.88,
+      "learning_rate": 4.266875483372003e-06,
+      "loss": 1.9057,
+      "step": 2105
+    },
+    {
+      "epoch": 4.9,
+      "learning_rate": 4.222521268368136e-06,
+      "loss": 1.9208,
+      "step": 2110
+    },
+    {
+      "epoch": 4.91,
+      "learning_rate": 4.178167053364269e-06,
+      "loss": 1.9621,
+      "step": 2115
+    },
+    {
+      "epoch": 4.92,
+      "learning_rate": 4.133812838360402e-06,
+      "loss": 1.9827,
+      "step": 2120
+    },
+    {
+      "epoch": 4.93,
+      "learning_rate": 4.0894586233565356e-06,
+      "loss": 1.925,
+      "step": 2125
+    },
+    {
+      "epoch": 4.94,
+      "learning_rate": 4.0451044083526684e-06,
+      "loss": 1.958,
+      "step": 2130
+    },
+    {
+      "epoch": 4.95,
+      "learning_rate": 4.000750193348801e-06,
+      "loss": 1.9232,
+      "step": 2135
+    },
+    {
+      "epoch": 4.97,
+      "learning_rate": 3.956395978344934e-06,
+      "loss": 1.8868,
+      "step": 2140
+    },
+    {
+      "epoch": 4.98,
+      "learning_rate": 3.912041763341068e-06,
+      "loss": 1.8728,
+      "step": 2145
+    },
+    {
+      "epoch": 4.99,
+      "learning_rate": 3.867687548337201e-06,
+      "loss": 1.9234,
+      "step": 2150
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 3.823333333333333e-06,
+      "loss": 1.9097,
+      "step": 2155
+    },
+    {
+      "epoch": 5.01,
+      "learning_rate": 3.7789791183294666e-06,
+      "loss": 1.9308,
+      "step": 2160
+    },
+    {
+      "epoch": 5.02,
+      "learning_rate": 3.7346249033255995e-06,
+      "loss": 1.9104,
+      "step": 2165
+    },
+    {
+      "epoch": 5.03,
+      "learning_rate": 3.690270688321733e-06,
+      "loss": 1.8072,
+      "step": 2170
+    },
+    {
+      "epoch": 5.05,
+      "learning_rate": 3.6459164733178657e-06,
+      "loss": 1.9154,
+      "step": 2175
+    },
+    {
+      "epoch": 5.06,
+      "learning_rate": 3.601562258313998e-06,
+      "loss": 1.8595,
+      "step": 2180
+    },
+    {
+      "epoch": 5.07,
+      "learning_rate": 3.557208043310132e-06,
+      "loss": 1.8349,
+      "step": 2185
+    },
+    {
+      "epoch": 5.08,
+      "learning_rate": 3.5128538283062643e-06,
+      "loss": 1.8689,
+      "step": 2190
+    },
+    {
+      "epoch": 5.09,
+      "learning_rate": 3.4684996133023976e-06,
+      "loss": 1.8304,
+      "step": 2195
+    },
+    {
+      "epoch": 5.1,
+      "learning_rate": 3.4241453982985305e-06,
+      "loss": 1.9408,
+      "step": 2200
+    },
+    {
+      "epoch": 5.1,
+      "eval_accuracy": 0.5974516356361818,
+      "eval_loss": 2.2409677505493164,
+      "eval_runtime": 58.2193,
+      "eval_samples_per_second": 7.386,
+      "eval_steps_per_second": 1.855,
+      "step": 2200
+    },
+    {
+      "epoch": 5.12,
+      "learning_rate": 3.3797911832946634e-06,
+      "loss": 1.8922,
+      "step": 2205
+    },
+    {
+      "epoch": 5.13,
+      "learning_rate": 3.3354369682907967e-06,
+      "loss": 1.8482,
+      "step": 2210
+    },
+    {
+      "epoch": 5.14,
+      "learning_rate": 3.2910827532869296e-06,
+      "loss": 1.9108,
+      "step": 2215
+    },
+    {
+      "epoch": 5.15,
+      "learning_rate": 3.246728538283063e-06,
+      "loss": 1.8998,
+      "step": 2220
+    },
+    {
+      "epoch": 5.16,
+      "learning_rate": 3.2023743232791958e-06,
+      "loss": 1.8573,
+      "step": 2225
+    },
+    {
+      "epoch": 5.17,
+      "learning_rate": 3.158020108275329e-06,
+      "loss": 1.8576,
+      "step": 2230
+    },
+    {
+      "epoch": 5.19,
+      "learning_rate": 3.113665893271462e-06,
+      "loss": 1.9237,
+      "step": 2235
+    },
+    {
+      "epoch": 5.2,
+      "learning_rate": 3.0693116782675944e-06,
+      "loss": 1.8795,
+      "step": 2240
+    },
+    {
+      "epoch": 5.21,
+      "learning_rate": 3.024957463263728e-06,
+      "loss": 1.8451,
+      "step": 2245
+    },
+    {
+      "epoch": 5.22,
+      "learning_rate": 2.9806032482598606e-06,
+      "loss": 1.8141,
+      "step": 2250
+    },
+    {
+      "epoch": 5.23,
+      "learning_rate": 2.936249033255994e-06,
+      "loss": 1.8714,
+      "step": 2255
+    },
+    {
+      "epoch": 5.24,
+      "learning_rate": 2.891894818252127e-06,
+      "loss": 1.8939,
+      "step": 2260
+    },
+    {
+      "epoch": 5.26,
+      "learning_rate": 2.84754060324826e-06,
+      "loss": 1.8502,
+      "step": 2265
+    },
+    {
+      "epoch": 5.27,
+      "learning_rate": 2.803186388244393e-06,
+      "loss": 1.8796,
+      "step": 2270
+    },
+    {
+      "epoch": 5.28,
+      "learning_rate": 2.7588321732405263e-06,
+      "loss": 1.884,
+      "step": 2275
+    },
+    {
+      "epoch": 5.29,
+      "learning_rate": 2.7144779582366588e-06,
+      "loss": 1.9446,
+      "step": 2280
+    },
+    {
+      "epoch": 5.3,
+      "learning_rate": 2.670123743232792e-06,
+      "loss": 1.912,
+      "step": 2285
+    },
+    {
+      "epoch": 5.31,
+      "learning_rate": 2.625769528228925e-06,
+      "loss": 1.9372,
+      "step": 2290
+    },
+    {
+      "epoch": 5.32,
+      "learning_rate": 2.5814153132250583e-06,
+      "loss": 1.873,
+      "step": 2295
+    },
+    {
+      "epoch": 5.34,
+      "learning_rate": 2.537061098221191e-06,
+      "loss": 1.9168,
+      "step": 2300
+    },
+    {
+      "epoch": 5.34,
+      "eval_accuracy": 0.5975857600763828,
+      "eval_loss": 2.239448070526123,
+      "eval_runtime": 58.2108,
+      "eval_samples_per_second": 7.387,
+      "eval_steps_per_second": 1.855,
+      "step": 2300
+    },
+    {
+      "epoch": 5.35,
+      "learning_rate": 2.492706883217324e-06,
+      "loss": 1.8444,
+      "step": 2305
+    },
+    {
+      "epoch": 5.36,
+      "learning_rate": 2.448352668213457e-06,
+      "loss": 1.9179,
+      "step": 2310
+    },
+    {
+      "epoch": 5.37,
+      "learning_rate": 2.4039984532095902e-06,
+      "loss": 1.8802,
+      "step": 2315
+    },
+    {
+      "epoch": 5.38,
+      "learning_rate": 2.359644238205723e-06,
+      "loss": 1.8798,
+      "step": 2320
+    },
+    {
+      "epoch": 5.39,
+      "learning_rate": 2.3152900232018564e-06,
+      "loss": 1.922,
+      "step": 2325
+    },
+    {
+      "epoch": 5.41,
+      "learning_rate": 2.2709358081979893e-06,
+      "loss": 1.8982,
+      "step": 2330
+    },
+    {
+      "epoch": 5.42,
+      "learning_rate": 2.226581593194122e-06,
+      "loss": 1.853,
+      "step": 2335
+    },
+    {
+      "epoch": 5.43,
+      "learning_rate": 2.182227378190255e-06,
+      "loss": 1.8815,
+      "step": 2340
+    },
+    {
+      "epoch": 5.44,
+      "learning_rate": 2.1378731631863884e-06,
+      "loss": 1.8678,
+      "step": 2345
+    },
+    {
+      "epoch": 5.45,
+      "learning_rate": 2.0935189481825213e-06,
+      "loss": 1.7827,
+      "step": 2350
+    },
+    {
+      "epoch": 5.46,
+      "learning_rate": 2.0491647331786546e-06,
+      "loss": 1.797,
+      "step": 2355
+    },
+    {
+      "epoch": 5.48,
+      "learning_rate": 2.0048105181747875e-06,
+      "loss": 1.8769,
+      "step": 2360
+    },
+    {
+      "epoch": 5.49,
+      "learning_rate": 1.9604563031709203e-06,
+      "loss": 1.8924,
+      "step": 2365
+    },
+    {
+      "epoch": 5.5,
+      "learning_rate": 1.9161020881670532e-06,
+      "loss": 1.9016,
+      "step": 2370
+    },
+    {
+      "epoch": 5.51,
+      "learning_rate": 1.8717478731631863e-06,
+      "loss": 1.838,
+      "step": 2375
+    },
+    {
+      "epoch": 5.52,
+      "learning_rate": 1.8273936581593194e-06,
+      "loss": 1.8716,
+      "step": 2380
+    },
+    {
+      "epoch": 5.53,
+      "learning_rate": 1.7830394431554525e-06,
+      "loss": 1.8949,
+      "step": 2385
+    },
+    {
+      "epoch": 5.55,
+      "learning_rate": 1.7386852281515856e-06,
+      "loss": 1.9195,
+      "step": 2390
+    },
+    {
+      "epoch": 5.56,
+      "learning_rate": 1.6943310131477185e-06,
+      "loss": 1.917,
+      "step": 2395
+    },
+    {
+      "epoch": 5.57,
+      "learning_rate": 1.6499767981438514e-06,
+      "loss": 1.8002,
+      "step": 2400
+    },
+    {
+      "epoch": 5.57,
+      "eval_accuracy": 0.5977403441769533,
+      "eval_loss": 2.238140106201172,
+      "eval_runtime": 58.2064,
+      "eval_samples_per_second": 7.388,
+      "eval_steps_per_second": 1.855,
+      "step": 2400
+    },
+    {
+      "epoch": 5.58,
+      "learning_rate": 1.6056225831399845e-06,
+      "loss": 1.8851,
+      "step": 2405
+    },
+    {
+      "epoch": 5.59,
+      "learning_rate": 1.5612683681361176e-06,
+      "loss": 1.9006,
+      "step": 2410
+    },
+    {
+      "epoch": 5.6,
+      "learning_rate": 1.5169141531322507e-06,
+      "loss": 1.863,
+      "step": 2415
+    },
+    {
+      "epoch": 5.61,
+      "learning_rate": 1.4725599381283838e-06,
+      "loss": 1.9131,
+      "step": 2420
+    },
+    {
+      "epoch": 5.63,
+      "learning_rate": 1.4282057231245166e-06,
+      "loss": 1.8538,
+      "step": 2425
+    },
+    {
+      "epoch": 5.64,
+      "learning_rate": 1.3838515081206495e-06,
+      "loss": 1.8868,
+      "step": 2430
+    },
+    {
+      "epoch": 5.65,
+      "learning_rate": 1.3394972931167826e-06,
+      "loss": 1.8671,
+      "step": 2435
+    },
+    {
+      "epoch": 5.66,
+      "learning_rate": 1.2951430781129157e-06,
+      "loss": 1.922,
+      "step": 2440
+    },
+    {
+      "epoch": 5.67,
+      "learning_rate": 1.2507888631090486e-06,
+      "loss": 1.816,
+      "step": 2445
+    },
+    {
+      "epoch": 5.68,
+      "learning_rate": 1.2064346481051817e-06,
+      "loss": 1.8375,
+      "step": 2450
+    },
+    {
+      "epoch": 5.7,
+      "learning_rate": 1.1620804331013148e-06,
+      "loss": 1.8747,
+      "step": 2455
+    },
+    {
+      "epoch": 5.71,
+      "learning_rate": 1.1177262180974477e-06,
+      "loss": 1.8866,
+      "step": 2460
+    },
+    {
+      "epoch": 5.72,
+      "learning_rate": 1.0733720030935808e-06,
+      "loss": 1.8335,
+      "step": 2465
+    },
+    {
+      "epoch": 5.73,
+      "learning_rate": 1.0290177880897139e-06,
+      "loss": 1.8518,
+      "step": 2470
+    },
+    {
+      "epoch": 5.74,
+      "learning_rate": 9.846635730858468e-07,
+      "loss": 1.957,
+      "step": 2475
+    },
+    {
+      "epoch": 5.75,
+      "learning_rate": 9.4030935808198e-07,
+      "loss": 1.9421,
+      "step": 2480
+    },
+    {
+      "epoch": 5.77,
+      "learning_rate": 8.959551430781131e-07,
+      "loss": 1.8889,
+      "step": 2485
+    },
+    {
+      "epoch": 5.78,
+      "learning_rate": 8.516009280742459e-07,
+      "loss": 1.8684,
+      "step": 2490
+    },
+    {
+      "epoch": 5.79,
+      "learning_rate": 8.07246713070379e-07,
+      "loss": 1.8269,
+      "step": 2495
+    },
+    {
+      "epoch": 5.8,
+      "learning_rate": 7.628924980665121e-07,
+      "loss": 1.8888,
+      "step": 2500
+    },
+    {
+      "epoch": 5.8,
+      "eval_accuracy": 0.5977812634976926,
+      "eval_loss": 2.2366693019866943,
+      "eval_runtime": 58.2106,
+      "eval_samples_per_second": 7.387,
+      "eval_steps_per_second": 1.855,
+      "step": 2500
+    },
+    {
+      "epoch": 5.81,
+      "learning_rate": 7.18538283062645e-07,
+      "loss": 1.8787,
+      "step": 2505
+    },
+    {
+      "epoch": 5.82,
+      "learning_rate": 6.741840680587781e-07,
+      "loss": 1.8871,
+      "step": 2510
+    },
+    {
+      "epoch": 5.84,
+      "learning_rate": 6.298298530549111e-07,
+      "loss": 1.9249,
+      "step": 2515
+    },
+    {
+      "epoch": 5.85,
+      "learning_rate": 5.854756380510441e-07,
+      "loss": 1.8683,
+      "step": 2520
+    },
+    {
+      "epoch": 5.86,
+      "learning_rate": 5.411214230471772e-07,
+      "loss": 1.8578,
+      "step": 2525
+    },
+    {
+      "epoch": 5.87,
+      "learning_rate": 4.967672080433102e-07,
+      "loss": 1.9025,
+      "step": 2530
+    },
+    {
+      "epoch": 5.88,
+      "learning_rate": 4.5241299303944316e-07,
+      "loss": 1.9059,
+      "step": 2535
+    },
+    {
+      "epoch": 5.89,
+      "learning_rate": 4.080587780355762e-07,
+      "loss": 1.8879,
+      "step": 2540
+    },
+    {
+      "epoch": 5.9,
+      "learning_rate": 3.6370456303170925e-07,
+      "loss": 1.8826,
+      "step": 2545
+    },
+    {
+      "epoch": 5.92,
+      "learning_rate": 3.1935034802784224e-07,
+      "loss": 1.8687,
+      "step": 2550
+    },
+    {
+      "epoch": 5.93,
+      "learning_rate": 2.749961330239753e-07,
+      "loss": 1.8749,
+      "step": 2555
+    },
+    {
+      "epoch": 5.94,
+      "learning_rate": 2.306419180201083e-07,
+      "loss": 1.8967,
+      "step": 2560
+    },
+    {
+      "epoch": 5.95,
+      "learning_rate": 1.862877030162413e-07,
+      "loss": 1.8327,
+      "step": 2565
+    },
+    {
+      "epoch": 5.96,
+      "learning_rate": 1.4193348801237433e-07,
+      "loss": 1.8679,
+      "step": 2570
+    },
+    {
+      "epoch": 5.97,
+      "learning_rate": 9.757927300850735e-08,
+      "loss": 1.9444,
+      "step": 2575
+    },
+    {
+      "epoch": 5.99,
+      "learning_rate": 5.322505800464037e-08,
+      "loss": 1.821,
+      "step": 2580
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 8.870843000773396e-09,
+      "loss": 1.9073,
+      "step": 2585
+    },
+    {
+      "epoch": 6.0,
+      "step": 2586,
+      "total_flos": 4.49946006847488e+16,
+      "train_loss": 2.103886123784088,
+      "train_runtime": 6222.0683,
+      "train_samples_per_second": 1.662,
+      "train_steps_per_second": 0.416
+    }
+  ],
+  "max_steps": 2586,
+  "num_train_epochs": 6,
+  "total_flos": 4.49946006847488e+16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f6b5dab74e476d5b6df53fd4c78148028a02e2501b93ecd2e51ad20482829c3e
+size 3451

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff