Draft uploaded

Browse files

Files changed (16) hide show

README.md +117 -3
all_results.json +15 -0
config.json +54 -0
eval_results.json +10 -0
merges.txt +0 -0
pytorch_model.bin +3 -0
runs/Aug03_12-27-18_DESKTOP-LE3I0SI/1659522461.8353674/events.out.tfevents.1659522461.DESKTOP-LE3I0SI.10376.1 +3 -0
runs/Aug03_12-27-18_DESKTOP-LE3I0SI/events.out.tfevents.1659522461.DESKTOP-LE3I0SI.10376.0 +3 -0
runs/Aug03_12-27-18_DESKTOP-LE3I0SI/events.out.tfevents.1659643194.DESKTOP-LE3I0SI.10376.2 +3 -0
special_tokens_map.json +5 -0
tokenizer.json +0 -0
tokenizer_config.json +9 -0
train_results.json +8 -0
trainer_state.json +2809 -0
training_args.bin +3 -0
vocab.json +0 -0

README.md CHANGED Viewed

@@ -1,3 +1,117 @@
----
-license: mit
----

+---
+language: pl
+tags:
+- generated_from_trainer
+- text-generation
+widget:
+- text: "Bolesław Leśmian - polski poeta"
+datasets:
+- wikipedia
+metrics:
+- accuracy
+model-index:
+- name: gpt_neo_pl_125M
+  results:
+  - task:
+      name: Causal Language Modeling
+      type: text-generation
+    dataset:
+      name: wikipedia 20220720.pl
+      type: wikipedia
+      args: 20220720.pl
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.4312838299951148
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# gpt_neo_pl_125M_v2
+This model was trained from scratch on the wikipedia 20220720.pl dataset.
+It achieves the following results on the evaluation set:
+- Loss: 3.3862
+- Accuracy: 0.4313
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0002
+- train_batch_size: 1
+- eval_batch_size: 2
+- seed: 42
+- gradient_accumulation_steps: 8
+- total_train_batch_size: 8
+- optimizer: Adam with betas=(0.9,0.95) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_steps: 1000
+- num_epochs: 1.0
+### Training results
+| Training Loss | Epoch | Step  | Validation Loss | Accuracy |
+|:-------------:|:-----:|:-----:|:---------------:|:--------:|
+| 5.9469        | 0.02  | 1000  | 6.5843          | 0.1435   |
+| 4.9953        | 0.05  | 2000  | 5.7709          | 0.1911   |
+| 4.3754        | 0.07  | 3000  | 5.2624          | 0.2331   |
+| 3.9795        | 0.1   | 4000  | 4.8752          | 0.2731   |
+| 3.7099        | 0.12  | 5000  | 4.5927          | 0.3039   |
+| 3.4747        | 0.15  | 6000  | 4.3942          | 0.3230   |
+| 3.343         | 0.17  | 7000  | 4.2879          | 0.3349   |
+| 3.2767        | 0.2   | 8000  | 4.1698          | 0.3459   |
+| 3.1852        | 0.22  | 9000  | 4.0925          | 0.3534   |
+| 3.0871        | 0.25  | 10000 | 4.0239          | 0.3608   |
+| 3.0746        | 0.27  | 11000 | 3.9646          | 0.3664   |
+| 2.9473        | 0.3   | 12000 | 3.9245          | 0.3706   |
+| 2.9737        | 0.32  | 13000 | 3.8742          | 0.3754   |
+| 2.9193        | 0.35  | 14000 | 3.8285          | 0.3796   |
+| 2.8833        | 0.37  | 15000 | 3.7952          | 0.3837   |
+| 2.8533        | 0.4   | 16000 | 3.7616          | 0.3873   |
+| 2.8654        | 0.42  | 17000 | 3.7296          | 0.3907   |
+| 2.8196        | 0.44  | 18000 | 3.7049          | 0.3936   |
+| 2.7883        | 0.47  | 19000 | 3.6786          | 0.3966   |
+| 2.747         | 0.49  | 20000 | 3.6488          | 0.3990   |
+| 2.7355        | 0.52  | 21000 | 3.6243          | 0.4021   |
+| 2.7355        | 0.54  | 22000 | 3.5982          | 0.4053   |
+| 2.6999        | 0.57  | 23000 | 3.5765          | 0.4075   |
+| 2.7243        | 0.59  | 24000 | 3.5558          | 0.4101   |
+| 2.6526        | 0.62  | 25000 | 3.5371          | 0.4125   |
+| 2.641         | 0.64  | 26000 | 3.5150          | 0.4146   |
+| 2.6602        | 0.67  | 27000 | 3.4971          | 0.4168   |
+| 2.644         | 0.69  | 28000 | 3.4812          | 0.4192   |
+| 2.6558        | 0.72  | 29000 | 3.4622          | 0.4215   |
+| 2.5664        | 0.74  | 30000 | 3.4504          | 0.4229   |
+| 2.5669        | 0.77  | 31000 | 3.4376          | 0.4245   |
+| 2.5498        | 0.79  | 32000 | 3.4263          | 0.4263   |
+| 2.5874        | 0.82  | 33000 | 3.4169          | 0.4274   |
+| 2.5555        | 0.84  | 34000 | 3.4067          | 0.4286   |
+| 2.5502        | 0.86  | 35000 | 3.3997          | 0.4298   |
+| 2.5232        | 0.89  | 36000 | 3.3946          | 0.4302   |
+| 2.5369        | 0.91  | 37000 | 3.3898          | 0.4309   |
+| 2.5335        | 0.94  | 38000 | 3.3869          | 0.4313   |
+| 2.6032        | 0.96  | 39000 | 3.3853          | 0.4315   |
+| 2.5244        | 0.99  | 40000 | 3.3850          | 0.4314   |
+### Framework versions
+- Transformers 4.22.0.dev0
+- Pytorch 1.12.0
+- Datasets 2.4.0
+- Tokenizers 0.12.1

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 1.0,
+    "eval_accuracy": 0.4312838299951148,
+    "eval_loss": 3.386244058609009,
+    "eval_runtime": 155.058,
+    "eval_samples": 1000,
+    "eval_samples_per_second": 6.449,
+    "eval_steps_per_second": 3.225,
+    "perplexity": 29.55473768081637,
+    "train_loss": 3.073313300175377,
+    "train_runtime": 120576.6781,
+    "train_samples": 323789,
+    "train_samples_per_second": 2.685,
+    "train_steps_per_second": 0.336
+}

config.json ADDED Viewed

	@@ -0,0 +1,54 @@

+{
+  "_name_or_path": ".\\gpt_neo_pl_125M",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPTNeoForCausalLM"
+  ],
+  "attention_dropout": 0,
+  "attention_layers": [
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local"
+  ],
+  "attention_types": [
+    [
+      [
+        "global",
+        "local"
+      ],
+      6
+    ]
+  ],
+  "bos_token_id": 0,
+  "embed_dropout": 0,
+  "eos_token_id": 0,
+  "gradient_checkpointing": false,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": null,
+  "layer_norm_epsilon": 1e-05,
+  "max_position_embeddings": 2048,
+  "model_type": "gpt_neo",
+  "num_heads": 12,
+  "num_layers": 12,
+  "resid_dropout": 0,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.22.0.dev0",
+  "use_cache": true,
+  "vocab_size": 50265,
+  "window_size": 256
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 1.0,
+    "eval_accuracy": 0.4312838299951148,
+    "eval_loss": 3.386244058609009,
+    "eval_runtime": 155.058,
+    "eval_samples": 1000,
+    "eval_samples_per_second": 6.449,
+    "eval_steps_per_second": 3.225,
+    "perplexity": 29.55473768081637
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cace4f7863e18c8f26e132b0668a2099885ef47a2dd36d3edb98c2c12edb7fed
+size 551209681

runs/Aug03_12-27-18_DESKTOP-LE3I0SI/1659522461.8353674/events.out.tfevents.1659522461.DESKTOP-LE3I0SI.10376.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3ad44293aeba480bfe541bd31a7f5707db4e2fbee143248423177900f02bafc8
+size 5449

runs/Aug03_12-27-18_DESKTOP-LE3I0SI/events.out.tfevents.1659522461.DESKTOP-LE3I0SI.10376.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7c929705e74a1243b51a245c638ddb5c1732c9c44d4cf6e9fcf0351287cab22f
+size 81698

runs/Aug03_12-27-18_DESKTOP-LE3I0SI/events.out.tfevents.1659643194.DESKTOP-LE3I0SI.10376.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b75d4657da27465a378f8f1fb8e26eb9904e8354e4c85e2b5f9958a693035b6c
+size 369

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "add_prefix_space": false,
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "name_or_path": ".\\gpt_neo_pl_125M",
+  "special_tokens_map_file": null,
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 3.073313300175377,
+    "train_runtime": 120576.6781,
+    "train_samples": 323789,
+    "train_samples_per_second": 2.685,
+    "train_steps_per_second": 0.336
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2809 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9999845578447693,
+  "global_step": 40473,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 2e-05,
+      "loss": 9.7353,
+      "step": 100
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 4e-05,
+      "loss": 8.2306,
+      "step": 200
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 6e-05,
+      "loss": 7.5102,
+      "step": 300
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 8e-05,
+      "loss": 7.2441,
+      "step": 400
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0001,
+      "loss": 6.9668,
+      "step": 500
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.00012,
+      "loss": 6.6706,
+      "step": 600
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00014,
+      "loss": 6.4207,
+      "step": 700
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00016,
+      "loss": 6.2927,
+      "step": 800
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00018,
+      "loss": 6.1555,
+      "step": 900
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 5.9469,
+      "step": 1000
+    },
+    {
+      "epoch": 0.02,
+      "eval_accuracy": 0.14350219833903274,
+      "eval_loss": 6.5843048095703125,
+      "eval_runtime": 149.8081,
+      "eval_samples_per_second": 6.675,
+      "eval_steps_per_second": 3.338,
+      "step": 1000
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00019999683286053426,
+      "loss": 5.8516,
+      "step": 1100
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0001999873316427525,
+      "loss": 5.6928,
+      "step": 1200
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00019997149694848834,
+      "loss": 5.5905,
+      "step": 1300
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00019994932978075548,
+      "loss": 5.4808,
+      "step": 1400
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00019992083154368414,
+      "loss": 5.3261,
+      "step": 1500
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00019988600404243222,
+      "loss": 5.2571,
+      "step": 1600
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0001998448494830707,
+      "loss": 5.1842,
+      "step": 1700
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00019979737047244424,
+      "loss": 5.1502,
+      "step": 1800
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00019974357001800575,
+      "loss": 5.0854,
+      "step": 1900
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00019968345152762614,
+      "loss": 4.9953,
+      "step": 2000
+    },
+    {
+      "epoch": 0.05,
+      "eval_accuracy": 0.1911294577430386,
+      "eval_loss": 5.77092170715332,
+      "eval_runtime": 149.2322,
+      "eval_samples_per_second": 6.701,
+      "eval_steps_per_second": 3.35,
+      "step": 2000
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00019961701880937823,
+      "loss": 4.9123,
+      "step": 2100
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0001995442760712957,
+      "loss": 4.8373,
+      "step": 2200
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00019946522792110648,
+      "loss": 4.7841,
+      "step": 2300
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00019937987936594095,
+      "loss": 4.731,
+      "step": 2400
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00019928823581201455,
+      "loss": 4.6354,
+      "step": 2500
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0001991903030642857,
+      "loss": 4.6333,
+      "step": 2600
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0001990860873260878,
+      "loss": 4.5291,
+      "step": 2700
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00019897559519873635,
+      "loss": 4.4949,
+      "step": 2800
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00019885883368111093,
+      "loss": 4.4967,
+      "step": 2900
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00019873581016921173,
+      "loss": 4.3754,
+      "step": 3000
+    },
+    {
+      "epoch": 0.07,
+      "eval_accuracy": 0.23306155349291646,
+      "eval_loss": 5.262444019317627,
+      "eval_runtime": 151.6242,
+      "eval_samples_per_second": 6.595,
+      "eval_steps_per_second": 3.298,
+      "step": 3000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0001986065324556912,
+      "loss": 4.3805,
+      "step": 3100
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00019847100872936023,
+      "loss": 4.2668,
+      "step": 3200
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00019832924757466974,
+      "loss": 4.289,
+      "step": 3300
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0001981812579711666,
+      "loss": 4.2334,
+      "step": 3400
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00019802704929292514,
+      "loss": 4.2227,
+      "step": 3500
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00019786663130795317,
+      "loss": 4.1494,
+      "step": 3600
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00019770001417757332,
+      "loss": 4.1242,
+      "step": 3700
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00019752720845577938,
+      "loss": 4.0128,
+      "step": 3800
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00019734822508856773,
+      "loss": 3.9907,
+      "step": 3900
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00019716307541324418,
+      "loss": 3.9795,
+      "step": 4000
+    },
+    {
+      "epoch": 0.1,
+      "eval_accuracy": 0.27312457254518807,
+      "eval_loss": 4.875171184539795,
+      "eval_runtime": 149.3435,
+      "eval_samples_per_second": 6.696,
+      "eval_steps_per_second": 3.348,
+      "step": 4000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00019697177115770548,
+      "loss": 3.9426,
+      "step": 4100
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0001967743244396969,
+      "loss": 3.8986,
+      "step": 4200
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00019657074776604426,
+      "loss": 3.8835,
+      "step": 4300
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0001963610540318619,
+      "loss": 3.9364,
+      "step": 4400
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00019614525651973582,
+      "loss": 3.7685,
+      "step": 4500
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00019592336889888244,
+      "loss": 3.7921,
+      "step": 4600
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0001956954052242825,
+      "loss": 3.7474,
+      "step": 4700
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00019546137993579107,
+      "loss": 3.7227,
+      "step": 4800
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00019522130785722266,
+      "loss": 3.7087,
+      "step": 4900
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00019497520419541235,
+      "loss": 3.7099,
+      "step": 5000
+    },
+    {
+      "epoch": 0.12,
+      "eval_accuracy": 0.30389936492427944,
+      "eval_loss": 4.592658996582031,
+      "eval_runtime": 149.1172,
+      "eval_samples_per_second": 6.706,
+      "eval_steps_per_second": 3.353,
+      "step": 5000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00019472308453925258,
+      "loss": 3.649,
+      "step": 5100
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0001944649648587056,
+      "loss": 3.6001,
+      "step": 5200
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00019420086150379192,
+      "loss": 3.6509,
+      "step": 5300
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00019393079120355475,
+      "loss": 3.598,
+      "step": 5400
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0001936547710650002,
+      "loss": 3.5339,
+      "step": 5500
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00019337281857201378,
+      "loss": 3.573,
+      "step": 5600
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0001930849515842528,
+      "loss": 3.5411,
+      "step": 5700
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00019279118833601523,
+      "loss": 3.5458,
+      "step": 5800
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00019249154743508463,
+      "loss": 3.5076,
+      "step": 5900
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00019218604786155148,
+      "loss": 3.4747,
+      "step": 6000
+    },
+    {
+      "epoch": 0.15,
+      "eval_accuracy": 0.32299853444064486,
+      "eval_loss": 4.394214630126953,
+      "eval_runtime": 164.2578,
+      "eval_samples_per_second": 6.088,
+      "eval_steps_per_second": 3.044,
+      "step": 6000
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00019187470896661084,
+      "loss": 3.5194,
+      "step": 6100
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00019155755047133678,
+      "loss": 3.4677,
+      "step": 6200
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00019123459246543303,
+      "loss": 3.4157,
+      "step": 6300
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00019090585540596053,
+      "loss": 3.4342,
+      "step": 6400
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00019057136011604156,
+      "loss": 3.436,
+      "step": 6500
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00019023112778354082,
+      "loss": 3.394,
+      "step": 6600
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00018988517995972325,
+      "loss": 3.4081,
+      "step": 6700
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00018953353855788896,
+      "loss": 3.3736,
+      "step": 6800
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0001891762258519852,
+      "loss": 3.3793,
+      "step": 6900
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0001888132644751954,
+      "loss": 3.343,
+      "step": 7000
+    },
+    {
+      "epoch": 0.17,
+      "eval_accuracy": 0.334904738641915,
+      "eval_loss": 4.287891387939453,
+      "eval_runtime": 142.0586,
+      "eval_samples_per_second": 7.039,
+      "eval_steps_per_second": 3.52,
+      "step": 7000
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0001884446774185056,
+      "loss": 3.3829,
+      "step": 7100
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00018807048802924804,
+      "loss": 3.3683,
+      "step": 7200
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0001876907200096224,
+      "loss": 3.299,
+      "step": 7300
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00018730539741519436,
+      "loss": 3.3129,
+      "step": 7400
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0001869145446533718,
+      "loss": 3.3329,
+      "step": 7500
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00018651818648185886,
+      "loss": 3.3036,
+      "step": 7600
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00018611634800708767,
+      "loss": 3.2714,
+      "step": 7700
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00018570905468262816,
+      "loss": 3.2606,
+      "step": 7800
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00018529633230757547,
+      "loss": 3.2601,
+      "step": 7900
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00018487820702491615,
+      "loss": 3.2767,
+      "step": 8000
+    },
+    {
+      "epoch": 0.2,
+      "eval_accuracy": 0.3458881289692233,
+      "eval_loss": 4.169787883758545,
+      "eval_runtime": 147.5408,
+      "eval_samples_per_second": 6.778,
+      "eval_steps_per_second": 3.389,
+      "step": 8000
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00018445470531987178,
+      "loss": 3.2766,
+      "step": 8100
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00018402585401822172,
+      "loss": 3.2475,
+      "step": 8200
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0001835916802846036,
+      "loss": 3.2341,
+      "step": 8300
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0001831522116207927,
+      "loss": 3.2234,
+      "step": 8400
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00018270747586396008,
+      "loss": 3.2216,
+      "step": 8500
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00018225750118490904,
+      "loss": 3.2029,
+      "step": 8600
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0001818023160862909,
+      "loss": 3.1778,
+      "step": 8700
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00018134194940079942,
+      "loss": 3.1699,
+      "step": 8800
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0001808764302893446,
+      "loss": 3.1801,
+      "step": 8900
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00018040578823920545,
+      "loss": 3.1852,
+      "step": 9000
+    },
+    {
+      "epoch": 0.22,
+      "eval_accuracy": 0.3533742061553493,
+      "eval_loss": 4.092532634735107,
+      "eval_runtime": 149.3684,
+      "eval_samples_per_second": 6.695,
+      "eval_steps_per_second": 3.347,
+      "step": 9000
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00017993005306216216,
+      "loss": 3.1856,
+      "step": 9100
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00017944925489260784,
+      "loss": 3.1604,
+      "step": 9200
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00017896342418563963,
+      "loss": 3.1725,
+      "step": 9300
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00017847259171512963,
+      "loss": 3.1451,
+      "step": 9400
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00017797678857177566,
+      "loss": 3.142,
+      "step": 9500
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00017747604616113175,
+      "loss": 3.1825,
+      "step": 9600
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00017697039620161894,
+      "loss": 3.1747,
+      "step": 9700
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.000176459870722516,
+      "loss": 3.0989,
+      "step": 9800
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00017594450206193088,
+      "loss": 3.1139,
+      "step": 9900
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.000175424322864752,
+      "loss": 3.0871,
+      "step": 10000
+    },
+    {
+      "epoch": 0.25,
+      "eval_accuracy": 0.360838299951148,
+      "eval_loss": 4.023919105529785,
+      "eval_runtime": 149.3116,
+      "eval_samples_per_second": 6.697,
+      "eval_steps_per_second": 3.349,
+      "step": 10000
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00017489936608058073,
+      "loss": 3.1034,
+      "step": 10100
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00017436966496164397,
+      "loss": 3.0933,
+      "step": 10200
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00017383525306068816,
+      "loss": 3.1107,
+      "step": 10300
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00017329616422885372,
+      "loss": 3.0945,
+      "step": 10400
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00017275243261353094,
+      "loss": 3.0885,
+      "step": 10500
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00017220409265619697,
+      "loss": 3.0761,
+      "step": 10600
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00017165117909023425,
+      "loss": 3.0988,
+      "step": 10700
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00017109372693873022,
+      "loss": 3.0941,
+      "step": 10800
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00017053177151225913,
+      "loss": 3.1068,
+      "step": 10900
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00016996534840664514,
+      "loss": 3.0746,
+      "step": 11000
+    },
+    {
+      "epoch": 0.27,
+      "eval_accuracy": 0.36640889106008795,
+      "eval_loss": 3.9645512104034424,
+      "eval_runtime": 151.7078,
+      "eval_samples_per_second": 6.592,
+      "eval_steps_per_second": 3.296,
+      "step": 11000
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00016939449350070768,
+      "loss": 3.0761,
+      "step": 11100
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00016881924295398883,
+      "loss": 3.0362,
+      "step": 11200
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00016823963320446273,
+      "loss": 3.0012,
+      "step": 11300
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00016765570096622761,
+      "loss": 3.0244,
+      "step": 11400
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00016706748322718027,
+      "loss": 3.0108,
+      "step": 11500
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.000166475017246673,
+      "loss": 3.0364,
+      "step": 11600
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00016587834055315358,
+      "loss": 3.0235,
+      "step": 11700
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00016527749094178806,
+      "loss": 3.0356,
+      "step": 11800
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00016467250647206685,
+      "loss": 3.0178,
+      "step": 11900
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0001640634254653937,
+      "loss": 2.9473,
+      "step": 12000
+    },
+    {
+      "epoch": 0.3,
+      "eval_accuracy": 0.37060478749389353,
+      "eval_loss": 3.9244790077209473,
+      "eval_runtime": 149.2451,
+      "eval_samples_per_second": 6.7,
+      "eval_steps_per_second": 3.35,
+      "step": 12000
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00016345028650265853,
+      "loss": 3.0204,
+      "step": 12100
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00016283312842179344,
+      "loss": 2.976,
+      "step": 12200
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00016221199031531277,
+      "loss": 3.0472,
+      "step": 12300
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00016158691152783666,
+      "loss": 2.9778,
+      "step": 12400
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0001609579316535991,
+      "loss": 2.9958,
+      "step": 12500
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00016032509053393978,
+      "loss": 2.9772,
+      "step": 12600
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00015968842825478033,
+      "loss": 3.0037,
+      "step": 12700
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00015904798514408545,
+      "loss": 2.9888,
+      "step": 12800
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00015840380176930808,
+      "loss": 2.9614,
+      "step": 12900
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0001577559189348201,
+      "loss": 2.9737,
+      "step": 13000
+    },
+    {
+      "epoch": 0.32,
+      "eval_accuracy": 0.375352711284807,
+      "eval_loss": 3.8742177486419678,
+      "eval_runtime": 149.4881,
+      "eval_samples_per_second": 6.689,
+      "eval_steps_per_second": 3.345,
+      "step": 13000
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0001571043776793273,
+      "loss": 2.9724,
+      "step": 13100
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00015644921927327024,
+      "loss": 2.9695,
+      "step": 13200
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00015579048521620977,
+      "loss": 3.0015,
+      "step": 13300
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0001551282172341985,
+      "loss": 2.9804,
+      "step": 13400
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00015446245727713758,
+      "loss": 2.9711,
+      "step": 13500
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00015379324751611985,
+      "loss": 2.9746,
+      "step": 13600
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00015312063034075816,
+      "loss": 2.9414,
+      "step": 13700
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00015244464835650052,
+      "loss": 2.9365,
+      "step": 13800
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0001517653443819313,
+      "loss": 2.9674,
+      "step": 13900
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00015108276144605912,
+      "loss": 2.9193,
+      "step": 14000
+    },
+    {
+      "epoch": 0.35,
+      "eval_accuracy": 0.37964826575476307,
+      "eval_loss": 3.8284761905670166,
+      "eval_runtime": 149.3853,
+      "eval_samples_per_second": 6.694,
+      "eval_steps_per_second": 3.347,
+      "step": 14000
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0001503969427855911,
+      "loss": 2.9236,
+      "step": 14100
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00014970793184219402,
+      "loss": 2.8793,
+      "step": 14200
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.000149015772259743,
+      "loss": 2.9347,
+      "step": 14300
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00014832050788155668,
+      "loss": 2.908,
+      "step": 14400
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00014762218274762,
+      "loss": 2.9523,
+      "step": 14500
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00014692084109179483,
+      "loss": 2.9633,
+      "step": 14600
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0001462165273390179,
+      "loss": 2.8945,
+      "step": 14700
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00014550928610248688,
+      "loss": 2.9083,
+      "step": 14800
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0001447991621808344,
+      "loss": 2.881,
+      "step": 14900
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00014408620055529045,
+      "loss": 2.8833,
+      "step": 15000
+    },
+    {
+      "epoch": 0.37,
+      "eval_accuracy": 0.3837151929653151,
+      "eval_loss": 3.7952051162719727,
+      "eval_runtime": 142.0749,
+      "eval_samples_per_second": 7.039,
+      "eval_steps_per_second": 3.519,
+      "step": 15000
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00014337044638683297,
+      "loss": 2.8999,
+      "step": 15100
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00014265194501332756,
+      "loss": 2.8795,
+      "step": 15200
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0001419307419466553,
+      "loss": 2.8995,
+      "step": 15300
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00014120688286983012,
+      "loss": 2.9001,
+      "step": 15400
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00014048041363410498,
+      "loss": 2.9089,
+      "step": 15500
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00013975138025606765,
+      "loss": 2.9049,
+      "step": 15600
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0001390198289147258,
+      "loss": 2.8915,
+      "step": 15700
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0001382858059485819,
+      "loss": 2.8382,
+      "step": 15800
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00013754935785269802,
+      "loss": 2.8535,
+      "step": 15900
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00013681053127575078,
+      "loss": 2.8533,
+      "step": 16000
+    },
+    {
+      "epoch": 0.4,
+      "eval_accuracy": 0.3872970200293112,
+      "eval_loss": 3.761565923690796,
+      "eval_runtime": 141.7939,
+      "eval_samples_per_second": 7.052,
+      "eval_steps_per_second": 3.526,
+      "step": 16000
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0001360693730170764,
+      "loss": 2.8792,
+      "step": 16100
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0001353259300237063,
+      "loss": 2.8601,
+      "step": 16200
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00013458024938739328,
+      "loss": 2.8794,
+      "step": 16300
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00013383237834162893,
+      "loss": 2.8738,
+      "step": 16400
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00013308236425865123,
+      "loss": 2.8475,
+      "step": 16500
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00013233025464644426,
+      "loss": 2.8692,
+      "step": 16600
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00013157609714572877,
+      "loss": 2.8282,
+      "step": 16700
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00013081993952694434,
+      "loss": 2.8956,
+      "step": 16800
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00013006182968722382,
+      "loss": 2.8338,
+      "step": 16900
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00012930181564735897,
+      "loss": 2.8654,
+      "step": 17000
+    },
+    {
+      "epoch": 0.42,
+      "eval_accuracy": 0.39067855398143625,
+      "eval_loss": 3.72955322265625,
+      "eval_runtime": 141.9976,
+      "eval_samples_per_second": 7.042,
+      "eval_steps_per_second": 3.521,
+      "step": 17000
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00012853994554875902,
+      "loss": 2.8337,
+      "step": 17100
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00012777626765040116,
+      "loss": 2.811,
+      "step": 17200
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00012701083032577354,
+      "loss": 2.827,
+      "step": 17300
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00012624368205981136,
+      "loss": 2.8085,
+      "step": 17400
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00012547487144582564,
+      "loss": 2.8328,
+      "step": 17500
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0001247044471824251,
+      "loss": 2.8269,
+      "step": 17600
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00012393245807043154,
+      "loss": 2.8141,
+      "step": 17700
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00012315895300978863,
+      "loss": 2.8054,
+      "step": 17800
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0001223839809964645,
+      "loss": 2.8176,
+      "step": 17900
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0001216075911193481,
+      "loss": 2.8196,
+      "step": 18000
+    },
+    {
+      "epoch": 0.44,
+      "eval_accuracy": 0.3935666829506595,
+      "eval_loss": 3.7048707008361816,
+      "eval_runtime": 141.7514,
+      "eval_samples_per_second": 7.055,
+      "eval_steps_per_second": 3.527,
+      "step": 18000
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0001208298325571398,
+      "loss": 2.8031,
+      "step": 18100
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00012005075457523635,
+      "loss": 2.8213,
+      "step": 18200
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00011927040652261028,
+      "loss": 2.823,
+      "step": 18300
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00011848883782868381,
+      "loss": 2.8006,
+      "step": 18400
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0001177060980001981,
+      "loss": 2.7874,
+      "step": 18500
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00011692223661807716,
+      "loss": 2.7917,
+      "step": 18600
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00011613730333428738,
+      "loss": 2.7983,
+      "step": 18700
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00011535134786869242,
+      "loss": 2.8175,
+      "step": 18800
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00011456442000590371,
+      "loss": 2.7732,
+      "step": 18900
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00011377656959212703,
+      "loss": 2.7883,
+      "step": 19000
+    },
+    {
+      "epoch": 0.47,
+      "eval_accuracy": 0.3966370297997069,
+      "eval_loss": 3.678572177886963,
+      "eval_runtime": 141.8348,
+      "eval_samples_per_second": 7.05,
+      "eval_steps_per_second": 3.525,
+      "step": 19000
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00011298784653200525,
+      "loss": 2.779,
+      "step": 19100
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0001121983007854569,
+      "loss": 2.7928,
+      "step": 19200
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0001114079823645119,
+      "loss": 2.7889,
+      "step": 19300
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00011061694133014351,
+      "loss": 2.7992,
+      "step": 19400
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00010982522778909725,
+      "loss": 2.8229,
+      "step": 19500
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00010903289189071721,
+      "loss": 2.7589,
+      "step": 19600
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00010823998382376919,
+      "loss": 2.7828,
+      "step": 19700
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00010744655381326188,
+      "loss": 2.7468,
+      "step": 19800
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00010665265211726528,
+      "loss": 2.7686,
+      "step": 19900
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00010585832902372721,
+      "loss": 2.747,
+      "step": 20000
+    },
+    {
+      "epoch": 0.49,
+      "eval_accuracy": 0.3989570102589155,
+      "eval_loss": 3.6488404273986816,
+      "eval_runtime": 141.8989,
+      "eval_samples_per_second": 7.047,
+      "eval_steps_per_second": 3.524,
+      "step": 20000
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00010506363484728803,
+      "loss": 2.7899,
+      "step": 20100
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00010426861992609356,
+      "loss": 2.7468,
+      "step": 20200
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00010347333461860647,
+      "loss": 2.7607,
+      "step": 20300
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0001026778293004164,
+      "loss": 2.7659,
+      "step": 20400
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00010188215436104913,
+      "loss": 2.7515,
+      "step": 20500
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00010108636020077471,
+      "loss": 2.786,
+      "step": 20600
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.000100290497227415,
+      "loss": 2.7153,
+      "step": 20700
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 9.94946158531506e-05,
+      "loss": 2.7299,
+      "step": 20800
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 9.869876649132773e-05,
+      "loss": 2.7673,
+      "step": 20900
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 9.790299955326484e-05,
+      "loss": 2.7355,
+      "step": 21000
+    },
+    {
+      "epoch": 0.52,
+      "eval_accuracy": 0.4021494870542257,
+      "eval_loss": 3.6243462562561035,
+      "eval_runtime": 142.1627,
+      "eval_samples_per_second": 7.034,
+      "eval_steps_per_second": 3.517,
+      "step": 21000
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 9.710736544505947e-05,
+      "loss": 2.7641,
+      "step": 21100
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 9.631191456439525e-05,
+      "loss": 2.7809,
+      "step": 21200
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 9.551669729734978e-05,
+      "loss": 2.7434,
+      "step": 21300
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 9.472176401520279e-05,
+      "loss": 2.7287,
+      "step": 21400
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 9.392716507124576e-05,
+      "loss": 2.7536,
+      "step": 21500
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 9.313295079759219e-05,
+      "loss": 2.7539,
+      "step": 21600
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 9.233917150198943e-05,
+      "loss": 2.7753,
+      "step": 21700
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 9.154587746463225e-05,
+      "loss": 2.7551,
+      "step": 21800
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 9.07531189349776e-05,
+      "loss": 2.706,
+      "step": 21900
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 8.996094612856212e-05,
+      "loss": 2.7355,
+      "step": 22000
+    },
+    {
+      "epoch": 0.54,
+      "eval_accuracy": 0.40534440644846115,
+      "eval_loss": 3.5981943607330322,
+      "eval_runtime": 141.9963,
+      "eval_samples_per_second": 7.042,
+      "eval_steps_per_second": 3.521,
+      "step": 22000
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 8.916940922382091e-05,
+      "loss": 2.7117,
+      "step": 22100
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 8.837855835890943e-05,
+      "loss": 2.717,
+      "step": 22200
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 8.758844362852732e-05,
+      "loss": 2.733,
+      "step": 22300
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 8.679911508074552e-05,
+      "loss": 2.7257,
+      "step": 22400
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 8.601062271383592e-05,
+      "loss": 2.6842,
+      "step": 22500
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 8.522301647310445e-05,
+      "loss": 2.7144,
+      "step": 22600
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 8.443634624772719e-05,
+      "loss": 2.7521,
+      "step": 22700
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 8.365066186759055e-05,
+      "loss": 2.7484,
+      "step": 22800
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 8.286601310013463e-05,
+      "loss": 2.7177,
+      "step": 22900
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 8.208244964720108e-05,
+      "loss": 2.6999,
+      "step": 23000
+    },
+    {
+      "epoch": 0.57,
+      "eval_accuracy": 0.4074880312652662,
+      "eval_loss": 3.5765340328216553,
+      "eval_runtime": 142.0816,
+      "eval_samples_per_second": 7.038,
+      "eval_steps_per_second": 3.519,
+      "step": 23000
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 8.130002114188453e-05,
+      "loss": 2.6884,
+      "step": 23100
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 8.0518777145389e-05,
+      "loss": 2.6783,
+      "step": 23200
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 7.97387671438883e-05,
+      "loss": 2.6857,
+      "step": 23300
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 7.896004054539173e-05,
+      "loss": 2.6957,
+      "step": 23400
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 7.818264667661405e-05,
+      "loss": 2.7092,
+      "step": 23500
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 7.740663477985133e-05,
+      "loss": 2.6602,
+      "step": 23600
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 7.663205400986167e-05,
+      "loss": 2.7544,
+      "step": 23700
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 7.585895343075162e-05,
+      "loss": 2.6894,
+      "step": 23800
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 7.508738201286819e-05,
+      "loss": 2.6764,
+      "step": 23900
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 7.431738862969718e-05,
+      "loss": 2.7243,
+      "step": 24000
+    },
+    {
+      "epoch": 0.59,
+      "eval_accuracy": 0.41014020517830974,
+      "eval_loss": 3.5558369159698486,
+      "eval_runtime": 141.9008,
+      "eval_samples_per_second": 7.047,
+      "eval_steps_per_second": 3.524,
+      "step": 24000
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 7.354902205476732e-05,
+      "loss": 2.7029,
+      "step": 24100
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 7.278233095856057e-05,
+      "loss": 2.6547,
+      "step": 24200
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 7.201736390542958e-05,
+      "loss": 2.6755,
+      "step": 24300
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 7.125416935052119e-05,
+      "loss": 2.6666,
+      "step": 24400
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 7.049279563670732e-05,
+      "loss": 2.6753,
+      "step": 24500
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 6.973329099152268e-05,
+      "loss": 2.6411,
+      "step": 24600
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 6.897570352411003e-05,
+      "loss": 2.6519,
+      "step": 24700
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 6.822008122217267e-05,
+      "loss": 2.6922,
+      "step": 24800
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 6.746647194893494e-05,
+      "loss": 2.6432,
+      "step": 24900
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 6.671492344011017e-05,
+      "loss": 2.6526,
+      "step": 25000
+    },
+    {
+      "epoch": 0.62,
+      "eval_accuracy": 0.41251294577430386,
+      "eval_loss": 3.537142753601074,
+      "eval_runtime": 149.0732,
+      "eval_samples_per_second": 6.708,
+      "eval_steps_per_second": 3.354,
+      "step": 25000
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 6.596548330087729e-05,
+      "loss": 2.6583,
+      "step": 25100
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 6.521819900286509e-05,
+      "loss": 2.7001,
+      "step": 25200
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 6.447311788114547e-05,
+      "loss": 2.6591,
+      "step": 25300
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 6.373028713123489e-05,
+      "loss": 2.6622,
+      "step": 25400
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 6.298975380610508e-05,
+      "loss": 2.7062,
+      "step": 25500
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 6.22515648132024e-05,
+      "loss": 2.679,
+      "step": 25600
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 6.151576691147676e-05,
+      "loss": 2.6539,
+      "step": 25700
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 6.0782406708419535e-05,
+      "loss": 2.6741,
+      "step": 25800
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 6.005153065711164e-05,
+      "loss": 2.6285,
+      "step": 25900
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 5.932318505328076e-05,
+      "loss": 2.641,
+      "step": 26000
+    },
+    {
+      "epoch": 0.64,
+      "eval_accuracy": 0.4146458231558378,
+      "eval_loss": 3.5149853229522705,
+      "eval_runtime": 181.5716,
+      "eval_samples_per_second": 5.507,
+      "eval_steps_per_second": 2.754,
+      "step": 26000
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 5.859741603236909e-05,
+      "loss": 2.6834,
+      "step": 26100
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 5.787426956661071e-05,
+      "loss": 2.6712,
+      "step": 26200
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 5.715379146211998e-05,
+      "loss": 2.6772,
+      "step": 26300
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 5.6436027355989517e-05,
+      "loss": 2.6672,
+      "step": 26400
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 5.5721022713399965e-05,
+      "loss": 2.6001,
+      "step": 26500
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 5.500882282473983e-05,
+      "loss": 2.6681,
+      "step": 26600
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 5.429947280273646e-05,
+      "loss": 2.6229,
+      "step": 26700
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 5.359301757959896e-05,
+      "loss": 2.6637,
+      "step": 26800
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 5.2889501904171633e-05,
+      "loss": 2.617,
+      "step": 26900
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 5.2188970339099716e-05,
+      "loss": 2.6602,
+      "step": 27000
+    },
+    {
+      "epoch": 0.67,
+      "eval_accuracy": 0.4168324377137274,
+      "eval_loss": 3.497141122817993,
+      "eval_runtime": 143.8542,
+      "eval_samples_per_second": 6.951,
+      "eval_steps_per_second": 3.476,
+      "step": 27000
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 5.149146725800653e-05,
+      "loss": 2.6309,
+      "step": 27100
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 5.0797036842682796e-05,
+      "loss": 2.6206,
+      "step": 27200
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 5.0105723080287956e-05,
+      "loss": 2.6232,
+      "step": 27300
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 4.941756976056414e-05,
+      "loss": 2.6094,
+      "step": 27400
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 4.873262047306193e-05,
+      "loss": 2.6533,
+      "step": 27500
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 4.805091860437985e-05,
+      "loss": 2.611,
+      "step": 27600
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 4.7372507335415716e-05,
+      "loss": 2.6003,
+      "step": 27700
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 4.6697429638631594e-05,
+      "loss": 2.6118,
+      "step": 27800
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 4.6025728275331805e-05,
+      "loss": 2.5899,
+      "step": 27900
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 4.53574457929543e-05,
+      "loss": 2.644,
+      "step": 28000
+    },
+    {
+      "epoch": 0.69,
+      "eval_accuracy": 0.4192027357107963,
+      "eval_loss": 3.4811973571777344,
+      "eval_runtime": 151.4293,
+      "eval_samples_per_second": 6.604,
+      "eval_steps_per_second": 3.302,
+      "step": 28000
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 4.469262452237552e-05,
+      "loss": 2.6313,
+      "step": 28100
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 4.403130657522924e-05,
+      "loss": 2.5829,
+      "step": 28200
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 4.337353384123871e-05,
+      "loss": 2.6009,
+      "step": 28300
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 4.2719347985563754e-05,
+      "loss": 2.6282,
+      "step": 28400
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 4.2068790446161166e-05,
+      "loss": 2.6724,
+      "step": 28500
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 4.1421902431160095e-05,
+      "loss": 2.6432,
+      "step": 28600
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 4.07787249162518e-05,
+      "loss": 2.6422,
+      "step": 28700
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 4.013929864209407e-05,
+      "loss": 2.6249,
+      "step": 28800
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 3.950366411173067e-05,
+      "loss": 2.6187,
+      "step": 28900
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 3.887186158802581e-05,
+      "loss": 2.6558,
+      "step": 29000
+    },
+    {
+      "epoch": 0.72,
+      "eval_accuracy": 0.42146458231558376,
+      "eval_loss": 3.462165594100952,
+      "eval_runtime": 159.3822,
+      "eval_samples_per_second": 6.274,
+      "eval_steps_per_second": 3.137,
+      "step": 29000
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 3.8243931091113525e-05,
+      "loss": 2.6114,
+      "step": 29100
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 3.7619912395863045e-05,
+      "loss": 2.6093,
+      "step": 29200
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 3.699984502935918e-05,
+      "loss": 2.641,
+      "step": 29300
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 3.6383768268398356e-05,
+      "loss": 2.618,
+      "step": 29400
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 3.5771721137001134e-05,
+      "loss": 2.5961,
+      "step": 29500
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 3.516374240393999e-05,
+      "loss": 2.5759,
+      "step": 29600
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 3.455987058028372e-05,
+      "loss": 2.5699,
+      "step": 29700
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 3.3960143916957995e-05,
+      "loss": 2.6057,
+      "step": 29800
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 3.336460040232252e-05,
+      "loss": 2.6013,
+      "step": 29900
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 3.2773277759764644e-05,
+      "loss": 2.5664,
+      "step": 30000
+    },
+    {
+      "epoch": 0.74,
+      "eval_accuracy": 0.42288812896922323,
+      "eval_loss": 3.4503753185272217,
+      "eval_runtime": 152.9493,
+      "eval_samples_per_second": 6.538,
+      "eval_steps_per_second": 3.269,
+      "step": 30000
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 3.218621344531002e-05,
+      "loss": 2.601,
+      "step": 30100
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 3.16034446452497e-05,
+      "loss": 2.5845,
+      "step": 30200
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 3.102500827378511e-05,
+      "loss": 2.5578,
+      "step": 30300
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 3.0450940970689413e-05,
+      "loss": 2.6059,
+      "step": 30400
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 2.988127909898686e-05,
+      "loss": 2.5967,
+      "step": 30500
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 2.9316058742649354e-05,
+      "loss": 2.5889,
+      "step": 30600
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 2.875531570431086e-05,
+      "loss": 2.5626,
+      "step": 30700
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 2.819908550299947e-05,
+      "loss": 2.6232,
+      "step": 30800
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 2.7647403371887736e-05,
+      "loss": 2.5861,
+      "step": 30900
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 2.7100304256060526e-05,
+      "loss": 2.5669,
+      "step": 31000
+    },
+    {
+      "epoch": 0.77,
+      "eval_accuracy": 0.424466536394724,
+      "eval_loss": 3.4375574588775635,
+      "eval_runtime": 144.0616,
+      "eval_samples_per_second": 6.941,
+      "eval_steps_per_second": 3.471,
+      "step": 31000
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 2.655782281030198e-05,
+      "loss": 2.5697,
+      "step": 31100
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 2.6019993396899977e-05,
+      "loss": 2.613,
+      "step": 31200
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 2.548685008346974e-05,
+      "loss": 2.5858,
+      "step": 31300
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 2.495842664079584e-05,
+      "loss": 2.534,
+      "step": 31400
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 2.4434756540693082e-05,
+      "loss": 2.5843,
+      "step": 31500
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 2.3915872953886265e-05,
+      "loss": 2.5988,
+      "step": 31600
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 2.340180874790916e-05,
+      "loss": 2.5684,
+      "step": 31700
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 2.2892596485022423e-05,
+      "loss": 2.5921,
+      "step": 31800
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 2.2388268420151127e-05,
+      "loss": 2.5761,
+      "step": 31900
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 2.1888856498841704e-05,
+      "loss": 2.5498,
+      "step": 32000
+    },
+    {
+      "epoch": 0.79,
+      "eval_accuracy": 0.42633659013190034,
+      "eval_loss": 3.4263486862182617,
+      "eval_runtime": 144.2437,
+      "eval_samples_per_second": 6.933,
+      "eval_steps_per_second": 3.466,
+      "step": 32000
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 2.1394392355238145e-05,
+      "loss": 2.5563,
+      "step": 32100
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 2.0904907310078626e-05,
+      "loss": 2.574,
+      "step": 32200
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 2.0420432368711195e-05,
+      "loss": 2.5599,
+      "step": 32300
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 1.9940998219130004e-05,
+      "loss": 2.5991,
+      "step": 32400
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 1.946663523003136e-05,
+      "loss": 2.5622,
+      "step": 32500
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 1.8997373448890154e-05,
+      "loss": 2.5672,
+      "step": 32600
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 1.853324260005649e-05,
+      "loss": 2.5733,
+      "step": 32700
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 1.8074272082873023e-05,
+      "loss": 2.5602,
+      "step": 32800
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 1.762049096981243e-05,
+      "loss": 2.6033,
+      "step": 32900
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 1.7171928004636205e-05,
+      "loss": 2.5874,
+      "step": 33000
+    },
+    {
+      "epoch": 0.82,
+      "eval_accuracy": 0.42740302882266734,
+      "eval_loss": 3.416874885559082,
+      "eval_runtime": 166.1443,
+      "eval_samples_per_second": 6.019,
+      "eval_steps_per_second": 3.009,
+      "step": 33000
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 1.672861160057373e-05,
+      "loss": 2.5585,
+      "step": 33100
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 1.6290569838522605e-05,
+      "loss": 2.6195,
+      "step": 33200
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 1.585783046526984e-05,
+      "loss": 2.5723,
+      "step": 33300
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 1.5430420891734422e-05,
+      "loss": 2.5354,
+      "step": 33400
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 1.500836819123086e-05,
+      "loss": 2.5736,
+      "step": 33500
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 1.4591699097754541e-05,
+      "loss": 2.5509,
+      "step": 33600
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 1.4180440004287954e-05,
+      "loss": 2.5864,
+      "step": 33700
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 1.3774616961129284e-05,
+      "loss": 2.5337,
+      "step": 33800
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 1.3374255674242031e-05,
+      "loss": 2.5268,
+      "step": 33900
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 1.2979381503626842e-05,
+      "loss": 2.5555,
+      "step": 34000
+    },
+    {
+      "epoch": 0.84,
+      "eval_accuracy": 0.42858915486077187,
+      "eval_loss": 3.4067070484161377,
+      "eval_runtime": 152.5339,
+      "eval_samples_per_second": 6.556,
+      "eval_steps_per_second": 3.278,
+      "step": 34000
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 1.2590019461715118e-05,
+      "loss": 2.5291,
+      "step": 34100
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 1.2206194211784615e-05,
+      "loss": 2.5592,
+      "step": 34200
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 1.182793006639732e-05,
+      "loss": 2.535,
+      "step": 34300
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 1.1455250985859277e-05,
+      "loss": 2.5476,
+      "step": 34400
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 1.1088180576702967e-05,
+      "loss": 2.5339,
+      "step": 34500
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 1.0726742090191965e-05,
+      "loss": 2.5451,
+      "step": 34600
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 1.037095842084822e-05,
+      "loss": 2.5518,
+      "step": 34700
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 1.0020852105001677e-05,
+      "loss": 2.5064,
+      "step": 34800
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 9.676445319362993e-06,
+      "loss": 2.5714,
+      "step": 34900
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 9.337759879618601e-06,
+      "loss": 2.5502,
+      "step": 35000
+    },
+    {
+      "epoch": 0.86,
+      "eval_accuracy": 0.42984025403028825,
+      "eval_loss": 3.3996939659118652,
+      "eval_runtime": 152.8547,
+      "eval_samples_per_second": 6.542,
+      "eval_steps_per_second": 3.271,
+      "step": 35000
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 9.004817239048968e-06,
+      "loss": 2.5244,
+      "step": 35100
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 8.677638487169614e-06,
+      "loss": 2.5521,
+      "step": 35200
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 8.356244348395304e-06,
+      "loss": 2.5726,
+      "step": 35300
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 8.04065518072723e-06,
+      "loss": 2.538,
+      "step": 35400
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 7.730890974463601e-06,
+      "loss": 2.5026,
+      "step": 35500
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 7.42697135093321e-06,
+      "loss": 2.5445,
+      "step": 35600
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 7.1289155612527805e-06,
+      "loss": 2.5331,
+      "step": 35700
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 6.836742485107383e-06,
+      "loss": 2.5293,
+      "step": 35800
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 6.55047062955465e-06,
+      "loss": 2.4755,
+      "step": 35900
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 6.270118127852376e-06,
+      "loss": 2.5232,
+      "step": 36000
+    },
+    {
+      "epoch": 0.89,
+      "eval_accuracy": 0.4302408402540303,
+      "eval_loss": 3.3945846557617188,
+      "eval_runtime": 153.7116,
+      "eval_samples_per_second": 6.506,
+      "eval_steps_per_second": 3.253,
+      "step": 36000
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.995702738310038e-06,
+      "loss": 2.5161,
+      "step": 36100
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.727241843163822e-06,
+      "loss": 2.5739,
+      "step": 36200
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 5.464752447475685e-06,
+      "loss": 2.5553,
+      "step": 36300
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 5.208251178056056e-06,
+      "loss": 2.5469,
+      "step": 36400
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 4.9577542824108535e-06,
+      "loss": 2.5504,
+      "step": 36500
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 4.713277627712143e-06,
+      "loss": 2.57,
+      "step": 36600
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.474836699793139e-06,
+      "loss": 2.5595,
+      "step": 36700
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.242446602167361e-06,
+      "loss": 2.5876,
+      "step": 36800
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.016122055071725e-06,
+      "loss": 2.5513,
+      "step": 36900
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 3.795877394534386e-06,
+      "loss": 2.5369,
+      "step": 37000
+    },
+    {
+      "epoch": 0.91,
+      "eval_accuracy": 0.4308510014655594,
+      "eval_loss": 3.3898189067840576,
+      "eval_runtime": 153.5134,
+      "eval_samples_per_second": 6.514,
+      "eval_steps_per_second": 3.257,
+      "step": 37000
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 3.5817265714664592e-06,
+      "loss": 2.5822,
+      "step": 37100
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 3.373683150778406e-06,
+      "loss": 2.5611,
+      "step": 37200
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 3.171760310520788e-06,
+      "loss": 2.5626,
+      "step": 37300
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 2.975970841049569e-06,
+      "loss": 2.5263,
+      "step": 37400
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 2.786327144215817e-06,
+      "loss": 2.5412,
+      "step": 37500
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 2.6028412325802887e-06,
+      "loss": 2.5721,
+      "step": 37600
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 2.4255247286524286e-06,
+      "loss": 2.5137,
+      "step": 37700
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 2.254388864154189e-06,
+      "loss": 2.5477,
+      "step": 37800
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 2.0894444793085664e-06,
+      "loss": 2.5345,
+      "step": 37900
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 1.930702022152975e-06,
+      "loss": 2.5335,
+      "step": 38000
+    },
+    {
+      "epoch": 0.94,
+      "eval_accuracy": 0.43129213483146067,
+      "eval_loss": 3.386915445327759,
+      "eval_runtime": 152.6319,
+      "eval_samples_per_second": 6.552,
+      "eval_steps_per_second": 3.276,
+      "step": 38000
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 1.7781715478774497e-06,
+      "loss": 2.5494,
+      "step": 38100
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 1.6318627181876933e-06,
+      "loss": 2.5837,
+      "step": 38200
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 1.4917848006930413e-06,
+      "loss": 2.5224,
+      "step": 38300
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 1.357946668319554e-06,
+      "loss": 2.5507,
+      "step": 38400
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 1.2303567987478336e-06,
+      "loss": 2.5112,
+      "step": 38500
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 1.1090232738760975e-06,
+      "loss": 2.5139,
+      "step": 38600
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 9.939537793082654e-07,
+      "loss": 2.5593,
+      "step": 38700
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 8.851556038670828e-07,
+      "loss": 2.5327,
+      "step": 38800
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 7.826356391324341e-07,
+      "loss": 2.5504,
+      "step": 38900
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 6.864003790048923e-07,
+      "loss": 2.6032,
+      "step": 39000
+    },
+    {
+      "epoch": 0.96,
+      "eval_accuracy": 0.431466536394724,
+      "eval_loss": 3.38529109954834,
+      "eval_runtime": 155.9485,
+      "eval_samples_per_second": 6.412,
+      "eval_steps_per_second": 3.206,
+      "step": 39000
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 5.964559192942142e-07,
+      "loss": 2.5262,
+      "step": 39100
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 5.128079573333943e-07,
+      "loss": 2.5585,
+      "step": 39200
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 4.3546179161765287e-07,
+      "loss": 2.4912,
+      "step": 39300
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 3.6442232146886024e-07,
+      "loss": 2.5106,
+      "step": 39400
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 2.996940467252185e-07,
+      "loss": 2.5446,
+      "step": 39500
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 2.412810674562005e-07,
+      "loss": 2.5244,
+      "step": 39600
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 1.8918708370283532e-07,
+      "loss": 2.5743,
+      "step": 39700
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 1.4341539524337366e-07,
+      "loss": 2.5332,
+      "step": 39800
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 1.0396890138422155e-07,
+      "loss": 2.5329,
+      "step": 39900
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 7.08501007763207e-08,
+      "loss": 2.5244,
+      "step": 40000
+    },
+    {
+      "epoch": 0.99,
+      "eval_accuracy": 0.43141182217879825,
+      "eval_loss": 3.3849878311157227,
+      "eval_runtime": 153.9769,
+      "eval_samples_per_second": 6.494,
+      "eval_steps_per_second": 3.247,
+      "step": 40000
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 4.406109125690838e-08,
+      "loss": 2.5568,
+      "step": 40100
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 2.3603569716545982e-08,
+      "loss": 2.5507,
+      "step": 40200
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 9.478831991716064e-09,
+      "loss": 2.5186,
+      "step": 40300
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 1.687772782721364e-09,
+      "loss": 2.5194,
+      "step": 40400
+    },
+    {
+      "epoch": 1.0,
+      "step": 40473,
+      "total_flos": 3.382987152257188e+17,
+      "train_loss": 3.073313300175377,
+      "train_runtime": 120576.6781,
+      "train_samples_per_second": 2.685,
+      "train_steps_per_second": 0.336
+    }
+  ],
+  "max_steps": 40473,
+  "num_train_epochs": 1,
+  "total_flos": 3.382987152257188e+17,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:334c2dbae5702869853de9c53c7e112befb726d3fb0d836f99de2e59a78d541a
+size 3375

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff