ce-lery commited on Dec 10, 2023

Commit

c783850

•

1 Parent(s): 8322c34

feat: pretrained by recipe v0.1.0

Browse files

Files changed (21) hide show

README.md +126 -0
all_results.json +14 -0
config.json +25 -0
eval_results.json +9 -0
generation_config.json +6 -0
logs/events.out.tfevents.1701268638.6c82343ebf86.774334.0 +3 -0
logs/events.out.tfevents.1701668470.6c82343ebf86.774334.1 +3 -0
logs/events.out.tfevents.1702138508.90c313ded1af.10650.0 +3 -0
logs/events.out.tfevents.1702169068.90c313ded1af.1917.0 +3 -0
logs/events.out.tfevents.1702194187.90c313ded1af.463702.0 +3 -0
logs/events.out.tfevents.1702195605.90c313ded1af.487106.0 +3 -0
logs/events.out.tfevents.1702196577.90c313ded1af.501706.0 +3 -0
logs/events.out.tfevents.1702198797.90c313ded1af.526008.0 +3 -0
model.safetensors +3 -0
special_tokens_map.json +30 -0
spiece.model +3 -0
tokenizer.json +0 -0
tokenizer_config.json +47 -0
train_results.json +8 -0
trainer_state.json +2618 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,126 @@

+---
+base_model: None
+tags:
+- generated_from_trainer
+model-index:
+- name: checkpoints-mistral-300M-FA2
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# japanese-mistral-300m-base
+## Overview
+Welcome to my model card!
+This Model feature is ...
+- Suppression of unknown word generation by using byte fallback in SentencePiece tokenizer and conversion to huggingface Tokenizers format
+- Pretrained by wikipedia dataset and cc100 dataset
+- Use of [Mistral 300M](confing.json)
+Yukkuri shite ittene!
+## How to use the model
+```python
+from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer
+import torch
+MODEL_NAME = "ce-lery/japanese-mistral-300m-base"
+torch.set_float32_matmul_precision('high')
+DEVICE = "cuda"
+if torch.cuda.is_available():
+    print("cuda")
+    DEVICE = "cuda"
+else:
+    print("cpu")
+    DEVICE = "cpu"
+tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME,use_fast=False)
+model = AutoModelForCausalLM.from_pretrained(
+    MODEL_NAME,
+    trust_remote_code=True,
+).to(DEVICE)
+# streamer = TextStreamer(tokenizer)
+prompt = "大規模言語モデルとは、"
+inputs = tokenizer(prompt, add_special_tokens=False,return_tensors="pt").to(model.device)
+with torch.no_grad():
+    outputs = model.generate(
+        inputs["input_ids"],
+        max_new_tokens=256,
+        do_sample=True,
+        early_stopping=False,
+        top_p=0.95,
+        top_k=50,
+        temperature=0.9,
+        # streamer=streamer,
+        no_repeat_ngram_size=2,
+        num_beams=3
+    )
+print(outputs.tolist()[0])
+outputs_txt = tokenizer.decode(outputs[0])
+print(outputs_txt)
+```
+## Receipe
+If you want to restruct this model, you can refer [this Github repository](https://github.com/ce-lery/japanese-mistral-300m-recipe).
+I wrote the receipe for struction this model. For example,
+- Preprocess with sentencepiece
+- Pretraining with flash attention2 and torch.compile and DeepSpeed
+- Fine-tuning with databricks-dolly-15k-ja
+If you find my mistake,error,...etc, please create issue.
+If you create pulreqest, I'm very happy!
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0006
+- train_batch_size: 4
+- eval_batch_size: 4
+- seed: 42
+- distributed_type: multi-GPU
+- gradient_accumulation_steps: 64
+- total_train_batch_size: 256
+- optimizer: Adam with betas=(0.9,0.95) and epsilon=0.0001
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_steps: 1000
+- num_epochs: 1
+- mixed_precision_training: Native AMP
+### Training results
+| Training Loss | Epoch | Step  | Validation Loss |
+|:-------------:|:-----:|:-----:|:---------------:|
+| 4.2911        | 0.12  | 5000  | 4.2914          |
+| 3.9709        | 0.24  | 10000 | 3.9900          |
+| 3.8229        | 0.36  | 15000 | 3.8388          |
+| 3.7197        | 0.47  | 20000 | 3.7454          |
+| 3.652         | 0.59  | 25000 | 3.6739          |
+| 3.597         | 0.71  | 30000 | 3.6177          |
+| 3.5554        | 0.83  | 35000 | 3.5770          |
+| 3.536         | 0.95  | 40000 | 3.5582          |
+### Framework versions
+- Transformers 4.35.2
+- Pytorch 2.1.1+cu121
+- Datasets 2.14.5
+- Tokenizers 0.14.1

all_results.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+    "epoch": 1.0,
+    "eval_loss": 3.5582468509674072,
+    "eval_runtime": 6274.8366,
+    "eval_samples": 551057,
+    "eval_samples_per_second": 87.82,
+    "eval_steps_per_second": 21.955,
+    "perplexity": 35.10160482608155,
+    "train_loss": 3.89913355111991,
+    "train_runtime": 393554.9634,
+    "train_samples": 10794765,
+    "train_samples_per_second": 27.429,
+    "train_steps_per_second": 0.107
+}

config.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "_name_or_path": "None",
+  "architectures": [
+    "MistralForCausalLM"
+  ],
+  "bos_token_id": 0,
+  "eos_token_id": 0,
+  "hidden_act": "silu",
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 2400,
+  "max_position_embeddings": 4096,
+  "model_type": "mistral",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "num_key_value_heads": 8,
+  "rms_norm_eps": 1e-05,
+  "rope_theta": 10000.0,
+  "sliding_window": 1024,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.35.2",
+  "use_cache": true,
+  "vocab_size": 50257
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.0,
+    "eval_loss": 3.5582468509674072,
+    "eval_runtime": 6274.8366,
+    "eval_samples": 551057,
+    "eval_samples_per_second": 87.82,
+    "eval_steps_per_second": 21.955,
+    "perplexity": 35.10160482608155
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 0,
+  "eos_token_id": 0,
+  "transformers_version": "4.35.2"
+}

logs/events.out.tfevents.1701268638.6c82343ebf86.774334.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:69b2334be418749fdef9ee5067eab27f2d2bc87af0f54c7c07b034c89b2eef03
+size 73595

logs/events.out.tfevents.1701668470.6c82343ebf86.774334.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:46102452189de1ad0a6580e9a1069d92145f83074cb29f286637e304ac05bc73
+size 364

logs/events.out.tfevents.1702138508.90c313ded1af.10650.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:14c7f3f9ae268ac956a8838195d16ba9f20df5c0b60d68fc79294bca4f530836
+size 9990

logs/events.out.tfevents.1702169068.90c313ded1af.1917.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d0b11071131d2855028e7354d33e2d839ee63b64555ced6a8dd5954eaf8a5dd3
+size 6762

logs/events.out.tfevents.1702194187.90c313ded1af.463702.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a44da5d117fc008e9800ea4e20c3ffdc008f1535e87c3f6cac5c3a79e1a9d761
+size 4184

logs/events.out.tfevents.1702195605.90c313ded1af.487106.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3dfaddfc43e7e474eb78e56117557638bd33bbb5648e494510efd8dfa101e1d5
+size 4184

logs/events.out.tfevents.1702196577.90c313ded1af.501706.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f9db84ede883d6200a3cf6dcb189eeaf94b03ff9ee07b14207ddd4d1d0aaf574
+size 4186

logs/events.out.tfevents.1702198797.90c313ded1af.526008.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:054a78baa0e27bb561455b02c3c8dba11b989f1b5ce382502cbf8df04c52f48e
+size 6197

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:669198b0c1741e7f451ee08ac754a73e821b2156372b5bc10d55731c5f60534f
+size 1421709600

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:604cb0c2f073ba13f04739ced6f8310f4f00ab344feea6cb5c4012af3876c684
+size 1249735

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,47 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "extra_ids": 0,
+  "legacy": true,
+  "model_max_length": 50000,
+  "pad_token": "[PAD]",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "T5Tokenizer",
+  "unk_token": "[UNK]"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 3.89913355111991,
+    "train_runtime": 393554.9634,
+    "train_samples": 10794765,
+    "train_samples_per_second": 27.429,
+    "train_steps_per_second": 0.107
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2618 @@

+{
+  "best_metric": 3.5582468509674072,
+  "best_model_checkpoint": "checkpoints-mistral-300M-FA2/checkpoint-40000",
+  "epoch": 0.9999985178004752,
+  "eval_steps": 5000,
+  "global_step": 42167,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 5.9999999999999995e-05,
+      "loss": 9.0925,
+      "step": 100
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.00011999999999999999,
+      "loss": 7.7547,
+      "step": 200
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.00017999999999999998,
+      "loss": 7.3919,
+      "step": 300
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.00023999999999999998,
+      "loss": 7.0885,
+      "step": 400
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0003,
+      "loss": 6.794,
+      "step": 500
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.00035999999999999997,
+      "loss": 6.5749,
+      "step": 600
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00041999999999999996,
+      "loss": 6.4027,
+      "step": 700
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00047999999999999996,
+      "loss": 6.2476,
+      "step": 800
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00054,
+      "loss": 6.0979,
+      "step": 900
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0006,
+      "loss": 5.9485,
+      "step": 1000
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0005999912644458949,
+      "loss": 5.8031,
+      "step": 1100
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0005999650582923124,
+      "loss": 5.6781,
+      "step": 1200
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0005999213830654211,
+      "loss": 5.5612,
+      "step": 1300
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0005998602413087361,
+      "loss": 5.4602,
+      "step": 1400
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.000599781636582972,
+      "loss": 5.3715,
+      "step": 1500
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0005996855734658339,
+      "loss": 5.2891,
+      "step": 1600
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0005995720575517524,
+      "loss": 5.2142,
+      "step": 1700
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0005994410954515569,
+      "loss": 5.1388,
+      "step": 1800
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0005992926947920907,
+      "loss": 5.0648,
+      "step": 1900
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0005991268642157673,
+      "loss": 4.9956,
+      "step": 2000
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0005989436133800661,
+      "loss": 4.937,
+      "step": 2100
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0005987429529569716,
+      "loss": 4.8876,
+      "step": 2200
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0005985248946323499,
+      "loss": 4.8387,
+      "step": 2300
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0005982894511052698,
+      "loss": 4.7943,
+      "step": 2400
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0005980366360872623,
+      "loss": 4.7574,
+      "step": 2500
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0005977664643015227,
+      "loss": 4.7216,
+      "step": 2600
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0005974789514820526,
+      "loss": 4.6875,
+      "step": 2700
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0005971741143727439,
+      "loss": 4.6595,
+      "step": 2800
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0005968519707264038,
+      "loss": 4.6346,
+      "step": 2900
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0005965125393037204,
+      "loss": 4.6029,
+      "step": 3000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0005961558398721711,
+      "loss": 4.5849,
+      "step": 3100
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0005957818932048701,
+      "loss": 4.5592,
+      "step": 3200
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00059539072107936,
+      "loss": 4.537,
+      "step": 3300
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0005949823462763423,
+      "loss": 4.5125,
+      "step": 3400
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0005945567925783518,
+      "loss": 4.4937,
+      "step": 3500
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0005941140847683708,
+      "loss": 4.478,
+      "step": 3600
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0005936542486283861,
+      "loss": 4.4609,
+      "step": 3700
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0005931773109378876,
+      "loss": 4.4427,
+      "step": 3800
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0005926832994723086,
+      "loss": 4.429,
+      "step": 3900
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0005921722430014085,
+      "loss": 4.4091,
+      "step": 4000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0005916441712875966,
+      "loss": 4.3971,
+      "step": 4100
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0005910991150842002,
+      "loss": 4.3842,
+      "step": 4200
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.000590537106133672,
+      "loss": 4.3676,
+      "step": 4300
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0005899581771657428,
+      "loss": 4.3585,
+      "step": 4400
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0005893623618955148,
+      "loss": 4.3407,
+      "step": 4500
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0005887496950214981,
+      "loss": 4.3323,
+      "step": 4600
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0005881202122235901,
+      "loss": 4.3157,
+      "step": 4700
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.000587473950160998,
+      "loss": 4.3058,
+      "step": 4800
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0005868109464701029,
+      "loss": 4.2971,
+      "step": 4900
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0005861312397622692,
+      "loss": 4.2911,
+      "step": 5000
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 4.291384220123291,
+      "eval_runtime": 6254.7697,
+      "eval_samples_per_second": 88.102,
+      "eval_steps_per_second": 22.026,
+      "step": 5000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0005854348696215949,
+      "loss": 4.28,
+      "step": 5100
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.000584721876602607,
+      "loss": 4.2687,
+      "step": 5200
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0005839923022278993,
+      "loss": 4.255,
+      "step": 5300
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0005832461889857147,
+      "loss": 4.2493,
+      "step": 5400
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0005824835803274706,
+      "loss": 4.2397,
+      "step": 5500
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0005817045206652282,
+      "loss": 4.2307,
+      "step": 5600
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0005809090553691065,
+      "loss": 4.2223,
+      "step": 5700
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0005800972307646396,
+      "loss": 4.2181,
+      "step": 5800
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0005792690941300793,
+      "loss": 4.206,
+      "step": 5900
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0005784246936936413,
+      "loss": 4.1952,
+      "step": 6000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.000577564078630697,
+      "loss": 4.1927,
+      "step": 6100
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0005766872990609095,
+      "loss": 4.178,
+      "step": 6200
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0005757944060453144,
+      "loss": 4.1725,
+      "step": 6300
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0005748854515833468,
+      "loss": 4.1704,
+      "step": 6400
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0005739604886098125,
+      "loss": 4.1589,
+      "step": 6500
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0005730195709918055,
+      "loss": 4.1535,
+      "step": 6600
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0005720627535255711,
+      "loss": 4.1452,
+      "step": 6700
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.000571090091933314,
+      "loss": 4.1424,
+      "step": 6800
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0005701016428599541,
+      "loss": 4.1345,
+      "step": 6900
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0005690974638698271,
+      "loss": 4.1261,
+      "step": 7000
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0005680776134433322,
+      "loss": 4.1234,
+      "step": 7100
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0005670421509735268,
+      "loss": 4.1154,
+      "step": 7200
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.000565991136762667,
+      "loss": 4.1083,
+      "step": 7300
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0005649246320186961,
+      "loss": 4.1002,
+      "step": 7400
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0005638426988516804,
+      "loss": 4.0975,
+      "step": 7500
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0005627454002701908,
+      "loss": 4.0906,
+      "step": 7600
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0005616328001776353,
+      "loss": 4.0872,
+      "step": 7700
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0005605049633685356,
+      "loss": 4.0814,
+      "step": 7800
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0005593619555247551,
+      "loss": 4.0714,
+      "step": 7900
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0005582038432116726,
+      "loss": 4.0643,
+      "step": 8000
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0005570306938743069,
+      "loss": 4.0624,
+      "step": 8100
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0005558425758333878,
+      "loss": 4.054,
+      "step": 8200
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0005546395582813782,
+      "loss": 4.052,
+      "step": 8300
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0005534217112784443,
+      "loss": 4.046,
+      "step": 8400
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0005521891057483752,
+      "loss": 4.0427,
+      "step": 8500
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.000550941813474453,
+      "loss": 4.0371,
+      "step": 8600
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.000549679907095272,
+      "loss": 4.0304,
+      "step": 8700
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0005484034601005085,
+      "loss": 4.0262,
+      "step": 8800
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0005471125468266411,
+      "loss": 4.023,
+      "step": 8900
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0005458072424526214,
+      "loss": 4.0215,
+      "step": 9000
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.000544487622995496,
+      "loss": 4.015,
+      "step": 9100
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0005431537653059793,
+      "loss": 4.0085,
+      "step": 9200
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.000541805747063978,
+      "loss": 4.0006,
+      "step": 9300
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0005404436467740676,
+      "loss": 3.9976,
+      "step": 9400
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0005390675437609197,
+      "loss": 3.9953,
+      "step": 9500
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0005376775181646833,
+      "loss": 3.9894,
+      "step": 9600
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0005362736509363169,
+      "loss": 3.9862,
+      "step": 9700
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0005348560238328749,
+      "loss": 3.9821,
+      "step": 9800
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0005334247194127456,
+      "loss": 3.9795,
+      "step": 9900
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0005319798210308438,
+      "loss": 3.9709,
+      "step": 10000
+    },
+    {
+      "epoch": 0.24,
+      "eval_loss": 3.989983320236206,
+      "eval_runtime": 6257.6022,
+      "eval_samples_per_second": 88.062,
+      "eval_steps_per_second": 22.016,
+      "step": 10000
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.000530521412833756,
+      "loss": 3.971,
+      "step": 10100
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0005290495797548403,
+      "loss": 3.9659,
+      "step": 10200
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00052756440750928,
+      "loss": 3.9599,
+      "step": 10300
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0005260659825890919,
+      "loss": 3.958,
+      "step": 10400
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0005245543922580891,
+      "loss": 3.9549,
+      "step": 10500
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0005230297245467988,
+      "loss": 3.9524,
+      "step": 10600
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0005214920682473364,
+      "loss": 3.9487,
+      "step": 10700
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.000519941512908234,
+      "loss": 3.9405,
+      "step": 10800
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0005183781488292252,
+      "loss": 3.9388,
+      "step": 10900
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0005168020670559866,
+      "loss": 3.9395,
+      "step": 11000
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0005152133593748358,
+      "loss": 3.9324,
+      "step": 11100
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0005136121183073853,
+      "loss": 3.9289,
+      "step": 11200
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0005119984371051549,
+      "loss": 3.9234,
+      "step": 11300
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0005103724097441411,
+      "loss": 3.9227,
+      "step": 11400
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0005087341309193438,
+      "loss": 3.9204,
+      "step": 11500
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0005070836960392517,
+      "loss": 3.918,
+      "step": 11600
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0005054212012202861,
+      "loss": 3.9053,
+      "step": 11700
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0005037467432812033,
+      "loss": 3.9075,
+      "step": 11800
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0005020604197374561,
+      "loss": 3.9064,
+      "step": 11900
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0005003623287955149,
+      "loss": 3.9026,
+      "step": 12000
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0004986697243743568,
+      "loss": 3.8982,
+      "step": 12100
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0004969485111851287,
+      "loss": 3.8938,
+      "step": 12200
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0004952158283000648,
+      "loss": 3.8916,
+      "step": 12300
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0004934717766254659,
+      "loss": 3.8897,
+      "step": 12400
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0004917164577297167,
+      "loss": 3.8904,
+      "step": 12500
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.000489949973837372,
+      "loss": 3.8837,
+      "step": 12600
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0004881724278232027,
+      "loss": 3.8825,
+      "step": 12700
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0004863839232062045,
+      "loss": 3.877,
+      "step": 12800
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0004845845641435698,
+      "loss": 3.8772,
+      "step": 12900
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0004827744554246214,
+      "loss": 3.8727,
+      "step": 13000
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0004809537024647106,
+      "loss": 3.8677,
+      "step": 13100
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00047912241129907716,
+      "loss": 3.8691,
+      "step": 13200
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00047728068857667475,
+      "loss": 3.8654,
+      "step": 13300
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00047542864155396025,
+      "loss": 3.8623,
+      "step": 13400
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00047356637808864646,
+      "loss": 3.8523,
+      "step": 13500
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.000471694006633422,
+      "loss": 3.8573,
+      "step": 13600
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00046981163622963445,
+      "loss": 3.8565,
+      "step": 13700
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0004679193765009406,
+      "loss": 3.8482,
+      "step": 13800
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00046601733764692197,
+      "loss": 3.8434,
+      "step": 13900
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0004641056304366674,
+      "loss": 3.8503,
+      "step": 14000
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.000462184366202322,
+      "loss": 3.8419,
+      "step": 14100
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00046027301031098105,
+      "loss": 3.8443,
+      "step": 14200
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00045833306101326796,
+      "loss": 3.8355,
+      "step": 14300
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0004563838908687476,
+      "loss": 3.8367,
+      "step": 14400
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.000454425613391295,
+      "loss": 3.8354,
+      "step": 14500
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0004524583426251691,
+      "loss": 3.8335,
+      "step": 14600
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0004504821931383715,
+      "loss": 3.8349,
+      "step": 14700
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00044849728001597385,
+      "loss": 3.8244,
+      "step": 14800
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0004465236968920431,
+      "loss": 3.821,
+      "step": 14900
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00044452168853148435,
+      "loss": 3.8229,
+      "step": 15000
+    },
+    {
+      "epoch": 0.36,
+      "eval_loss": 3.838818311691284,
+      "eval_runtime": 6259.3563,
+      "eval_samples_per_second": 88.037,
+      "eval_steps_per_second": 22.009,
+      "step": 15000
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0004425112636573954,
+      "loss": 3.817,
+      "step": 15100
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00044049253935094467,
+      "loss": 3.8165,
+      "step": 15200
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0004384656331766349,
+      "loss": 3.8144,
+      "step": 15300
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00043643066317545647,
+      "loss": 3.8139,
+      "step": 15400
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.000434387747858013,
+      "loss": 3.8071,
+      "step": 15500
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0004323370061976197,
+      "loss": 3.8034,
+      "step": 15600
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0004302785576233748,
+      "loss": 3.8071,
+      "step": 15700
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0004282125220132043,
+      "loss": 3.8009,
+      "step": 15800
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0004261390196868805,
+      "loss": 3.7961,
+      "step": 15900
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00042405817139901526,
+      "loss": 3.7929,
+      "step": 16000
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00042197009833202696,
+      "loss": 3.8016,
+      "step": 16100
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00041987492208908427,
+      "loss": 3.7909,
+      "step": 16200
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0004177727646870232,
+      "loss": 3.7895,
+      "step": 16300
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00041566374854924194,
+      "loss": 3.7867,
+      "step": 16400
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00041354799649857116,
+      "loss": 3.7862,
+      "step": 16500
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00041142563175012073,
+      "loss": 3.7839,
+      "step": 16600
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0004092967779041047,
+      "loss": 3.7807,
+      "step": 16700
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0004071615589386428,
+      "loss": 3.7772,
+      "step": 16800
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00040502009920254025,
+      "loss": 3.7765,
+      "step": 16900
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00040287252340804637,
+      "loss": 3.7742,
+      "step": 17000
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0004007189566235915,
+      "loss": 3.7766,
+      "step": 17100
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0003985595242665033,
+      "loss": 3.7685,
+      "step": 17200
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00039639435209570307,
+      "loss": 3.7715,
+      "step": 17300
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0003942235662043819,
+      "loss": 3.7718,
+      "step": 17400
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.000392047293012657,
+      "loss": 3.7688,
+      "step": 17500
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00038986565926021,
+      "loss": 3.7631,
+      "step": 17600
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0003876787919989051,
+      "loss": 3.7589,
+      "step": 17700
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0003854868185853913,
+      "loss": 3.7614,
+      "step": 17800
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0003832898666736839,
+      "loss": 3.7549,
+      "step": 17900
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0003810880642077316,
+      "loss": 3.7571,
+      "step": 18000
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00037888153941396496,
+      "loss": 3.7534,
+      "step": 18100
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0003766704207938287,
+      "loss": 3.7517,
+      "step": 18200
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0003744548371162984,
+      "loss": 3.7567,
+      "step": 18300
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0003722349174103814,
+      "loss": 3.7486,
+      "step": 18400
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00037001079095760225,
+      "loss": 3.7516,
+      "step": 18500
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0003677825872844742,
+      "loss": 3.7437,
+      "step": 18600
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0003655504361549554,
+      "loss": 3.7457,
+      "step": 18700
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00036331446756289226,
+      "loss": 3.7464,
+      "step": 18800
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00036109722610660756,
+      "loss": 3.741,
+      "step": 18900
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0003588540483745179,
+      "loss": 3.7379,
+      "step": 19000
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0003566074431576024,
+      "loss": 3.738,
+      "step": 19100
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00035435754129147054,
+      "loss": 3.7309,
+      "step": 19200
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00035210447380371886,
+      "loss": 3.7355,
+      "step": 19300
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0003498483719063004,
+      "loss": 3.7344,
+      "step": 19400
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.000347589366987883,
+      "loss": 3.735,
+      "step": 19500
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.000345327590606198,
+      "loss": 3.7291,
+      "step": 19600
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00034306317448037834,
+      "loss": 3.7295,
+      "step": 19700
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00034079625048328796,
+      "loss": 3.7221,
+      "step": 19800
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00033852695063384174,
+      "loss": 3.7301,
+      "step": 19900
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00033625540708931705,
+      "loss": 3.7197,
+      "step": 20000
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 3.7453513145446777,
+      "eval_runtime": 6261.7484,
+      "eval_samples_per_second": 88.004,
+      "eval_steps_per_second": 22.001,
+      "step": 20000
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0003339817521376575,
+      "loss": 3.7178,
+      "step": 20100
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00033170611818976876,
+      "loss": 3.7157,
+      "step": 20200
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0003294286377718072,
+      "loss": 3.7184,
+      "step": 20300
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00032714944351746255,
+      "loss": 3.7167,
+      "step": 20400
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0003248914833042039,
+      "loss": 3.7177,
+      "step": 20500
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00032260927349466893,
+      "loss": 3.712,
+      "step": 20600
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0003203257469882546,
+      "loss": 3.7095,
+      "step": 20700
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0003180410367707568,
+      "loss": 3.7036,
+      "step": 20800
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0003157552758969068,
+      "loss": 3.7059,
+      "step": 20900
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0003134685974826232,
+      "loss": 3.7097,
+      "step": 21000
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00031118113469725937,
+      "loss": 3.7021,
+      "step": 21100
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00030889302075584824,
+      "loss": 3.7026,
+      "step": 21200
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0003066043889113439,
+      "loss": 3.7003,
+      "step": 21300
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00030431537244686186,
+      "loss": 3.7008,
+      "step": 21400
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00030202610466791653,
+      "loss": 3.6968,
+      "step": 21500
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00029973671889465826,
+      "loss": 3.6949,
+      "step": 21600
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00029744734845410883,
+      "loss": 3.6992,
+      "step": 21700
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00029515812667239735,
+      "loss": 3.6916,
+      "step": 21800
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00029286918686699537,
+      "loss": 3.6919,
+      "step": 21900
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.0002905806623389529,
+      "loss": 3.6909,
+      "step": 22000
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00028829268636513573,
+      "loss": 3.6979,
+      "step": 22100
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00028600539219046303,
+      "loss": 3.689,
+      "step": 22200
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0002837189130201484,
+      "loss": 3.684,
+      "step": 22300
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0002814333820119417,
+      "loss": 3.6825,
+      "step": 22400
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00027914893226837486,
+      "loss": 3.6896,
+      "step": 22500
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00027686569682901013,
+      "loss": 3.6824,
+      "step": 22600
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0002746066204389395,
+      "loss": 3.6777,
+      "step": 22700
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00027232619697688704,
+      "loss": 3.6824,
+      "step": 22800
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0002700473851548586,
+      "loss": 3.6806,
+      "step": 22900
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0002677703176840807,
+      "loss": 3.6795,
+      "step": 23000
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0002654951271741938,
+      "loss": 3.6753,
+      "step": 23100
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0002632219461255299,
+      "loss": 3.6703,
+      "step": 23200
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00026095090692139603,
+      "loss": 3.6678,
+      "step": 23300
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0002586821418203645,
+      "loss": 3.6701,
+      "step": 23400
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00025641578294857047,
+      "loss": 3.6712,
+      "step": 23500
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0002541519622920176,
+      "loss": 3.6709,
+      "step": 23600
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0002518908116888915,
+      "loss": 3.6688,
+      "step": 23700
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00024963246282188163,
+      "loss": 3.6668,
+      "step": 23800
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0002473770472105129,
+      "loss": 3.6671,
+      "step": 23900
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00024512469620348586,
+      "loss": 3.6619,
+      "step": 24000
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00024287554097102775,
+      "loss": 3.66,
+      "step": 24100
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00024062971249725343,
+      "loss": 3.663,
+      "step": 24200
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00023838734157253735,
+      "loss": 3.6586,
+      "step": 24300
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00023614855878589612,
+      "loss": 3.6627,
+      "step": 24400
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00023391349451738433,
+      "loss": 3.6548,
+      "step": 24500
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00023168227893050097,
+      "loss": 3.6541,
+      "step": 24600
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00022945504196460908,
+      "loss": 3.6516,
+      "step": 24700
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00022723191332736894,
+      "loss": 3.6545,
+      "step": 24800
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00022501302248718378,
+      "loss": 3.6536,
+      "step": 24900
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.0002227984986656603,
+      "loss": 3.652,
+      "step": 25000
+    },
+    {
+      "epoch": 0.59,
+      "eval_loss": 3.6738803386688232,
+      "eval_runtime": 6261.7124,
+      "eval_samples_per_second": 88.004,
+      "eval_steps_per_second": 22.001,
+      "step": 25000
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00022061054843048285,
+      "loss": 3.6444,
+      "step": 25100
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.000218405098403175,
+      "loss": 3.6463,
+      "step": 25200
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00021620440022038445,
+      "loss": 3.6485,
+      "step": 25300
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00021400858204423146,
+      "loss": 3.6457,
+      "step": 25400
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00021181777175263927,
+      "loss": 3.6429,
+      "step": 25500
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00020963209693188685,
+      "loss": 3.6426,
+      "step": 25600
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00020745168486917856,
+      "loss": 3.6436,
+      "step": 25700
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00020527666254523122,
+      "loss": 3.638,
+      "step": 25800
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0002031071566268795,
+      "loss": 3.6347,
+      "step": 25900
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00020094329345969906,
+      "loss": 3.6352,
+      "step": 26000
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00019878519906064822,
+      "loss": 3.6357,
+      "step": 26100
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00019663299911072975,
+      "loss": 3.6363,
+      "step": 26200
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00019448681894767086,
+      "loss": 3.6347,
+      "step": 26300
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00019234678355862448,
+      "loss": 3.6289,
+      "step": 26400
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.0001902130175728901,
+      "loss": 3.6329,
+      "step": 26500
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.0001880856452546559,
+      "loss": 3.6347,
+      "step": 26600
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00018596479049576175,
+      "loss": 3.6317,
+      "step": 26700
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.0001838505768084843,
+      "loss": 3.6218,
+      "step": 26800
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00018174312731834396,
+      "loss": 3.6279,
+      "step": 26900
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.0001796425647569343,
+      "loss": 3.6248,
+      "step": 27000
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00017754901145477467,
+      "loss": 3.6295,
+      "step": 27100
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00017548341785672704,
+      "loss": 3.6232,
+      "step": 27200
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00017340417529776694,
+      "loss": 3.6214,
+      "step": 27300
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00017133230530331462,
+      "loss": 3.6229,
+      "step": 27400
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00016926792853291946,
+      "loss": 3.6203,
+      "step": 27500
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00016721116520974823,
+      "loss": 3.617,
+      "step": 27600
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.0001651621351135826,
+      "loss": 3.6154,
+      "step": 27700
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00016312095757384451,
+      "loss": 3.6209,
+      "step": 27800
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00016108775146264626,
+      "loss": 3.6179,
+      "step": 27900
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00015906263518786752,
+      "loss": 3.6132,
+      "step": 28000
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00015704572668626048,
+      "loss": 3.6137,
+      "step": 28100
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00015503714341658065,
+      "loss": 3.6088,
+      "step": 28200
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.0001530370023527469,
+      "loss": 3.6135,
+      "step": 28300
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00015104541997702905,
+      "loss": 3.6092,
+      "step": 28400
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.0001490625122732643,
+      "loss": 3.6125,
+      "step": 28500
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00014708839472010312,
+      "loss": 3.6125,
+      "step": 28600
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00014512318228428328,
+      "loss": 3.6076,
+      "step": 28700
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00014316698941393538,
+      "loss": 3.606,
+      "step": 28800
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00014121993003191695,
+      "loss": 3.6039,
+      "step": 28900
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00013928211752917854,
+      "loss": 3.6058,
+      "step": 29000
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00013735366475816006,
+      "loss": 3.6023,
+      "step": 29100
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00013543468402621808,
+      "loss": 3.5966,
+      "step": 29200
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00013352528708908623,
+      "loss": 3.6002,
+      "step": 29300
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0001316255851443661,
+      "loss": 3.603,
+      "step": 29400
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00012975453888853402,
+      "loss": 3.5971,
+      "step": 29500
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00012787445855677994,
+      "loss": 3.5955,
+      "step": 29600
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00012600440230489343,
+      "loss": 3.5974,
+      "step": 29700
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.0001241444790393915,
+      "loss": 3.5965,
+      "step": 29800
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00012229479707667653,
+      "loss": 3.6012,
+      "step": 29900
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00012045546413672746,
+      "loss": 3.597,
+      "step": 30000
+    },
+    {
+      "epoch": 0.71,
+      "eval_loss": 3.617741823196411,
+      "eval_runtime": 6508.3328,
+      "eval_samples_per_second": 84.669,
+      "eval_steps_per_second": 21.167,
+      "step": 30000
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00011862658733682693,
+      "loss": 3.5872,
+      "step": 30100
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00011680827318532343,
+      "loss": 3.5905,
+      "step": 30200
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00011500062757542787,
+      "loss": 3.5966,
+      "step": 30300
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00011320375577904705,
+      "loss": 3.5901,
+      "step": 30400
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00011141776244065287,
+      "loss": 3.5916,
+      "step": 30500
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00010964275157118847,
+      "loss": 3.5895,
+      "step": 30600
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00010787882654201032,
+      "loss": 3.5866,
+      "step": 30700
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00010612609007886857,
+      "loss": 3.5895,
+      "step": 30800
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00010438464425592469,
+      "loss": 3.5874,
+      "step": 30900
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00010265459048980658,
+      "loss": 3.5868,
+      "step": 31000
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.000100936029533703,
+      "loss": 3.5787,
+      "step": 31100
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 9.922906147149525e-05,
+      "loss": 3.5839,
+      "step": 31200
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 9.753378571192895e-05,
+      "loss": 3.5852,
+      "step": 31300
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 9.585030098282516e-05,
+      "loss": 3.5745,
+      "step": 31400
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 9.417870532532991e-05,
+      "loss": 3.5768,
+      "step": 31500
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 9.251909608820541e-05,
+      "loss": 3.577,
+      "step": 31600
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 9.087156992216018e-05,
+      "loss": 3.5845,
+      "step": 31700
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 8.925251564625636e-05,
+      "loss": 3.5767,
+      "step": 31800
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 8.762931954253596e-05,
+      "loss": 3.5754,
+      "step": 31900
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 8.60184912759454e-05,
+      "loss": 3.5723,
+      "step": 32000
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 8.442012465633435e-05,
+      "loss": 3.5735,
+      "step": 32100
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 8.283431276782354e-05,
+      "loss": 3.5732,
+      "step": 32200
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 8.126114796338322e-05,
+      "loss": 3.5705,
+      "step": 32300
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 7.971626276492257e-05,
+      "loss": 3.5694,
+      "step": 32400
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 7.816853749295341e-05,
+      "loss": 3.5698,
+      "step": 32500
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 7.663373102593709e-05,
+      "loss": 3.5638,
+      "step": 32600
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 7.51119327464399e-05,
+      "loss": 3.5674,
+      "step": 32700
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 7.36032312794699e-05,
+      "loss": 3.5615,
+      "step": 32800
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 7.21077144873156e-05,
+      "loss": 3.5749,
+      "step": 32900
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 7.062546946442954e-05,
+      "loss": 3.5659,
+      "step": 33000
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 6.915658253235543e-05,
+      "loss": 3.5661,
+      "step": 33100
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 6.770113923470201e-05,
+      "loss": 3.5628,
+      "step": 33200
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 6.625922433216026e-05,
+      "loss": 3.5597,
+      "step": 33300
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 6.483092179756783e-05,
+      "loss": 3.5658,
+      "step": 33400
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 6.341631481101857e-05,
+      "loss": 3.5596,
+      "step": 33500
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 6.20154857550183e-05,
+      "loss": 3.5628,
+      "step": 33600
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 6.062851620968693e-05,
+      "loss": 3.5562,
+      "step": 33700
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 5.925548694800801e-05,
+      "loss": 3.5659,
+      "step": 33800
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 5.789647793112406e-05,
+      "loss": 3.5578,
+      "step": 33900
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 5.6551568303680585e-05,
+      "loss": 3.5617,
+      "step": 34000
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 5.5220836389216264e-05,
+      "loss": 3.5618,
+      "step": 34100
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 5.390435968560195e-05,
+      "loss": 3.5566,
+      "step": 34200
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 5.260221486052765e-05,
+      "loss": 3.558,
+      "step": 34300
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 5.131447774703693e-05,
+      "loss": 3.5553,
+      "step": 34400
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 5.004122333911149e-05,
+      "loss": 3.5587,
+      "step": 34500
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 4.8782525787302994e-05,
+      "loss": 3.5585,
+      "step": 34600
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 4.7538458394415367e-05,
+      "loss": 3.5541,
+      "step": 34700
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 4.630909361123535e-05,
+      "loss": 3.5486,
+      "step": 34800
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 4.509450303231335e-05,
+      "loss": 3.5527,
+      "step": 34900
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 4.3894757391794366e-05,
+      "loss": 3.5554,
+      "step": 35000
+    },
+    {
+      "epoch": 0.83,
+      "eval_loss": 3.5770018100738525,
+      "eval_runtime": 6272.5699,
+      "eval_samples_per_second": 87.852,
+      "eval_steps_per_second": 21.963,
+      "step": 35000
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 4.27099265592979e-05,
+      "loss": 3.5507,
+      "step": 35100
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 4.154007953584973e-05,
+      "loss": 3.5502,
+      "step": 35200
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 4.038528444986291e-05,
+      "loss": 3.5468,
+      "step": 35300
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 3.9245608553170395e-05,
+      "loss": 3.5483,
+      "step": 35400
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 3.812111821710867e-05,
+      "loss": 3.5482,
+      "step": 35500
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 3.701187892865215e-05,
+      "loss": 3.5497,
+      "step": 35600
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 3.591795528659971e-05,
+      "loss": 3.5513,
+      "step": 35700
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 3.4839410997812365e-05,
+      "loss": 3.5471,
+      "step": 35800
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 3.377630887350332e-05,
+      "loss": 3.5544,
+      "step": 35900
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 3.272871082558024e-05,
+      "loss": 3.5426,
+      "step": 36000
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 3.169667786303914e-05,
+      "loss": 3.5429,
+      "step": 36100
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 3.068027008841208e-05,
+      "loss": 3.5441,
+      "step": 36200
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 2.9679546694266342e-05,
+      "loss": 3.5479,
+      "step": 36300
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 2.869456595975762e-05,
+      "loss": 3.5448,
+      "step": 36400
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 2.772538524723592e-05,
+      "loss": 3.5434,
+      "step": 36500
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 2.6772060998904855e-05,
+      "loss": 3.545,
+      "step": 36600
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 2.583464873353487e-05,
+      "loss": 3.5468,
+      "step": 36700
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 2.4913203043229636e-05,
+      "loss": 3.5417,
+      "step": 36800
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 2.4007777590247125e-05,
+      "loss": 3.5426,
+      "step": 36900
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 2.311842510387417e-05,
+      "loss": 3.5383,
+      "step": 37000
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 2.2253849669299984e-05,
+      "loss": 3.5409,
+      "step": 37100
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 2.1396635552045304e-05,
+      "loss": 3.5476,
+      "step": 37200
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 2.0555646466550592e-05,
+      "loss": 3.5411,
+      "step": 37300
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 1.973093138952013e-05,
+      "loss": 3.5394,
+      "step": 37400
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 1.8922538349908478e-05,
+      "loss": 3.5395,
+      "step": 37500
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 1.81305144261232e-05,
+      "loss": 3.5353,
+      "step": 37600
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 1.7354905743283154e-05,
+      "loss": 3.5405,
+      "step": 37700
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 1.6595757470532535e-05,
+      "loss": 3.5375,
+      "step": 37800
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 1.585311381841e-05,
+      "loss": 3.5369,
+      "step": 37900
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 1.5127018036274286e-05,
+      "loss": 3.5393,
+      "step": 38000
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 1.4417512409785326e-05,
+      "loss": 3.5358,
+      "step": 38100
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 1.3724638258441644e-05,
+      "loss": 3.5394,
+      "step": 38200
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 1.3048435933174273e-05,
+      "loss": 3.5371,
+      "step": 38300
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 1.2388944813996426e-05,
+      "loss": 3.5387,
+      "step": 38400
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 1.1746203307710511e-05,
+      "loss": 3.5385,
+      "step": 38500
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 1.1120248845671176e-05,
+      "loss": 3.5403,
+      "step": 38600
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 1.0511117881605623e-05,
+      "loss": 3.5324,
+      "step": 38700
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 9.918845889490445e-06,
+      "loss": 3.5405,
+      "step": 38800
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 9.3434673614858e-06,
+      "loss": 3.5369,
+      "step": 38900
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 8.785015805926864e-06,
+      "loss": 3.5344,
+      "step": 39000
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 8.243523745372149e-06,
+      "loss": 3.5345,
+      "step": 39100
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 7.71902271470949e-06,
+      "loss": 3.5374,
+      "step": 39200
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 7.211543259319907e-06,
+      "loss": 3.538,
+      "step": 39300
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 6.725934718863668e-06,
+      "loss": 3.5348,
+      "step": 39400
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 6.252415148280509e-06,
+      "loss": 3.5296,
+      "step": 39500
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 5.796002563835378e-06,
+      "loss": 3.5329,
+      "step": 39600
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 5.356723545640385e-06,
+      "loss": 3.5323,
+      "step": 39700
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 4.934603675999771e-06,
+      "loss": 3.5358,
+      "step": 39800
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 4.529667537919968e-06,
+      "loss": 3.5388,
+      "step": 39900
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 4.141938713677839e-06,
+      "loss": 3.536,
+      "step": 40000
+    },
+    {
+      "epoch": 0.95,
+      "eval_loss": 3.5582468509674072,
+      "eval_runtime": 6284.9941,
+      "eval_samples_per_second": 87.678,
+      "eval_steps_per_second": 21.92,
+      "step": 40000
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 3.7714397834476497e-06,
+      "loss": 3.5315,
+      "step": 40100
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 3.418192323985647e-06,
+      "loss": 3.5348,
+      "step": 40200
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 3.082216907373836e-06,
+      "loss": 3.5332,
+      "step": 40300
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.7635330998217352e-06,
+      "loss": 3.5331,
+      "step": 40400
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.462159460526991e-06,
+      "loss": 3.5339,
+      "step": 40500
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.1781135405944396e-06,
+      "loss": 3.5277,
+      "step": 40600
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.911411882014091e-06,
+      "loss": 3.5324,
+      "step": 40700
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.662070016697803e-06,
+      "loss": 3.5332,
+      "step": 40800
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.4301024655745675e-06,
+      "loss": 3.5379,
+      "step": 40900
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.2155227377449562e-06,
+      "loss": 3.53,
+      "step": 41000
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.0183433296945486e-06,
+      "loss": 3.5326,
+      "step": 41100
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 8.38575724565882e-07,
+      "loss": 3.5309,
+      "step": 41200
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 6.762303914898848e-07,
+      "loss": 3.5324,
+      "step": 41300
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 5.326796054423432e-07,
+      "loss": 3.5324,
+      "step": 41400
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 4.0503172472939884e-07,
+      "loss": 3.5328,
+      "step": 41500
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 2.9483136438293033e-07,
+      "loss": 3.5365,
+      "step": 41600
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 2.0208494214430937e-07,
+      "loss": 3.528,
+      "step": 41700
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 1.267978592894958e-07,
+      "loss": 3.5359,
+      "step": 41800
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 6.897450031438933e-08,
+      "loss": 3.525,
+      "step": 41900
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 2.861823267953367e-08,
+      "loss": 3.535,
+      "step": 42000
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 5.731406613940226e-09,
+      "loss": 3.5303,
+      "step": 42100
+    },
+    {
+      "epoch": 1.0,
+      "step": 42167,
+      "total_flos": 2.0159394207481463e+19,
+      "train_loss": 3.89913355111991,
+      "train_runtime": 393554.9634,
+      "train_samples_per_second": 27.429,
+      "train_steps_per_second": 0.107
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 42167,
+  "num_train_epochs": 1,
+  "save_steps": 5000,
+  "total_flos": 2.0159394207481463e+19,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5a227871196f5b75675f4d14daccc2870aa39b6dfb92d1e781e3b3f195f66b35
+size 4600