Upload folder using huggingface_hub

Browse files

Files changed (16) hide show

.gitattributes +1 -0
README.md +209 -3
adapter_config.json +46 -0
adapter_model.safetensors +3 -0
added_tokens.json +28 -0
chat_template.jinja +89 -0
merges.txt +0 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +31 -0
tokenizer.json +3 -0
tokenizer_config.json +239 -0
trainer_state.json +2226 -0
training_args.bin +3 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,3 +1,209 @@
----
-license: apache-2.0
----

+---
+base_model: Qwen/Qwen3-4B
+library_name: peft
+pipeline_tag: text-generation
+tags:
+- base_model:adapter:Qwen/Qwen3-4B
+- lora
+- sft
+- transformers
+- trl
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.18.0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,46 @@

+{
+  "alora_invocation_tokens": null,
+  "alpha_pattern": {},
+  "arrow_config": null,
+  "auto_mapping": null,
+  "base_model_name_or_path": "Qwen/Qwen3-4B",
+  "bias": "none",
+  "corda_config": null,
+  "ensure_weight_tying": false,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 64,
+  "lora_bias": false,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "peft_version": "0.18.0",
+  "qalora_group_size": 16,
+  "r": 32,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "gate_proj",
+    "down_proj",
+    "o_proj",
+    "k_proj",
+    "v_proj",
+    "q_proj",
+    "up_proj"
+  ],
+  "target_parameters": null,
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_qalora": false,
+  "use_rslora": false
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:81f39eea5aa0a63c99773c947d6eb69750f37f80ab1d8cdb92227e28c54bf1cf
+size 264308896

added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,89 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0].role == 'system' %}
+        {{- messages[0].content + '\n\n' }}
+    {%- endif %}
+    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0].content + '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
+{%- for message in messages[::-1] %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- if ns.multi_step_tool and message.role == "user" and message.content is string and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}
+        {%- set ns.multi_step_tool = false %}
+        {%- set ns.last_query_index = index %}
+    {%- endif %}
+{%- endfor %}
+{%- for message in messages %}
+    {%- if message.content is string %}
+        {%- set content = message.content %}
+    {%- else %}
+        {%- set content = '' %}
+    {%- endif %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
+        {{- '<|im_start|>' + message.role + '\n' + content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {%- set reasoning_content = '' %}
+        {%- if message.reasoning_content is string %}
+            {%- set reasoning_content = message.reasoning_content %}
+        {%- else %}
+            {%- if '</think>' in content %}
+                {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+                {%- set content = content.split('</think>')[-1].lstrip('\n') %}
+            {%- endif %}
+        {%- endif %}
+        {%- if loop.index0 > ns.last_query_index %}
+            {%- if loop.last or (not loop.last and reasoning_content) %}
+                {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content.strip('\n') + '\n</think>\n\n' + content.lstrip('\n') }}
+            {%- else %}
+                {{- '<|im_start|>' + message.role + '\n' + content }}
+            {%- endif %}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- endif %}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and content) or (not loop.first) %}
+                    {{- '\n' }}
+                {%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+    {%- if enable_thinking is defined and enable_thinking is false %}
+        {{- '<think>\n\n</think>\n\n' }}
+    {%- endif %}
+{%- endif %}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fd559026c1ce4f03948c802024c22c3309d815a29e8808fcfdbc29ce0e9ff453
+size 528908363

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f84d59a8df474e6bbfdf0347edf7a554e20dae5959ffbc14c766c46b36d4662a
+size 14645

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e80fc673aeb69b7ff7db3152c771456fc30542bbca30a6e0d62a8eb8e8dc1e01
+size 1465

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aeb13307a71acd8fe81861d94ad54ab689df773318809eed3cbe794b4492dae4
+size 11422654

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,239 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2226 @@

+{
+  "best_global_step": 2170,
+  "best_metric": 0.7015999555587769,
+  "best_model_checkpoint": "./qwen-ocaml-sft/checkpoint-2170",
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 2170,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "entropy": 0.6813220992684365,
+      "epoch": 0.009216589861751152,
+      "grad_norm": 3.2051875591278076,
+      "learning_rate": 2.7272727272727273e-05,
+      "loss": 3.3755,
+      "mean_token_accuracy": 0.6017551895231008,
+      "num_tokens": 28960.0,
+      "step": 10
+    },
+    {
+      "entropy": 1.2283372402191162,
+      "epoch": 0.018433179723502304,
+      "grad_norm": 1.4653997421264648,
+      "learning_rate": 5.757575757575758e-05,
+      "loss": 2.155,
+      "mean_token_accuracy": 0.6499206535518169,
+      "num_tokens": 56242.0,
+      "step": 20
+    },
+    {
+      "entropy": 1.4246523216366769,
+      "epoch": 0.027649769585253458,
+      "grad_norm": 0.817514181137085,
+      "learning_rate": 8.787878787878789e-05,
+      "loss": 1.246,
+      "mean_token_accuracy": 0.7391218021512032,
+      "num_tokens": 81828.0,
+      "step": 30
+    },
+    {
+      "entropy": 0.8476247988641262,
+      "epoch": 0.03686635944700461,
+      "grad_norm": 0.5663232803344727,
+      "learning_rate": 0.0001181818181818182,
+      "loss": 0.8677,
+      "mean_token_accuracy": 0.8135000921785831,
+      "num_tokens": 108123.0,
+      "step": 40
+    },
+    {
+      "entropy": 0.8444311738014221,
+      "epoch": 0.04608294930875576,
+      "grad_norm": 0.34002283215522766,
+      "learning_rate": 0.00014848484848484849,
+      "loss": 0.8244,
+      "mean_token_accuracy": 0.809417700022459,
+      "num_tokens": 135208.0,
+      "step": 50
+    },
+    {
+      "entropy": 0.8123929310590029,
+      "epoch": 0.055299539170506916,
+      "grad_norm": 0.35241490602493286,
+      "learning_rate": 0.0001787878787878788,
+      "loss": 0.8167,
+      "mean_token_accuracy": 0.8164027214050293,
+      "num_tokens": 162440.0,
+      "step": 60
+    },
+    {
+      "entropy": 0.7658756393939257,
+      "epoch": 0.06451612903225806,
+      "grad_norm": 0.3681650459766388,
+      "learning_rate": 0.00019999899672483473,
+      "loss": 0.7657,
+      "mean_token_accuracy": 0.8210422351956368,
+      "num_tokens": 189807.0,
+      "step": 70
+    },
+    {
+      "entropy": 0.7832401964813471,
+      "epoch": 0.07373271889400922,
+      "grad_norm": 0.3235045373439789,
+      "learning_rate": 0.00019998116128192004,
+      "loss": 0.7576,
+      "mean_token_accuracy": 0.8224803328514099,
+      "num_tokens": 216034.0,
+      "step": 80
+    },
+    {
+      "entropy": 0.7970531325787306,
+      "epoch": 0.08294930875576037,
+      "grad_norm": 0.3650619685649872,
+      "learning_rate": 0.0001999410354122953,
+      "loss": 0.7725,
+      "mean_token_accuracy": 0.8188429720699787,
+      "num_tokens": 244444.0,
+      "step": 90
+    },
+    {
+      "entropy": 0.8288803774863481,
+      "epoch": 0.09216589861751152,
+      "grad_norm": 0.35073766112327576,
+      "learning_rate": 0.00019987862806187336,
+      "loss": 0.8067,
+      "mean_token_accuracy": 0.8131011754274369,
+      "num_tokens": 272396.0,
+      "step": 100
+    },
+    {
+      "entropy": 0.7561512392014265,
+      "epoch": 0.10138248847926268,
+      "grad_norm": 0.33590376377105713,
+      "learning_rate": 0.00019979395314414003,
+      "loss": 0.7478,
+      "mean_token_accuracy": 0.8274184472858905,
+      "num_tokens": 298632.0,
+      "step": 110
+    },
+    {
+      "entropy": 0.7232621975243092,
+      "epoch": 0.11059907834101383,
+      "grad_norm": 0.3256271779537201,
+      "learning_rate": 0.00019968702953705226,
+      "loss": 0.7314,
+      "mean_token_accuracy": 0.8329285934567452,
+      "num_tokens": 326029.0,
+      "step": 120
+    },
+    {
+      "entropy": 0.7907478779554367,
+      "epoch": 0.11981566820276497,
+      "grad_norm": 0.33607712388038635,
+      "learning_rate": 0.000199557881078829,
+      "loss": 0.7676,
+      "mean_token_accuracy": 0.8183201469480992,
+      "num_tokens": 351003.0,
+      "step": 130
+    },
+    {
+      "entropy": 0.7906187400221825,
+      "epoch": 0.12903225806451613,
+      "grad_norm": 0.2779998183250427,
+      "learning_rate": 0.00019940653656263705,
+      "loss": 0.7742,
+      "mean_token_accuracy": 0.8192058347165585,
+      "num_tokens": 379065.0,
+      "step": 140
+    },
+    {
+      "entropy": 0.7664360474795103,
+      "epoch": 0.1382488479262673,
+      "grad_norm": 0.3371148407459259,
+      "learning_rate": 0.00019923302973017128,
+      "loss": 0.749,
+      "mean_token_accuracy": 0.8246398828923702,
+      "num_tokens": 406059.0,
+      "step": 150
+    },
+    {
+      "entropy": 0.79318634159863,
+      "epoch": 0.14746543778801843,
+      "grad_norm": 0.35788455605506897,
+      "learning_rate": 0.00019903739926413244,
+      "loss": 0.7716,
+      "mean_token_accuracy": 0.8203366309404373,
+      "num_tokens": 432930.0,
+      "step": 160
+    },
+    {
+      "entropy": 0.7674953136593103,
+      "epoch": 0.15668202764976957,
+      "grad_norm": 0.3379119336605072,
+      "learning_rate": 0.00019881968877960262,
+      "loss": 0.7447,
+      "mean_token_accuracy": 0.8250967852771283,
+      "num_tokens": 459227.0,
+      "step": 170
+    },
+    {
+      "entropy": 0.7442232768982648,
+      "epoch": 0.16589861751152074,
+      "grad_norm": 0.2733379304409027,
+      "learning_rate": 0.00019857994681432174,
+      "loss": 0.7193,
+      "mean_token_accuracy": 0.8280802048742771,
+      "num_tokens": 488100.0,
+      "step": 180
+    },
+    {
+      "entropy": 0.8061734095215798,
+      "epoch": 0.17511520737327188,
+      "grad_norm": 0.39817723631858826,
+      "learning_rate": 0.0001983182268178661,
+      "loss": 0.7938,
+      "mean_token_accuracy": 0.8147257067263126,
+      "num_tokens": 514529.0,
+      "step": 190
+    },
+    {
+      "entropy": 0.730117141827941,
+      "epoch": 0.18433179723502305,
+      "grad_norm": 0.28748640418052673,
+      "learning_rate": 0.00019803458713973194,
+      "loss": 0.6923,
+      "mean_token_accuracy": 0.8354114755988121,
+      "num_tokens": 541967.0,
+      "step": 200
+    },
+    {
+      "entropy": 0.7647835846990347,
+      "epoch": 0.1935483870967742,
+      "grad_norm": 0.3064899146556854,
+      "learning_rate": 0.00019772909101632683,
+      "loss": 0.7855,
+      "mean_token_accuracy": 0.8232583694159985,
+      "num_tokens": 567869.0,
+      "step": 210
+    },
+    {
+      "entropy": 0.7511183556169272,
+      "epoch": 0.20276497695852536,
+      "grad_norm": 0.284687876701355,
+      "learning_rate": 0.00019740180655687114,
+      "loss": 0.7365,
+      "mean_token_accuracy": 0.8268198311328888,
+      "num_tokens": 594801.0,
+      "step": 220
+    },
+    {
+      "entropy": 0.7312648665159941,
+      "epoch": 0.2119815668202765,
+      "grad_norm": 0.2912767827510834,
+      "learning_rate": 0.00019705280672821342,
+      "loss": 0.7149,
+      "mean_token_accuracy": 0.8331556461751461,
+      "num_tokens": 623065.0,
+      "step": 230
+    },
+    {
+      "entropy": 0.7296199429780245,
+      "epoch": 0.22119815668202766,
+      "grad_norm": 0.2914985120296478,
+      "learning_rate": 0.0001966821693385628,
+      "loss": 0.7133,
+      "mean_token_accuracy": 0.8297220386564732,
+      "num_tokens": 651286.0,
+      "step": 240
+    },
+    {
+      "entropy": 0.7230386165902019,
+      "epoch": 0.2304147465437788,
+      "grad_norm": 0.2879176437854767,
+      "learning_rate": 0.0001962899770201418,
+      "loss": 0.7015,
+      "mean_token_accuracy": 0.8328824043273926,
+      "num_tokens": 679328.0,
+      "step": 250
+    },
+    {
+      "entropy": 0.7616100814193487,
+      "epoch": 0.23963133640552994,
+      "grad_norm": 0.2995160222053528,
+      "learning_rate": 0.00019587631721076394,
+      "loss": 0.7468,
+      "mean_token_accuracy": 0.8225546918809414,
+      "num_tokens": 706510.0,
+      "step": 260
+    },
+    {
+      "entropy": 0.7302906958386302,
+      "epoch": 0.2488479262672811,
+      "grad_norm": 0.32238849997520447,
+      "learning_rate": 0.0001954412821343396,
+      "loss": 0.695,
+      "mean_token_accuracy": 0.8321026556193829,
+      "num_tokens": 735903.0,
+      "step": 270
+    },
+    {
+      "entropy": 0.7462644644081593,
+      "epoch": 0.25806451612903225,
+      "grad_norm": 0.292940229177475,
+      "learning_rate": 0.00019498496878031526,
+      "loss": 0.738,
+      "mean_token_accuracy": 0.823956660181284,
+      "num_tokens": 763795.0,
+      "step": 280
+    },
+    {
+      "entropy": 0.7547617245465517,
+      "epoch": 0.2672811059907834,
+      "grad_norm": 0.31900840997695923,
+      "learning_rate": 0.0001945074788820499,
+      "loss": 0.7015,
+      "mean_token_accuracy": 0.8319075770676136,
+      "num_tokens": 793256.0,
+      "step": 290
+    },
+    {
+      "entropy": 0.7219028085470199,
+      "epoch": 0.2764976958525346,
+      "grad_norm": 0.21311832964420319,
+      "learning_rate": 0.00019400891889413409,
+      "loss": 0.6913,
+      "mean_token_accuracy": 0.8360162504017353,
+      "num_tokens": 822820.0,
+      "step": 300
+    },
+    {
+      "entropy": 0.7612819388508797,
+      "epoch": 0.2857142857142857,
+      "grad_norm": 0.24163030087947845,
+      "learning_rate": 0.00019348939996865604,
+      "loss": 0.7312,
+      "mean_token_accuracy": 0.8284988068044186,
+      "num_tokens": 849246.0,
+      "step": 310
+    },
+    {
+      "entropy": 0.7190706975758075,
+      "epoch": 0.29493087557603687,
+      "grad_norm": 0.2876209318637848,
+      "learning_rate": 0.0001929490379304211,
+      "loss": 0.6825,
+      "mean_token_accuracy": 0.8362526267766952,
+      "num_tokens": 876769.0,
+      "step": 320
+    },
+    {
+      "entropy": 0.7381139978766441,
+      "epoch": 0.30414746543778803,
+      "grad_norm": 0.3026144504547119,
+      "learning_rate": 0.0001923879532511287,
+      "loss": 0.737,
+      "mean_token_accuracy": 0.8290980480611324,
+      "num_tokens": 903354.0,
+      "step": 330
+    },
+    {
+      "entropy": 0.7504136189818382,
+      "epoch": 0.31336405529953915,
+      "grad_norm": 0.30887624621391296,
+      "learning_rate": 0.00019180627102251366,
+      "loss": 0.7179,
+      "mean_token_accuracy": 0.8358229048550129,
+      "num_tokens": 929002.0,
+      "step": 340
+    },
+    {
+      "entropy": 0.7561500292271376,
+      "epoch": 0.3225806451612903,
+      "grad_norm": 0.26517966389656067,
+      "learning_rate": 0.00019120412092845762,
+      "loss": 0.7543,
+      "mean_token_accuracy": 0.8260673426091671,
+      "num_tokens": 956160.0,
+      "step": 350
+    },
+    {
+      "entropy": 0.718599527142942,
+      "epoch": 0.3317972350230415,
+      "grad_norm": 0.3065567910671234,
+      "learning_rate": 0.0001905816372160765,
+      "loss": 0.6811,
+      "mean_token_accuracy": 0.8358904510736466,
+      "num_tokens": 983958.0,
+      "step": 360
+    },
+    {
+      "entropy": 0.7102599702775478,
+      "epoch": 0.34101382488479265,
+      "grad_norm": 0.3542201519012451,
+      "learning_rate": 0.0001899389586657904,
+      "loss": 0.706,
+      "mean_token_accuracy": 0.8331074707210064,
+      "num_tokens": 1011403.0,
+      "step": 370
+    },
+    {
+      "entropy": 0.723623962327838,
+      "epoch": 0.35023041474654376,
+      "grad_norm": 0.276357501745224,
+      "learning_rate": 0.00018927622856038313,
+      "loss": 0.6863,
+      "mean_token_accuracy": 0.8354352965950966,
+      "num_tokens": 1038520.0,
+      "step": 380
+    },
+    {
+      "entropy": 0.7096922701224685,
+      "epoch": 0.35944700460829493,
+      "grad_norm": 0.23507949709892273,
+      "learning_rate": 0.00018859359465305802,
+      "loss": 0.6646,
+      "mean_token_accuracy": 0.8400698743760586,
+      "num_tokens": 1068912.0,
+      "step": 390
+    },
+    {
+      "entropy": 0.7881791427731514,
+      "epoch": 0.3686635944700461,
+      "grad_norm": 0.30573952198028564,
+      "learning_rate": 0.0001878912091344966,
+      "loss": 0.7777,
+      "mean_token_accuracy": 0.8242236070334912,
+      "num_tokens": 1097236.0,
+      "step": 400
+    },
+    {
+      "entropy": 0.6701938826590776,
+      "epoch": 0.3778801843317972,
+      "grad_norm": 0.2812069058418274,
+      "learning_rate": 0.0001871692285989285,
+      "loss": 0.6481,
+      "mean_token_accuracy": 0.8438641004264354,
+      "num_tokens": 1124008.0,
+      "step": 410
+    },
+    {
+      "entropy": 0.781910614669323,
+      "epoch": 0.3870967741935484,
+      "grad_norm": 0.3356766998767853,
+      "learning_rate": 0.00018642781400921913,
+      "loss": 0.7539,
+      "mean_token_accuracy": 0.8259334497153759,
+      "num_tokens": 1151747.0,
+      "step": 420
+    },
+    {
+      "entropy": 0.7922669878229499,
+      "epoch": 0.39631336405529954,
+      "grad_norm": 0.2958647310733795,
+      "learning_rate": 0.0001856671306609839,
+      "loss": 0.7501,
+      "mean_token_accuracy": 0.8176686450839042,
+      "num_tokens": 1179637.0,
+      "step": 430
+    },
+    {
+      "entropy": 0.7031485013663769,
+      "epoch": 0.4055299539170507,
+      "grad_norm": 0.34288182854652405,
+      "learning_rate": 0.0001848873481457358,
+      "loss": 0.6797,
+      "mean_token_accuracy": 0.8355260133743286,
+      "num_tokens": 1206743.0,
+      "step": 440
+    },
+    {
+      "entropy": 0.7472133696079254,
+      "epoch": 0.4147465437788018,
+      "grad_norm": 0.3254289925098419,
+      "learning_rate": 0.00018408864031307603,
+      "loss": 0.714,
+      "mean_token_accuracy": 0.8313152596354485,
+      "num_tokens": 1235532.0,
+      "step": 450
+    },
+    {
+      "entropy": 0.7830955628305674,
+      "epoch": 0.423963133640553,
+      "grad_norm": 0.27417755126953125,
+      "learning_rate": 0.00018327118523193446,
+      "loss": 0.7618,
+      "mean_token_accuracy": 0.8231057062745094,
+      "num_tokens": 1260898.0,
+      "step": 460
+    },
+    {
+      "entropy": 0.7908357389271259,
+      "epoch": 0.43317972350230416,
+      "grad_norm": 0.31729546189308167,
+      "learning_rate": 0.00018243516515087022,
+      "loss": 0.7612,
+      "mean_token_accuracy": 0.8260951161384582,
+      "num_tokens": 1285377.0,
+      "step": 470
+    },
+    {
+      "entropy": 0.7501760717481375,
+      "epoch": 0.4423963133640553,
+      "grad_norm": 0.301329106092453,
+      "learning_rate": 0.00018158076645743973,
+      "loss": 0.7349,
+      "mean_token_accuracy": 0.8240762166678905,
+      "num_tokens": 1310688.0,
+      "step": 480
+    },
+    {
+      "entropy": 0.7087145041674375,
+      "epoch": 0.45161290322580644,
+      "grad_norm": 0.3549270033836365,
+      "learning_rate": 0.00018070817963664252,
+      "loss": 0.7009,
+      "mean_token_accuracy": 0.8339350454509258,
+      "num_tokens": 1336965.0,
+      "step": 490
+    },
+    {
+      "entropy": 0.7400309775024653,
+      "epoch": 0.4608294930875576,
+      "grad_norm": 0.362632691860199,
+      "learning_rate": 0.0001798175992284532,
+      "loss": 0.7154,
+      "mean_token_accuracy": 0.8314796030521393,
+      "num_tokens": 1363400.0,
+      "step": 500
+    },
+    {
+      "entropy": 0.6961963389068841,
+      "epoch": 0.4700460829493088,
+      "grad_norm": 0.31901466846466064,
+      "learning_rate": 0.00017890922378444949,
+      "loss": 0.669,
+      "mean_token_accuracy": 0.8373238749802112,
+      "num_tokens": 1389113.0,
+      "step": 510
+    },
+    {
+      "entropy": 0.7375663548707962,
+      "epoch": 0.4792626728110599,
+      "grad_norm": 0.27372968196868896,
+      "learning_rate": 0.00017798325582354602,
+      "loss": 0.7192,
+      "mean_token_accuracy": 0.8323125831782818,
+      "num_tokens": 1415275.0,
+      "step": 520
+    },
+    {
+      "entropy": 0.705496003292501,
+      "epoch": 0.48847926267281105,
+      "grad_norm": 0.3057447671890259,
+      "learning_rate": 0.00017703990178684326,
+      "loss": 0.699,
+      "mean_token_accuracy": 0.8369313515722752,
+      "num_tokens": 1443315.0,
+      "step": 530
+    },
+    {
+      "entropy": 0.7515531703829765,
+      "epoch": 0.4976958525345622,
+      "grad_norm": 0.32823631167411804,
+      "learning_rate": 0.0001760793719916025,
+      "loss": 0.725,
+      "mean_token_accuracy": 0.8294148877263069,
+      "num_tokens": 1470203.0,
+      "step": 540
+    },
+    {
+      "entropy": 0.7450070679187775,
+      "epoch": 0.5069124423963134,
+      "grad_norm": 0.2847367823123932,
+      "learning_rate": 0.00017510188058435618,
+      "loss": 0.7266,
+      "mean_token_accuracy": 0.8312779307365418,
+      "num_tokens": 1499344.0,
+      "step": 550
+    },
+    {
+      "entropy": 0.7544645313173532,
+      "epoch": 0.5161290322580645,
+      "grad_norm": 0.29744410514831543,
+      "learning_rate": 0.00017410764549316497,
+      "loss": 0.7335,
+      "mean_token_accuracy": 0.8273285463452339,
+      "num_tokens": 1524469.0,
+      "step": 560
+    },
+    {
+      "entropy": 0.7390379134565592,
+      "epoch": 0.5253456221198156,
+      "grad_norm": 0.28133663535118103,
+      "learning_rate": 0.00017309688837903125,
+      "loss": 0.7386,
+      "mean_token_accuracy": 0.8234638713300229,
+      "num_tokens": 1551793.0,
+      "step": 570
+    },
+    {
+      "entropy": 0.7615715146064759,
+      "epoch": 0.5345622119815668,
+      "grad_norm": 0.31992441415786743,
+      "learning_rate": 0.00017206983458648077,
+      "loss": 0.7443,
+      "mean_token_accuracy": 0.8309870153665543,
+      "num_tokens": 1575394.0,
+      "step": 580
+    },
+    {
+      "entropy": 0.7331630699336529,
+      "epoch": 0.543778801843318,
+      "grad_norm": 0.27732887864112854,
+      "learning_rate": 0.00017102671309332287,
+      "loss": 0.7342,
+      "mean_token_accuracy": 0.8291289664804935,
+      "num_tokens": 1601952.0,
+      "step": 590
+    },
+    {
+      "entropy": 0.7456940717995166,
+      "epoch": 0.5529953917050692,
+      "grad_norm": 0.2734481394290924,
+      "learning_rate": 0.0001699677564596009,
+      "loss": 0.718,
+      "mean_token_accuracy": 0.82945137321949,
+      "num_tokens": 1627428.0,
+      "step": 600
+    },
+    {
+      "entropy": 0.7992878194898367,
+      "epoch": 0.5622119815668203,
+      "grad_norm": 0.2915154695510864,
+      "learning_rate": 0.00016889320077574356,
+      "loss": 0.8216,
+      "mean_token_accuracy": 0.813803830742836,
+      "num_tokens": 1654199.0,
+      "step": 610
+    },
+    {
+      "entropy": 0.7602401621639728,
+      "epoch": 0.5714285714285714,
+      "grad_norm": 0.26141229271888733,
+      "learning_rate": 0.0001678032856099296,
+      "loss": 0.719,
+      "mean_token_accuracy": 0.8310174874961376,
+      "num_tokens": 1681115.0,
+      "step": 620
+    },
+    {
+      "entropy": 0.7364817965775728,
+      "epoch": 0.5806451612903226,
+      "grad_norm": 0.3432636559009552,
+      "learning_rate": 0.0001666982539546769,
+      "loss": 0.7112,
+      "mean_token_accuracy": 0.8290246821939945,
+      "num_tokens": 1708734.0,
+      "step": 630
+    },
+    {
+      "entropy": 0.7116030134260655,
+      "epoch": 0.5898617511520737,
+      "grad_norm": 0.3160955011844635,
+      "learning_rate": 0.00016557835217266833,
+      "loss": 0.712,
+      "mean_token_accuracy": 0.8317363314330578,
+      "num_tokens": 1735137.0,
+      "step": 640
+    },
+    {
+      "entropy": 0.6948481441475451,
+      "epoch": 0.5990783410138248,
+      "grad_norm": 0.3272562026977539,
+      "learning_rate": 0.0001644438299418259,
+      "loss": 0.6515,
+      "mean_token_accuracy": 0.8416998535394669,
+      "num_tokens": 1763024.0,
+      "step": 650
+    },
+    {
+      "entropy": 0.7368293164297939,
+      "epoch": 0.6082949308755761,
+      "grad_norm": 0.3517436385154724,
+      "learning_rate": 0.00016329494019964616,
+      "loss": 0.7297,
+      "mean_token_accuracy": 0.8293934009969235,
+      "num_tokens": 1789240.0,
+      "step": 660
+    },
+    {
+      "entropy": 0.7496969614177942,
+      "epoch": 0.6175115207373272,
+      "grad_norm": 0.37232086062431335,
+      "learning_rate": 0.00016213193908680876,
+      "loss": 0.7259,
+      "mean_token_accuracy": 0.8272240906953812,
+      "num_tokens": 1817298.0,
+      "step": 670
+    },
+    {
+      "entropy": 0.7615457896143198,
+      "epoch": 0.6267281105990783,
+      "grad_norm": 0.3335306942462921,
+      "learning_rate": 0.00016095508589007062,
+      "loss": 0.7412,
+      "mean_token_accuracy": 0.8261737614870072,
+      "num_tokens": 1843687.0,
+      "step": 680
+    },
+    {
+      "entropy": 0.7249070111662149,
+      "epoch": 0.6359447004608295,
+      "grad_norm": 0.4050976037979126,
+      "learning_rate": 0.00015976464298445917,
+      "loss": 0.7164,
+      "mean_token_accuracy": 0.8301085084676743,
+      "num_tokens": 1873530.0,
+      "step": 690
+    },
+    {
+      "entropy": 0.7132208090275526,
+      "epoch": 0.6451612903225806,
+      "grad_norm": 0.25421249866485596,
+      "learning_rate": 0.0001585608757747767,
+      "loss": 0.6608,
+      "mean_token_accuracy": 0.8420857444405556,
+      "num_tokens": 1900690.0,
+      "step": 700
+    },
+    {
+      "entropy": 0.7460955917835236,
+      "epoch": 0.6543778801843319,
+      "grad_norm": 0.3034956753253937,
+      "learning_rate": 0.00015734405263642925,
+      "loss": 0.7343,
+      "mean_token_accuracy": 0.8272924281656742,
+      "num_tokens": 1927455.0,
+      "step": 710
+    },
+    {
+      "entropy": 0.7328020770102739,
+      "epoch": 0.663594470046083,
+      "grad_norm": 0.33788177371025085,
+      "learning_rate": 0.00015611444485559355,
+      "loss": 0.709,
+      "mean_token_accuracy": 0.83270103931427,
+      "num_tokens": 1953144.0,
+      "step": 720
+    },
+    {
+      "entropy": 0.7447477359324693,
+      "epoch": 0.6728110599078341,
+      "grad_norm": 0.3346586525440216,
+      "learning_rate": 0.00015487232656873466,
+      "loss": 0.7222,
+      "mean_token_accuracy": 0.8270196095108986,
+      "num_tokens": 1980596.0,
+      "step": 730
+    },
+    {
+      "entropy": 0.6749195521697402,
+      "epoch": 0.6820276497695853,
+      "grad_norm": 0.3452974259853363,
+      "learning_rate": 0.00015361797470148813,
+      "loss": 0.6646,
+      "mean_token_accuracy": 0.8394610390067101,
+      "num_tokens": 2008675.0,
+      "step": 740
+    },
+    {
+      "entropy": 0.7265764184296131,
+      "epoch": 0.6912442396313364,
+      "grad_norm": 0.2909655272960663,
+      "learning_rate": 0.00015235166890692066,
+      "loss": 0.7088,
+      "mean_token_accuracy": 0.8314410902559757,
+      "num_tokens": 2033771.0,
+      "step": 750
+    },
+    {
+      "entropy": 0.7315562825649977,
+      "epoch": 0.7004608294930875,
+      "grad_norm": 0.29648321866989136,
+      "learning_rate": 0.00015107369150318248,
+      "loss": 0.7098,
+      "mean_token_accuracy": 0.8290056876838208,
+      "num_tokens": 2062456.0,
+      "step": 760
+    },
+    {
+      "entropy": 0.7180851440876722,
+      "epoch": 0.7096774193548387,
+      "grad_norm": 0.3001059889793396,
+      "learning_rate": 0.00014978432741056546,
+      "loss": 0.7102,
+      "mean_token_accuracy": 0.8328296788036823,
+      "num_tokens": 2088056.0,
+      "step": 770
+    },
+    {
+      "entropy": 0.6930279418826103,
+      "epoch": 0.7188940092165899,
+      "grad_norm": 0.24208398163318634,
+      "learning_rate": 0.00014848386408798122,
+      "loss": 0.67,
+      "mean_token_accuracy": 0.8385166138410568,
+      "num_tokens": 2114543.0,
+      "step": 780
+    },
+    {
+      "entropy": 0.7212698049843311,
+      "epoch": 0.728110599078341,
+      "grad_norm": 0.29187795519828796,
+      "learning_rate": 0.0001471725914688734,
+      "loss": 0.7113,
+      "mean_token_accuracy": 0.830100017786026,
+      "num_tokens": 2141643.0,
+      "step": 790
+    },
+    {
+      "entropy": 0.7350654354318976,
+      "epoch": 0.7373271889400922,
+      "grad_norm": 0.25248026847839355,
+      "learning_rate": 0.0001458508018965778,
+      "loss": 0.7152,
+      "mean_token_accuracy": 0.8316237829625607,
+      "num_tokens": 2169695.0,
+      "step": 800
+    },
+    {
+      "entropy": 0.7286242093890906,
+      "epoch": 0.7465437788018433,
+      "grad_norm": 0.31015968322753906,
+      "learning_rate": 0.00014451879005914574,
+      "loss": 0.7034,
+      "mean_token_accuracy": 0.8364780396223068,
+      "num_tokens": 2196982.0,
+      "step": 810
+    },
+    {
+      "entropy": 0.7194942735135555,
+      "epoch": 0.7557603686635944,
+      "grad_norm": 0.32759010791778564,
+      "learning_rate": 0.00014317685292364443,
+      "loss": 0.7043,
+      "mean_token_accuracy": 0.8338726572692394,
+      "num_tokens": 2224474.0,
+      "step": 820
+    },
+    {
+      "entropy": 0.77793597728014,
+      "epoch": 0.7649769585253456,
+      "grad_norm": 0.2720436453819275,
+      "learning_rate": 0.00014182528966994926,
+      "loss": 0.7589,
+      "mean_token_accuracy": 0.8218803226947784,
+      "num_tokens": 2250739.0,
+      "step": 830
+    },
+    {
+      "entropy": 0.7076451467350126,
+      "epoch": 0.7741935483870968,
+      "grad_norm": 0.3766821324825287,
+      "learning_rate": 0.00014046440162404256,
+      "loss": 0.6806,
+      "mean_token_accuracy": 0.8397734023630619,
+      "num_tokens": 2277559.0,
+      "step": 840
+    },
+    {
+      "entropy": 0.6975365605205297,
+      "epoch": 0.783410138248848,
+      "grad_norm": 0.2798302471637726,
+      "learning_rate": 0.00013909449219083454,
+      "loss": 0.6818,
+      "mean_token_accuracy": 0.8393688075244427,
+      "num_tokens": 2305360.0,
+      "step": 850
+    },
+    {
+      "entropy": 0.6880889561027288,
+      "epoch": 0.7926267281105991,
+      "grad_norm": 0.40115004777908325,
+      "learning_rate": 0.0001377158667865198,
+      "loss": 0.67,
+      "mean_token_accuracy": 0.8419740565121174,
+      "num_tokens": 2332072.0,
+      "step": 860
+    },
+    {
+      "entropy": 0.7083487439900636,
+      "epoch": 0.8018433179723502,
+      "grad_norm": 0.33026403188705444,
+      "learning_rate": 0.0001363288327704863,
+      "loss": 0.7089,
+      "mean_token_accuracy": 0.8338705748319626,
+      "num_tokens": 2357608.0,
+      "step": 870
+    },
+    {
+      "entropy": 0.7598309967666864,
+      "epoch": 0.8110599078341014,
+      "grad_norm": 0.29955339431762695,
+      "learning_rate": 0.0001349336993767905,
+      "loss": 0.7444,
+      "mean_token_accuracy": 0.8298642814159394,
+      "num_tokens": 2383770.0,
+      "step": 880
+    },
+    {
+      "entropy": 0.6922020763158798,
+      "epoch": 0.8202764976958525,
+      "grad_norm": 0.28863799571990967,
+      "learning_rate": 0.00013353077764521504,
+      "loss": 0.6756,
+      "mean_token_accuracy": 0.8409150242805481,
+      "num_tokens": 2410579.0,
+      "step": 890
+    },
+    {
+      "entropy": 0.6869130529463291,
+      "epoch": 0.8294930875576036,
+      "grad_norm": 0.24954994022846222,
+      "learning_rate": 0.00013212038035192327,
+      "loss": 0.6487,
+      "mean_token_accuracy": 0.8432103365659713,
+      "num_tokens": 2436906.0,
+      "step": 900
+    },
+    {
+      "entropy": 0.7394245728850365,
+      "epoch": 0.8387096774193549,
+      "grad_norm": 0.3518418073654175,
+      "learning_rate": 0.00013070282193972717,
+      "loss": 0.7251,
+      "mean_token_accuracy": 0.8314510688185692,
+      "num_tokens": 2461086.0,
+      "step": 910
+    },
+    {
+      "entropy": 0.7510461054742337,
+      "epoch": 0.847926267281106,
+      "grad_norm": 0.2915824353694916,
+      "learning_rate": 0.00012927841844798346,
+      "loss": 0.7232,
+      "mean_token_accuracy": 0.8302491903305054,
+      "num_tokens": 2486522.0,
+      "step": 920
+    },
+    {
+      "entropy": 0.6820386406034231,
+      "epoch": 0.8571428571428571,
+      "grad_norm": 0.31238240003585815,
+      "learning_rate": 0.00012784748744213372,
+      "loss": 0.6716,
+      "mean_token_accuracy": 0.8376850992441177,
+      "num_tokens": 2515816.0,
+      "step": 930
+    },
+    {
+      "entropy": 0.721437955647707,
+      "epoch": 0.8663594470046083,
+      "grad_norm": 0.3243514597415924,
+      "learning_rate": 0.00012641034794290455,
+      "loss": 0.6695,
+      "mean_token_accuracy": 0.8371677421033382,
+      "num_tokens": 2543482.0,
+      "step": 940
+    },
+    {
+      "entropy": 0.6836452066898346,
+      "epoch": 0.8755760368663594,
+      "grad_norm": 0.27484971284866333,
+      "learning_rate": 0.00012496732035518292,
+      "loss": 0.6738,
+      "mean_token_accuracy": 0.8397900149226188,
+      "num_tokens": 2570037.0,
+      "step": 950
+    },
+    {
+      "entropy": 0.7361621217802167,
+      "epoch": 0.8847926267281107,
+      "grad_norm": 0.3037663400173187,
+      "learning_rate": 0.00012351872639658313,
+      "loss": 0.7052,
+      "mean_token_accuracy": 0.832957761734724,
+      "num_tokens": 2597157.0,
+      "step": 960
+    },
+    {
+      "entropy": 0.7077585969120264,
+      "epoch": 0.8940092165898618,
+      "grad_norm": 0.3264278173446655,
+      "learning_rate": 0.00012206488902572111,
+      "loss": 0.7059,
+      "mean_token_accuracy": 0.8371899336576462,
+      "num_tokens": 2625082.0,
+      "step": 970
+    },
+    {
+      "entropy": 0.7448218245059252,
+      "epoch": 0.9032258064516129,
+      "grad_norm": 0.2658604681491852,
+      "learning_rate": 0.000120606132370212,
+      "loss": 0.7165,
+      "mean_token_accuracy": 0.8308831945061683,
+      "num_tokens": 2653591.0,
+      "step": 980
+    },
+    {
+      "entropy": 0.7214519936591387,
+      "epoch": 0.9124423963133641,
+      "grad_norm": 0.273061066865921,
+      "learning_rate": 0.00011914278165440706,
+      "loss": 0.6913,
+      "mean_token_accuracy": 0.8331013038754463,
+      "num_tokens": 2681148.0,
+      "step": 990
+    },
+    {
+      "entropy": 0.7345532923936844,
+      "epoch": 0.9216589861751152,
+      "grad_norm": 0.3739384114742279,
+      "learning_rate": 0.0001176751631268862,
+      "loss": 0.7251,
+      "mean_token_accuracy": 0.8301717408001423,
+      "num_tokens": 2706874.0,
+      "step": 1000
+    },
+    {
+      "entropy": 0.6948579344898462,
+      "epoch": 0.9308755760368663,
+      "grad_norm": 0.2887601852416992,
+      "learning_rate": 0.00011620360398772192,
+      "loss": 0.69,
+      "mean_token_accuracy": 0.834751196205616,
+      "num_tokens": 2734030.0,
+      "step": 1010
+    },
+    {
+      "entropy": 0.7203499909490347,
+      "epoch": 0.9400921658986175,
+      "grad_norm": 0.31931382417678833,
+      "learning_rate": 0.00011472843231553145,
+      "loss": 0.7169,
+      "mean_token_accuracy": 0.8334086969494819,
+      "num_tokens": 2761616.0,
+      "step": 1020
+    },
+    {
+      "entropy": 0.6754552606493235,
+      "epoch": 0.9493087557603687,
+      "grad_norm": 0.32389092445373535,
+      "learning_rate": 0.00011324997699433272,
+      "loss": 0.6458,
+      "mean_token_accuracy": 0.8474155105650425,
+      "num_tokens": 2790760.0,
+      "step": 1030
+    },
+    {
+      "entropy": 0.7120772618800402,
+      "epoch": 0.9585253456221198,
+      "grad_norm": 0.24603354930877686,
+      "learning_rate": 0.0001117685676402211,
+      "loss": 0.7025,
+      "mean_token_accuracy": 0.8360289856791496,
+      "num_tokens": 2816382.0,
+      "step": 1040
+    },
+    {
+      "entropy": 0.7087072119116783,
+      "epoch": 0.967741935483871,
+      "grad_norm": 0.28773602843284607,
+      "learning_rate": 0.00011028453452788241,
+      "loss": 0.6794,
+      "mean_token_accuracy": 0.8350553438067436,
+      "num_tokens": 2843265.0,
+      "step": 1050
+    },
+    {
+      "entropy": 0.717174931243062,
+      "epoch": 0.9769585253456221,
+      "grad_norm": 0.37724316120147705,
+      "learning_rate": 0.00010879820851695958,
+      "loss": 0.7219,
+      "mean_token_accuracy": 0.8334485366940498,
+      "num_tokens": 2868077.0,
+      "step": 1060
+    },
+    {
+      "entropy": 0.7240816669538617,
+      "epoch": 0.9861751152073732,
+      "grad_norm": 0.3419313132762909,
+      "learning_rate": 0.0001073099209782888,
+      "loss": 0.6814,
+      "mean_token_accuracy": 0.8350721500813961,
+      "num_tokens": 2895044.0,
+      "step": 1070
+    },
+    {
+      "entropy": 0.7110250508412719,
+      "epoch": 0.9953917050691244,
+      "grad_norm": 0.2590339779853821,
+      "learning_rate": 0.00010582000372002152,
+      "loss": 0.6907,
+      "mean_token_accuracy": 0.8350939892232419,
+      "num_tokens": 2921165.0,
+      "step": 1080
+    },
+    {
+      "epoch": 1.0,
+      "eval_entropy": 0.7250895947870296,
+      "eval_loss": 0.7114262580871582,
+      "eval_mean_token_accuracy": 0.8371727046329305,
+      "eval_num_tokens": 2934806.0,
+      "eval_runtime": 197.3082,
+      "eval_samples_per_second": 10.998,
+      "eval_steps_per_second": 10.998,
+      "step": 1085
+    },
+    {
+      "entropy": 0.7308962121605873,
+      "epoch": 1.0046082949308757,
+      "grad_norm": 0.2802174389362335,
+      "learning_rate": 0.0001043287889136491,
+      "loss": 0.668,
+      "mean_token_accuracy": 0.8353404991328717,
+      "num_tokens": 2947161.0,
+      "step": 1090
+    },
+    {
+      "entropy": 0.6342746868729592,
+      "epoch": 1.0138248847926268,
+      "grad_norm": 0.37129464745521545,
+      "learning_rate": 0.00010283660901994632,
+      "loss": 0.6233,
+      "mean_token_accuracy": 0.8470003835856914,
+      "num_tokens": 2974641.0,
+      "step": 1100
+    },
+    {
+      "entropy": 0.6460907947272062,
+      "epoch": 1.023041474654378,
+      "grad_norm": 0.3424113690853119,
+      "learning_rate": 0.00010134379671485073,
+      "loss": 0.6369,
+      "mean_token_accuracy": 0.8495963260531425,
+      "num_tokens": 3001379.0,
+      "step": 1110
+    },
+    {
+      "entropy": 0.6835248069837689,
+      "epoch": 1.032258064516129,
+      "grad_norm": 0.29605832695961,
+      "learning_rate": 9.985068481529354e-05,
+      "loss": 0.6327,
+      "mean_token_accuracy": 0.8451249115169048,
+      "num_tokens": 3027806.0,
+      "step": 1120
+    },
+    {
+      "entropy": 0.6169640816748142,
+      "epoch": 1.0414746543778801,
+      "grad_norm": 0.37180233001708984,
+      "learning_rate": 9.83576062049994e-05,
+      "loss": 0.5968,
+      "mean_token_accuracy": 0.8531802453100681,
+      "num_tokens": 3052892.0,
+      "step": 1130
+    },
+    {
+      "entropy": 0.6297633443027735,
+      "epoch": 1.0506912442396312,
+      "grad_norm": 0.3378913402557373,
+      "learning_rate": 9.686489376027136e-05,
+      "loss": 0.6206,
+      "mean_token_accuracy": 0.851526065915823,
+      "num_tokens": 3079924.0,
+      "step": 1140
+    },
+    {
+      "entropy": 0.6136038340628147,
+      "epoch": 1.0599078341013826,
+      "grad_norm": 0.3650684356689453,
+      "learning_rate": 9.537288027577711e-05,
+      "loss": 0.6093,
+      "mean_token_accuracy": 0.8550195962190628,
+      "num_tokens": 3105837.0,
+      "step": 1150
+    },
+    {
+      "entropy": 0.6491836536675691,
+      "epoch": 1.0691244239631337,
+      "grad_norm": 0.3491412401199341,
+      "learning_rate": 9.388189839035379e-05,
+      "loss": 0.6144,
+      "mean_token_accuracy": 0.8473505489528179,
+      "num_tokens": 3132962.0,
+      "step": 1160
+    },
+    {
+      "entropy": 0.6371682230383158,
+      "epoch": 1.0783410138248848,
+      "grad_norm": 0.38217079639434814,
+      "learning_rate": 9.239228051284743e-05,
+      "loss": 0.6358,
+      "mean_token_accuracy": 0.8470985740423203,
+      "num_tokens": 3159515.0,
+      "step": 1170
+    },
+    {
+      "entropy": 0.6246544945985079,
+      "epoch": 1.087557603686636,
+      "grad_norm": 0.3524271249771118,
+      "learning_rate": 9.090435874800354e-05,
+      "loss": 0.5815,
+      "mean_token_accuracy": 0.8581700764596463,
+      "num_tokens": 3186296.0,
+      "step": 1180
+    },
+    {
+      "entropy": 0.6239660510793328,
+      "epoch": 1.096774193548387,
+      "grad_norm": 0.38734525442123413,
+      "learning_rate": 8.941846482242566e-05,
+      "loss": 0.6149,
+      "mean_token_accuracy": 0.8517151668667793,
+      "num_tokens": 3213934.0,
+      "step": 1190
+    },
+    {
+      "entropy": 0.6256657449528575,
+      "epoch": 1.1059907834101383,
+      "grad_norm": 0.3149538040161133,
+      "learning_rate": 8.793493001061815e-05,
+      "loss": 0.5964,
+      "mean_token_accuracy": 0.8548560328781605,
+      "num_tokens": 3242142.0,
+      "step": 1200
+    },
+    {
+      "entropy": 0.5848878964781761,
+      "epoch": 1.1152073732718895,
+      "grad_norm": 0.30550169944763184,
+      "learning_rate": 8.645408506112966e-05,
+      "loss": 0.5425,
+      "mean_token_accuracy": 0.8643457405269146,
+      "num_tokens": 3270400.0,
+      "step": 1210
+    },
+    {
+      "entropy": 0.6510914264246821,
+      "epoch": 1.1244239631336406,
+      "grad_norm": 0.3443332016468048,
+      "learning_rate": 8.497626012281427e-05,
+      "loss": 0.6214,
+      "mean_token_accuracy": 0.845578433573246,
+      "num_tokens": 3298889.0,
+      "step": 1220
+    },
+    {
+      "entropy": 0.6255331162363291,
+      "epoch": 1.1336405529953917,
+      "grad_norm": 0.35833534598350525,
+      "learning_rate": 8.350178467122565e-05,
+      "loss": 0.5779,
+      "mean_token_accuracy": 0.8540341056883335,
+      "num_tokens": 3326093.0,
+      "step": 1230
+    },
+    {
+      "entropy": 0.6205343475565315,
+      "epoch": 1.1428571428571428,
+      "grad_norm": 0.3398672640323639,
+      "learning_rate": 8.203098743516202e-05,
+      "loss": 0.6122,
+      "mean_token_accuracy": 0.8538564696907998,
+      "num_tokens": 3353277.0,
+      "step": 1240
+    },
+    {
+      "entropy": 0.591589437611401,
+      "epoch": 1.1520737327188941,
+      "grad_norm": 0.29090237617492676,
+      "learning_rate": 8.056419632337713e-05,
+      "loss": 0.5647,
+      "mean_token_accuracy": 0.8593504391610622,
+      "num_tokens": 3381753.0,
+      "step": 1250
+    },
+    {
+      "entropy": 0.5821992674842477,
+      "epoch": 1.1612903225806452,
+      "grad_norm": 0.29793089628219604,
+      "learning_rate": 7.910173835147428e-05,
+      "loss": 0.5356,
+      "mean_token_accuracy": 0.8655187331140042,
+      "num_tokens": 3410051.0,
+      "step": 1260
+    },
+    {
+      "entropy": 0.5886814070865511,
+      "epoch": 1.1705069124423964,
+      "grad_norm": 0.3498776853084564,
+      "learning_rate": 7.764393956899944e-05,
+      "loss": 0.5544,
+      "mean_token_accuracy": 0.8588730558753014,
+      "num_tokens": 3438209.0,
+      "step": 1270
+    },
+    {
+      "entropy": 0.5947490762919188,
+      "epoch": 1.1797235023041475,
+      "grad_norm": 0.35999783873558044,
+      "learning_rate": 7.619112498674969e-05,
+      "loss": 0.5511,
+      "mean_token_accuracy": 0.8604489989578724,
+      "num_tokens": 3467191.0,
+      "step": 1280
+    },
+    {
+      "entropy": 0.6096777388826012,
+      "epoch": 1.1889400921658986,
+      "grad_norm": 0.4569447338581085,
+      "learning_rate": 7.474361850431315e-05,
+      "loss": 0.5803,
+      "mean_token_accuracy": 0.8564766734838486,
+      "num_tokens": 3495301.0,
+      "step": 1290
+    },
+    {
+      "entropy": 0.6138049149885774,
+      "epoch": 1.1981566820276497,
+      "grad_norm": 0.40922898054122925,
+      "learning_rate": 7.330174283785711e-05,
+      "loss": 0.5919,
+      "mean_token_accuracy": 0.8560373924672604,
+      "num_tokens": 3522210.0,
+      "step": 1300
+    },
+    {
+      "entropy": 0.5668233297765255,
+      "epoch": 1.2073732718894008,
+      "grad_norm": 0.3519320487976074,
+      "learning_rate": 7.186581944817925e-05,
+      "loss": 0.5589,
+      "mean_token_accuracy": 0.863438468426466,
+      "num_tokens": 3550910.0,
+      "step": 1310
+    },
+    {
+      "entropy": 0.6422557730227709,
+      "epoch": 1.2165898617511521,
+      "grad_norm": 0.40460196137428284,
+      "learning_rate": 7.043616846903953e-05,
+      "loss": 0.6295,
+      "mean_token_accuracy": 0.844844151288271,
+      "num_tokens": 3577947.0,
+      "step": 1320
+    },
+    {
+      "entropy": 0.6118434071540833,
+      "epoch": 1.2258064516129032,
+      "grad_norm": 0.3850909471511841,
+      "learning_rate": 6.901310863578732e-05,
+      "loss": 0.5792,
+      "mean_token_accuracy": 0.8563656531274318,
+      "num_tokens": 3605135.0,
+      "step": 1330
+    },
+    {
+      "entropy": 0.631221866607666,
+      "epoch": 1.2350230414746544,
+      "grad_norm": 0.30839139223098755,
+      "learning_rate": 6.759695721430055e-05,
+      "loss": 0.6155,
+      "mean_token_accuracy": 0.8490869931876659,
+      "num_tokens": 3633169.0,
+      "step": 1340
+    },
+    {
+      "entropy": 0.623043118789792,
+      "epoch": 1.2442396313364055,
+      "grad_norm": 0.37266048789024353,
+      "learning_rate": 6.618802993025266e-05,
+      "loss": 0.6443,
+      "mean_token_accuracy": 0.8491488955914974,
+      "num_tokens": 3660421.0,
+      "step": 1350
+    },
+    {
+      "entropy": 0.5951266692951321,
+      "epoch": 1.2534562211981566,
+      "grad_norm": 0.32506951689720154,
+      "learning_rate": 6.478664089872249e-05,
+      "loss": 0.5569,
+      "mean_token_accuracy": 0.8649635158479214,
+      "num_tokens": 3687798.0,
+      "step": 1360
+    },
+    {
+      "entropy": 0.6104681365191936,
+      "epoch": 1.262672811059908,
+      "grad_norm": 0.3316543698310852,
+      "learning_rate": 6.339310255416378e-05,
+      "loss": 0.5858,
+      "mean_token_accuracy": 0.856657163053751,
+      "num_tokens": 3715941.0,
+      "step": 1370
+    },
+    {
+      "entropy": 0.5855855537578464,
+      "epoch": 1.271889400921659,
+      "grad_norm": 0.4697554409503937,
+      "learning_rate": 6.200772558074873e-05,
+      "loss": 0.5614,
+      "mean_token_accuracy": 0.8604506768286229,
+      "num_tokens": 3741133.0,
+      "step": 1380
+    },
+    {
+      "entropy": 0.6417946748435497,
+      "epoch": 1.2811059907834101,
+      "grad_norm": 0.3982338011264801,
+      "learning_rate": 6.06308188431024e-05,
+      "loss": 0.623,
+      "mean_token_accuracy": 0.8485914342105388,
+      "num_tokens": 3766133.0,
+      "step": 1390
+    },
+    {
+      "entropy": 0.6297718342393637,
+      "epoch": 1.2903225806451613,
+      "grad_norm": 0.4881386458873749,
+      "learning_rate": 5.926268931744243e-05,
+      "loss": 0.6192,
+      "mean_token_accuracy": 0.8497353821992875,
+      "num_tokens": 3791970.0,
+      "step": 1400
+    },
+    {
+      "entropy": 0.5673586906865239,
+      "epoch": 1.2995391705069124,
+      "grad_norm": 0.4258589446544647,
+      "learning_rate": 5.79036420231398e-05,
+      "loss": 0.5419,
+      "mean_token_accuracy": 0.8655278801918029,
+      "num_tokens": 3818832.0,
+      "step": 1410
+    },
+    {
+      "entropy": 0.6246172869578004,
+      "epoch": 1.3087557603686637,
+      "grad_norm": 0.3208440840244293,
+      "learning_rate": 5.655397995471579e-05,
+      "loss": 0.5975,
+      "mean_token_accuracy": 0.8529197834432125,
+      "num_tokens": 3845334.0,
+      "step": 1420
+    },
+    {
+      "entropy": 0.6241569153964519,
+      "epoch": 1.3179723502304148,
+      "grad_norm": 0.35756826400756836,
+      "learning_rate": 5.5214004014290755e-05,
+      "loss": 0.6038,
+      "mean_token_accuracy": 0.8531735584139823,
+      "num_tokens": 3871208.0,
+      "step": 1430
+    },
+    {
+      "entropy": 0.5929729694500565,
+      "epoch": 1.327188940092166,
+      "grad_norm": 0.34781602025032043,
+      "learning_rate": 5.3884012944498895e-05,
+      "loss": 0.5709,
+      "mean_token_accuracy": 0.8586051426827908,
+      "num_tokens": 3899041.0,
+      "step": 1440
+    },
+    {
+      "entropy": 0.5982153214514255,
+      "epoch": 1.336405529953917,
+      "grad_norm": 0.42399492859840393,
+      "learning_rate": 5.256430326188484e-05,
+      "loss": 0.5724,
+      "mean_token_accuracy": 0.8588254593312741,
+      "num_tokens": 3924718.0,
+      "step": 1450
+    },
+    {
+      "entropy": 0.6157030487433076,
+      "epoch": 1.3456221198156681,
+      "grad_norm": 0.4058624804019928,
+      "learning_rate": 5.125516919079625e-05,
+      "loss": 0.597,
+      "mean_token_accuracy": 0.8565631859004498,
+      "num_tokens": 3950704.0,
+      "step": 1460
+    },
+    {
+      "entropy": 0.6145446136593818,
+      "epoch": 1.3548387096774195,
+      "grad_norm": 0.41059333086013794,
+      "learning_rate": 4.995690259778762e-05,
+      "loss": 0.5909,
+      "mean_token_accuracy": 0.8548187188804149,
+      "num_tokens": 3977937.0,
+      "step": 1470
+    },
+    {
+      "entropy": 0.6084423962980509,
+      "epoch": 1.3640552995391704,
+      "grad_norm": 0.3891129791736603,
+      "learning_rate": 4.866979292654995e-05,
+      "loss": 0.5937,
+      "mean_token_accuracy": 0.8557461231946946,
+      "num_tokens": 4006038.0,
+      "step": 1480
+    },
+    {
+      "entropy": 0.6311043184250593,
+      "epoch": 1.3732718894009217,
+      "grad_norm": 0.3631453514099121,
+      "learning_rate": 4.7394127133379996e-05,
+      "loss": 0.6024,
+      "mean_token_accuracy": 0.851103562861681,
+      "num_tokens": 4033093.0,
+      "step": 1490
+    },
+    {
+      "entropy": 0.57787942904979,
+      "epoch": 1.3824884792626728,
+      "grad_norm": 0.32106077671051025,
+      "learning_rate": 4.6130189623204766e-05,
+      "loss": 0.5412,
+      "mean_token_accuracy": 0.8636514358222485,
+      "num_tokens": 4060651.0,
+      "step": 1500
+    },
+    {
+      "entropy": 0.6655275866389274,
+      "epoch": 1.391705069124424,
+      "grad_norm": 0.41340014338493347,
+      "learning_rate": 4.4878262186174226e-05,
+      "loss": 0.6377,
+      "mean_token_accuracy": 0.8466010347008706,
+      "num_tokens": 4087640.0,
+      "step": 1510
+    },
+    {
+      "entropy": 0.6205959409475327,
+      "epoch": 1.400921658986175,
+      "grad_norm": 0.3026493191719055,
+      "learning_rate": 4.3638623934837394e-05,
+      "loss": 0.5781,
+      "mean_token_accuracy": 0.856752559542656,
+      "num_tokens": 4114791.0,
+      "step": 1520
+    },
+    {
+      "entropy": 0.5819996166974306,
+      "epoch": 1.4101382488479262,
+      "grad_norm": 0.37101536989212036,
+      "learning_rate": 4.2411551241915305e-05,
+      "loss": 0.5485,
+      "mean_token_accuracy": 0.8607306607067585,
+      "num_tokens": 4141094.0,
+      "step": 1530
+    },
+    {
+      "entropy": 0.6253220835700631,
+      "epoch": 1.4193548387096775,
+      "grad_norm": 0.3750545084476471,
+      "learning_rate": 4.119731767868453e-05,
+      "loss": 0.6086,
+      "mean_token_accuracy": 0.8513987928628921,
+      "num_tokens": 4166035.0,
+      "step": 1540
+    },
+    {
+      "entropy": 0.6176507495343685,
+      "epoch": 1.4285714285714286,
+      "grad_norm": 0.5628491044044495,
+      "learning_rate": 3.9996193953985625e-05,
+      "loss": 0.6086,
+      "mean_token_accuracy": 0.8544401422142982,
+      "num_tokens": 4191198.0,
+      "step": 1550
+    },
+    {
+      "entropy": 0.6267381351441145,
+      "epoch": 1.4377880184331797,
+      "grad_norm": 0.3852846622467041,
+      "learning_rate": 3.8808447853869656e-05,
+      "loss": 0.6011,
+      "mean_token_accuracy": 0.8528468564152718,
+      "num_tokens": 4218796.0,
+      "step": 1560
+    },
+    {
+      "entropy": 0.5719573536887765,
+      "epoch": 1.4470046082949308,
+      "grad_norm": 0.4029249846935272,
+      "learning_rate": 3.76343441818961e-05,
+      "loss": 0.539,
+      "mean_token_accuracy": 0.8656464323401452,
+      "num_tokens": 4246865.0,
+      "step": 1570
+    },
+    {
+      "entropy": 0.5876866010949016,
+      "epoch": 1.456221198156682,
+      "grad_norm": 0.44668325781822205,
+      "learning_rate": 3.64741447000961e-05,
+      "loss": 0.5472,
+      "mean_token_accuracy": 0.8622240588068962,
+      "num_tokens": 4272706.0,
+      "step": 1580
+    },
+    {
+      "entropy": 0.6029468834400177,
+      "epoch": 1.4654377880184333,
+      "grad_norm": 0.35470443964004517,
+      "learning_rate": 3.532810807061351e-05,
+      "loss": 0.5987,
+      "mean_token_accuracy": 0.8555419981479645,
+      "num_tokens": 4299873.0,
+      "step": 1590
+    },
+    {
+      "entropy": 0.5952557157725096,
+      "epoch": 1.4746543778801844,
+      "grad_norm": 0.34689727425575256,
+      "learning_rate": 3.4196489798037025e-05,
+      "loss": 0.5656,
+      "mean_token_accuracy": 0.8606510788202286,
+      "num_tokens": 4326365.0,
+      "step": 1600
+    },
+    {
+      "entropy": 0.5785195421427488,
+      "epoch": 1.4838709677419355,
+      "grad_norm": 0.40470728278160095,
+      "learning_rate": 3.30795421724366e-05,
+      "loss": 0.5674,
+      "mean_token_accuracy": 0.8623944170773029,
+      "num_tokens": 4352052.0,
+      "step": 1610
+    },
+    {
+      "entropy": 0.6490232923999428,
+      "epoch": 1.4930875576036866,
+      "grad_norm": 0.386251300573349,
+      "learning_rate": 3.1977514213116087e-05,
+      "loss": 0.6283,
+      "mean_token_accuracy": 0.8493647269904614,
+      "num_tokens": 4378378.0,
+      "step": 1620
+    },
+    {
+      "entropy": 0.6235011581331491,
+      "epoch": 1.5023041474654377,
+      "grad_norm": 0.3535836637020111,
+      "learning_rate": 3.0890651613095564e-05,
+      "loss": 0.5623,
+      "mean_token_accuracy": 0.8560213819146156,
+      "num_tokens": 4405029.0,
+      "step": 1630
+    },
+    {
+      "entropy": 0.6310895785689354,
+      "epoch": 1.511520737327189,
+      "grad_norm": 0.3408556580543518,
+      "learning_rate": 2.981919668433477e-05,
+      "loss": 0.5782,
+      "mean_token_accuracy": 0.8549186430871487,
+      "num_tokens": 4432095.0,
+      "step": 1640
+    },
+    {
+      "entropy": 0.5660297932103276,
+      "epoch": 1.52073732718894,
+      "grad_norm": 0.40132173895835876,
+      "learning_rate": 2.8763388303710636e-05,
+      "loss": 0.5407,
+      "mean_token_accuracy": 0.8663985416293144,
+      "num_tokens": 4458205.0,
+      "step": 1650
+    },
+    {
+      "entropy": 0.5760546216741205,
+      "epoch": 1.5299539170506913,
+      "grad_norm": 0.41320013999938965,
+      "learning_rate": 2.772346185976069e-05,
+      "loss": 0.5745,
+      "mean_token_accuracy": 0.8599842116236687,
+      "num_tokens": 4485047.0,
+      "step": 1660
+    },
+    {
+      "entropy": 0.5921478979289532,
+      "epoch": 1.5391705069124424,
+      "grad_norm": 0.3433243930339813,
+      "learning_rate": 2.669964920020387e-05,
+      "loss": 0.5583,
+      "mean_token_accuracy": 0.861686623096466,
+      "num_tokens": 4514056.0,
+      "step": 1670
+    },
+    {
+      "entropy": 0.5948457010090351,
+      "epoch": 1.5483870967741935,
+      "grad_norm": 0.3089885711669922,
+      "learning_rate": 2.5692178580251014e-05,
+      "loss": 0.5748,
+      "mean_token_accuracy": 0.8604165323078632,
+      "num_tokens": 4540939.0,
+      "step": 1680
+    },
+    {
+      "entropy": 0.627241513505578,
+      "epoch": 1.5576036866359448,
+      "grad_norm": 0.40662682056427,
+      "learning_rate": 2.470127461171635e-05,
+      "loss": 0.6055,
+      "mean_token_accuracy": 0.8513796024024487,
+      "num_tokens": 4568381.0,
+      "step": 1690
+    },
+    {
+      "entropy": 0.5909772358834744,
+      "epoch": 1.5668202764976957,
+      "grad_norm": 0.38541415333747864,
+      "learning_rate": 2.3727158212940868e-05,
+      "loss": 0.5525,
+      "mean_token_accuracy": 0.8601111464202404,
+      "num_tokens": 4593965.0,
+      "step": 1700
+    },
+    {
+      "entropy": 0.5652065623551608,
+      "epoch": 1.576036866359447,
+      "grad_norm": 0.4092041850090027,
+      "learning_rate": 2.277004655953968e-05,
+      "loss": 0.5236,
+      "mean_token_accuracy": 0.8660901002585888,
+      "num_tokens": 4621313.0,
+      "step": 1710
+    },
+    {
+      "entropy": 0.5846194272860885,
+      "epoch": 1.5852534562211982,
+      "grad_norm": 1.227542519569397,
+      "learning_rate": 2.1830153035983235e-05,
+      "loss": 0.5679,
+      "mean_token_accuracy": 0.8617964021861553,
+      "num_tokens": 4647684.0,
+      "step": 1720
+    },
+    {
+      "entropy": 0.5993610793724656,
+      "epoch": 1.5944700460829493,
+      "grad_norm": 0.3254019320011139,
+      "learning_rate": 2.090768718802435e-05,
+      "loss": 0.5809,
+      "mean_token_accuracy": 0.8566695757210254,
+      "num_tokens": 4676108.0,
+      "step": 1730
+    },
+    {
+      "entropy": 0.6142864376306534,
+      "epoch": 1.6036866359447006,
+      "grad_norm": 0.43382972478866577,
+      "learning_rate": 2.0002854675980555e-05,
+      "loss": 0.5895,
+      "mean_token_accuracy": 0.8540547095239163,
+      "num_tokens": 4703326.0,
+      "step": 1740
+    },
+    {
+      "entropy": 0.5973653512075543,
+      "epoch": 1.6129032258064515,
+      "grad_norm": 0.35976386070251465,
+      "learning_rate": 1.9115857228882915e-05,
+      "loss": 0.5765,
+      "mean_token_accuracy": 0.8610024131834507,
+      "num_tokens": 4730931.0,
+      "step": 1750
+    },
+    {
+      "entropy": 0.5743678430095315,
+      "epoch": 1.6221198156682028,
+      "grad_norm": 0.3067852854728699,
+      "learning_rate": 1.824689259950144e-05,
+      "loss": 0.5249,
+      "mean_token_accuracy": 0.8677471876144409,
+      "num_tokens": 4758011.0,
+      "step": 1760
+    },
+    {
+      "entropy": 0.5814758617430925,
+      "epoch": 1.631336405529954,
+      "grad_norm": 0.31184518337249756,
+      "learning_rate": 1.7396154520256658e-05,
+      "loss": 0.5571,
+      "mean_token_accuracy": 0.8642784260213375,
+      "num_tokens": 4784883.0,
+      "step": 1770
+    },
+    {
+      "entropy": 0.571275531500578,
+      "epoch": 1.640552995391705,
+      "grad_norm": 0.3559126853942871,
+      "learning_rate": 1.6563832660027778e-05,
+      "loss": 0.5458,
+      "mean_token_accuracy": 0.8658527344465256,
+      "num_tokens": 4811732.0,
+      "step": 1780
+    },
+    {
+      "entropy": 0.6137392023578286,
+      "epoch": 1.6497695852534562,
+      "grad_norm": 0.39478200674057007,
+      "learning_rate": 1.5750112581866782e-05,
+      "loss": 0.6095,
+      "mean_token_accuracy": 0.8507423147559166,
+      "num_tokens": 4836675.0,
+      "step": 1790
+    },
+    {
+      "entropy": 0.582203283533454,
+      "epoch": 1.6589861751152073,
+      "grad_norm": 0.34633445739746094,
+      "learning_rate": 1.4955175701627721e-05,
+      "loss": 0.5655,
+      "mean_token_accuracy": 0.8587138280272484,
+      "num_tokens": 4864037.0,
+      "step": 1800
+    },
+    {
+      "entropy": 0.6082916561514139,
+      "epoch": 1.6682027649769586,
+      "grad_norm": 0.4591638147830963,
+      "learning_rate": 1.417919924752078e-05,
+      "loss": 0.5801,
+      "mean_token_accuracy": 0.8564680516719818,
+      "num_tokens": 4888440.0,
+      "step": 1810
+    },
+    {
+      "entropy": 0.6297502366825938,
+      "epoch": 1.6774193548387095,
+      "grad_norm": 0.3770333230495453,
+      "learning_rate": 1.3422356220599985e-05,
+      "loss": 0.5886,
+      "mean_token_accuracy": 0.8504323914647103,
+      "num_tokens": 4915729.0,
+      "step": 1820
+    },
+    {
+      "entropy": 0.5782902050763369,
+      "epoch": 1.6866359447004609,
+      "grad_norm": 0.37898045778274536,
+      "learning_rate": 1.2684815356193069e-05,
+      "loss": 0.5488,
+      "mean_token_accuracy": 0.8620311908423901,
+      "num_tokens": 4943824.0,
+      "step": 1830
+    },
+    {
+      "entropy": 0.5877890868112445,
+      "epoch": 1.695852534562212,
+      "grad_norm": 0.3805868625640869,
+      "learning_rate": 1.1966741086282795e-05,
+      "loss": 0.5516,
+      "mean_token_accuracy": 0.8623282983899117,
+      "num_tokens": 4971942.0,
+      "step": 1840
+    },
+    {
+      "entropy": 0.6066540889441967,
+      "epoch": 1.705069124423963,
+      "grad_norm": 0.41600632667541504,
+      "learning_rate": 1.1268293502847294e-05,
+      "loss": 0.5697,
+      "mean_token_accuracy": 0.8601134240627288,
+      "num_tokens": 4998123.0,
+      "step": 1850
+    },
+    {
+      "entropy": 0.5986152492463589,
+      "epoch": 1.7142857142857144,
+      "grad_norm": 0.3279772996902466,
+      "learning_rate": 1.0589628322168166e-05,
+      "loss": 0.555,
+      "mean_token_accuracy": 0.8551080651581288,
+      "num_tokens": 5027515.0,
+      "step": 1860
+    },
+    {
+      "entropy": 0.5761340187862516,
+      "epoch": 1.7235023041474653,
+      "grad_norm": 0.36064383387565613,
+      "learning_rate": 9.930896850114235e-06,
+      "loss": 0.5528,
+      "mean_token_accuracy": 0.8606743112206459,
+      "num_tokens": 5056367.0,
+      "step": 1870
+    },
+    {
+      "entropy": 0.582815052382648,
+      "epoch": 1.7327188940092166,
+      "grad_norm": 0.39327871799468994,
+      "learning_rate": 9.292245948408373e-06,
+      "loss": 0.5498,
+      "mean_token_accuracy": 0.8631025187671184,
+      "num_tokens": 5084309.0,
+      "step": 1880
+    },
+    {
+      "entropy": 0.5940475927665829,
+      "epoch": 1.7419354838709677,
+      "grad_norm": 0.42712950706481934,
+      "learning_rate": 8.673818001885237e-06,
+      "loss": 0.5559,
+      "mean_token_accuracy": 0.8595978386700154,
+      "num_tokens": 5111002.0,
+      "step": 1890
+    },
+    {
+      "entropy": 0.6012541469186544,
+      "epoch": 1.7511520737327189,
+      "grad_norm": 0.38366585969924927,
+      "learning_rate": 8.075750886747091e-06,
+      "loss": 0.5865,
+      "mean_token_accuracy": 0.8598495259881019,
+      "num_tokens": 5137046.0,
+      "step": 1900
+    },
+    {
+      "entropy": 0.6162947248667479,
+      "epoch": 1.7603686635944702,
+      "grad_norm": 0.3927824795246124,
+      "learning_rate": 7.498177939824858e-06,
+      "loss": 0.5924,
+      "mean_token_accuracy": 0.8556206963956356,
+      "num_tokens": 5165425.0,
+      "step": 1910
+    },
+    {
+      "entropy": 0.5893848940730095,
+      "epoch": 1.769585253456221,
+      "grad_norm": 0.38203760981559753,
+      "learning_rate": 6.941227928851179e-06,
+      "loss": 0.5489,
+      "mean_token_accuracy": 0.8609202355146408,
+      "num_tokens": 5192293.0,
+      "step": 1920
+    },
+    {
+      "entropy": 0.5728636143729091,
+      "epoch": 1.7788018433179724,
+      "grad_norm": 0.3983209729194641,
+      "learning_rate": 6.405025023752076e-06,
+      "loss": 0.5426,
+      "mean_token_accuracy": 0.8639165438711643,
+      "num_tokens": 5223029.0,
+      "step": 1930
+    },
+    {
+      "entropy": 0.5681716226041317,
+      "epoch": 1.7880184331797235,
+      "grad_norm": 0.5423939824104309,
+      "learning_rate": 5.889688768963742e-06,
+      "loss": 0.5383,
+      "mean_token_accuracy": 0.8677833467721939,
+      "num_tokens": 5249251.0,
+      "step": 1940
+    },
+    {
+      "entropy": 0.5826122839003801,
+      "epoch": 1.7972350230414746,
+      "grad_norm": 0.443512499332428,
+      "learning_rate": 5.395334056780643e-06,
+      "loss": 0.5565,
+      "mean_token_accuracy": 0.8625184670090675,
+      "num_tokens": 5274986.0,
+      "step": 1950
+    },
+    {
+      "entropy": 0.6113853309303522,
+      "epoch": 1.8064516129032258,
+      "grad_norm": 0.3869023621082306,
+      "learning_rate": 4.922071101740544e-06,
+      "loss": 0.5807,
+      "mean_token_accuracy": 0.8560661487281322,
+      "num_tokens": 5300217.0,
+      "step": 1960
+    },
+    {
+      "entropy": 0.5974413625895977,
+      "epoch": 1.8156682027649769,
+      "grad_norm": 0.4994750916957855,
+      "learning_rate": 4.470005416052769e-06,
+      "loss": 0.5911,
+      "mean_token_accuracy": 0.8553378529846668,
+      "num_tokens": 5325240.0,
+      "step": 1970
+    },
+    {
+      "entropy": 0.5828492052853107,
+      "epoch": 1.8248847926267282,
+      "grad_norm": 0.37490594387054443,
+      "learning_rate": 4.0392377860745125e-06,
+      "loss": 0.5504,
+      "mean_token_accuracy": 0.8645182229578495,
+      "num_tokens": 5353087.0,
+      "step": 1980
+    },
+    {
+      "entropy": 0.614453304745257,
+      "epoch": 1.8341013824884793,
+      "grad_norm": 0.4105876088142395,
+      "learning_rate": 3.629864249840953e-06,
+      "loss": 0.6052,
+      "mean_token_accuracy": 0.8532455086708068,
+      "num_tokens": 5382519.0,
+      "step": 1990
+    },
+    {
+      "entropy": 0.5777437072247267,
+      "epoch": 1.8433179723502304,
+      "grad_norm": 0.4026196002960205,
+      "learning_rate": 3.241976075653941e-06,
+      "loss": 0.5425,
+      "mean_token_accuracy": 0.86264653429389,
+      "num_tokens": 5409627.0,
+      "step": 2000
+    },
+    {
+      "entropy": 0.6032186593860388,
+      "epoch": 1.8525345622119815,
+      "grad_norm": 0.4425666332244873,
+      "learning_rate": 2.875659741734038e-06,
+      "loss": 0.581,
+      "mean_token_accuracy": 0.8562591679394245,
+      "num_tokens": 5437899.0,
+      "step": 2010
+    },
+    {
+      "entropy": 0.5591373711824417,
+      "epoch": 1.8617511520737327,
+      "grad_norm": 0.39283913373947144,
+      "learning_rate": 2.5309969169405532e-06,
+      "loss": 0.5424,
+      "mean_token_accuracy": 0.8625755675137043,
+      "num_tokens": 5463949.0,
+      "step": 2020
+    },
+    {
+      "entropy": 0.5898947510868311,
+      "epoch": 1.870967741935484,
+      "grad_norm": 0.34159189462661743,
+      "learning_rate": 2.2080644425637843e-06,
+      "loss": 0.5512,
+      "mean_token_accuracy": 0.8619050934910775,
+      "num_tokens": 5490406.0,
+      "step": 2030
+    },
+    {
+      "entropy": 0.5845193408429623,
+      "epoch": 1.8801843317972349,
+      "grad_norm": 0.343017578125,
+      "learning_rate": 1.9069343151934426e-06,
+      "loss": 0.5537,
+      "mean_token_accuracy": 0.8643649816513062,
+      "num_tokens": 5518077.0,
+      "step": 2040
+    },
+    {
+      "entropy": 0.6067619472742081,
+      "epoch": 1.8894009216589862,
+      "grad_norm": 0.3805777132511139,
+      "learning_rate": 1.627673670667451e-06,
+      "loss": 0.5962,
+      "mean_token_accuracy": 0.8592830084264278,
+      "num_tokens": 5546303.0,
+      "step": 2050
+    },
+    {
+      "entropy": 0.5860567558556795,
+      "epoch": 1.8986175115207373,
+      "grad_norm": 0.38409003615379333,
+      "learning_rate": 1.3703447691040816e-06,
+      "loss": 0.5597,
+      "mean_token_accuracy": 0.8619082234799862,
+      "num_tokens": 5574574.0,
+      "step": 2060
+    },
+    {
+      "entropy": 0.5938012059777975,
+      "epoch": 1.9078341013824884,
+      "grad_norm": 0.4770345985889435,
+      "learning_rate": 1.1350049810214258e-06,
+      "loss": 0.5798,
+      "mean_token_accuracy": 0.8559273667633533,
+      "num_tokens": 5601062.0,
+      "step": 2070
+    },
+    {
+      "entropy": 0.6473757315427064,
+      "epoch": 1.9170506912442398,
+      "grad_norm": 0.4445556402206421,
+      "learning_rate": 9.217067745467822e-07,
+      "loss": 0.6203,
+      "mean_token_accuracy": 0.8487160302698612,
+      "num_tokens": 5627227.0,
+      "step": 2080
+    },
+    {
+      "entropy": 0.5940365632995963,
+      "epoch": 1.9262672811059907,
+      "grad_norm": 0.31166237592697144,
+      "learning_rate": 7.304977037191129e-07,
+      "loss": 0.5474,
+      "mean_token_accuracy": 0.8592085830867291,
+      "num_tokens": 5655152.0,
+      "step": 2090
+    },
+    {
+      "entropy": 0.6300271216779947,
+      "epoch": 1.935483870967742,
+      "grad_norm": 0.4227037727832794,
+      "learning_rate": 5.614203978870358e-07,
+      "loss": 0.618,
+      "mean_token_accuracy": 0.84925981387496,
+      "num_tokens": 5681343.0,
+      "step": 2100
+    },
+    {
+      "entropy": 0.5858591459691525,
+      "epoch": 1.944700460829493,
+      "grad_norm": 0.4059496223926544,
+      "learning_rate": 4.1451255220478214e-07,
+      "loss": 0.5661,
+      "mean_token_accuracy": 0.8605487152934075,
+      "num_tokens": 5708751.0,
+      "step": 2110
+    },
+    {
+      "entropy": 0.6246747657656669,
+      "epoch": 1.9539170506912442,
+      "grad_norm": 0.3966886103153229,
+      "learning_rate": 2.898069192281749e-07,
+      "loss": 0.5753,
+      "mean_token_accuracy": 0.8555384337902069,
+      "num_tokens": 5736242.0,
+      "step": 2120
+    },
+    {
+      "entropy": 0.5809266928583383,
+      "epoch": 1.9631336405529956,
+      "grad_norm": 0.4525570571422577,
+      "learning_rate": 1.8733130161260327e-07,
+      "loss": 0.5542,
+      "mean_token_accuracy": 0.8635524161159992,
+      "num_tokens": 5762920.0,
+      "step": 2130
+    },
+    {
+      "entropy": 0.5966292692348361,
+      "epoch": 1.9723502304147464,
+      "grad_norm": 0.4521016776561737,
+      "learning_rate": 1.071085459145027e-07,
+      "loss": 0.5698,
+      "mean_token_accuracy": 0.8587224587798119,
+      "num_tokens": 5788940.0,
+      "step": 2140
+    },
+    {
+      "entropy": 0.6092048080638051,
+      "epoch": 1.9815668202764978,
+      "grad_norm": 0.39693912863731384,
+      "learning_rate": 4.9156537497818676e-08,
+      "loss": 0.5942,
+      "mean_token_accuracy": 0.8605172969400883,
+      "num_tokens": 5815750.0,
+      "step": 2150
+    },
+    {
+      "entropy": 0.6100379537791014,
+      "epoch": 1.9907834101382489,
+      "grad_norm": 0.3836905062198639,
+      "learning_rate": 1.348819654651834e-08,
+      "loss": 0.5987,
+      "mean_token_accuracy": 0.8537491798400879,
+      "num_tokens": 5842446.0,
+      "step": 2160
+    },
+    {
+      "entropy": 0.6183315929025411,
+      "epoch": 2.0,
+      "grad_norm": 0.34127843379974365,
+      "learning_rate": 1.1147518405030254e-10,
+      "loss": 0.59,
+      "mean_token_accuracy": 0.8559867747128009,
+      "num_tokens": 5869612.0,
+      "step": 2170
+    },
+    {
+      "epoch": 2.0,
+      "eval_entropy": 0.6346796658662607,
+      "eval_loss": 0.7015999555587769,
+      "eval_mean_token_accuracy": 0.8404892720934433,
+      "eval_num_tokens": 5869612.0,
+      "eval_runtime": 198.7416,
+      "eval_samples_per_second": 10.919,
+      "eval_steps_per_second": 10.919,
+      "step": 2170
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 2170,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.6397328361459507e+17,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:280dcf0271fa8b23a5440ba23ea98249f53c46f228cbc5314b1147c080890807
+size 6225

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff