bhaviktheslider commited on Feb 1

Commit

1c9851f

verified ·

1 Parent(s): 33605fb

Model save

Browse files

Files changed (28) hide show

.gitattributes +1 -0
README.md +68 -0
added_tokens.json +24 -0
all_results.json +7 -0
config.json +29 -0
generation_config.json +14 -0
merges.txt +0 -0
model-00001-of-00002.safetensors +3 -0
model-00002-of-00002.safetensors +3 -0
model.safetensors.index.json +345 -0
pytorch_model-00001-of-00002.bin +3 -0
pytorch_model-00002-of-00002.bin +3 -0
pytorch_model.bin.index.json +346 -0
runs/Feb01_03-52-21_129c3b823eb8/events.out.tfevents.1738382009.129c3b823eb8.57352.0 +3 -0
runs/Feb01_03-58-24_129c3b823eb8/events.out.tfevents.1738382368.129c3b823eb8.60932.0 +3 -0
runs/Feb01_04-01-00_129c3b823eb8/events.out.tfevents.1738382525.129c3b823eb8.64334.0 +3 -0
runs/Feb01_04-01-00_129c3b823eb8/events.out.tfevents.1738382538.129c3b823eb8.64334.1 +3 -0
runs/Jan30_23-42-18_129c3b823eb8/events.out.tfevents.1738280589.129c3b823eb8.33136.0 +3 -0
runs/Jan30_23-48-03_129c3b823eb8/events.out.tfevents.1738280933.129c3b823eb8.36530.0 +3 -0
runs/Jan31_07-16-36_129c3b823eb8/events.out.tfevents.1738307857.129c3b823eb8.42757.0 +3 -0
runs/Jan31_07-23-28_129c3b823eb8/events.out.tfevents.1738308269.129c3b823eb8.46389.0 +3 -0
special_tokens_map.json +31 -0
tokenizer.json +3 -0
tokenizer_config.json +209 -0
train_results.json +7 -0
trainer_state.json +1667 -0
training_args.bin +3 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,68 @@

+---
+base_model: Qwen/Qwen2.5-1.5B-Instruct
+library_name: transformers
+model_name: qwen-2.5-7b-r1-countdown
+tags:
+- generated_from_trainer
+- trl
+- grpo
+licence: license
+---
+# Model Card for qwen-2.5-7b-r1-countdown
+This model is a fine-tuned version of [Qwen/Qwen2.5-1.5B-Instruct](https://huggingface.co/Qwen/Qwen2.5-1.5B-Instruct).
+It has been trained using [TRL](https://github.com/huggingface/trl).
+## Quick start
+```python
+from transformers import pipeline
+question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
+generator = pipeline("text-generation", model="bhaviktheslider/qwen-2.5-7b-r1-countdown", device="cuda")
+output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
+print(output["generated_text"])
+```
+## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/bhavik18385-mastercontrol/grpo_training/runs/cnqeubat)
+This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https://huggingface.co/papers/2402.03300).
+### Framework versions
+- TRL: 0.14.0
+- Transformers: 4.48.1
+- Pytorch: 2.5.1
+- Datasets: 3.1.0
+- Tokenizers: 0.21.0
+## Citations
+Cite GRPO as:
+```bibtex
+@article{zhihong2024deepseekmath,
+    title        = {{DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models}},
+    author       = {Zhihong Shao and Peiyi Wang and Qihao Zhu and Runxin Xu and Junxiao Song and Mingchuan Zhang and Y. K. Li and Y. Wu and Daya Guo},
+    year         = 2024,
+    eprint       = {arXiv:2402.03300},
+}
+```
+Cite TRL as:
+```bibtex
+@misc{vonwerra2022trl,
+	title        = {{TRL: Transformer Reinforcement Learning}},
+	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallouédec},
+	year         = 2020,
+	journal      = {GitHub repository},
+	publisher    = {GitHub},
+	howpublished = {\url{https://github.com/huggingface/trl}}
+}
+```

added_tokens.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "</tool_call>": 151658,
+  "<tool_call>": 151657,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "total_flos": 0.0,
+    "train_loss": 0.0,
+    "train_runtime": 0.0058,
+    "train_samples_per_second": 3851297.791,
+    "train_steps_per_second": 17193.294
+}

config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "_name_or_path": "Qwen/Qwen2.5-1.5B-Instruct",
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 1536,
+  "initializer_range": 0.02,
+  "intermediate_size": 8960,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 21,
+  "model_type": "qwen2",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 2,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.1",
+  "use_cache": false,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.1,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.48.1"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:382b4b911cbd5f030d212ec595af082e5f83775a5fdb47f9f4daeb004c8e8abb
+size 4996670464

model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c0d42d0ef3ef62eee7784a04b7885a7c3a3b69fb7045f8a3c4f0d93744d01c51
+size 1178224960

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,345 @@

+{
+  "metadata": {
+    "total_size": 6174857216
+  },
+  "weight_map": {
+    "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.norm.weight": "model-00002-of-00002.safetensors"
+  }
+}

pytorch_model-00001-of-00002.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b9feda8f2156fef3fa2cc01f7d75a15d0aefce0ad09cca2debbf3bc31c2ab548
+size 4996733620

pytorch_model-00002-of-00002.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:22ed3fa7fc59c039ada3ffc9c43460959bbeafbe4cbfc5f2fa1139927e24291e
+size 1178243330

pytorch_model.bin.index.json ADDED Viewed

	@@ -0,0 +1,346 @@

+{
+  "metadata": {
+    "total_size": 6174857216
+  },
+  "weight_map": {
+    "lm_head.weight": "pytorch_model-00001-of-00002.bin",
+    "model.embed_tokens.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.21.mlp.down_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.21.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.21.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.22.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.22.mlp.down_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.22.mlp.gate_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.22.mlp.up_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.22.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.22.self_attn.k_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "model.layers.22.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.22.self_attn.o_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.22.self_attn.q_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "model.layers.22.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.22.self_attn.v_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "model.layers.22.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.23.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.23.mlp.down_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.23.mlp.gate_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.23.mlp.up_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.23.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.23.self_attn.k_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "model.layers.23.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.23.self_attn.o_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.23.self_attn.q_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "model.layers.23.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.23.self_attn.v_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "model.layers.23.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.mlp.down_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.mlp.gate_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.mlp.up_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.self_attn.k_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.self_attn.o_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.self_attn.q_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.self_attn.v_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.mlp.down_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.mlp.gate_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.mlp.up_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.self_attn.k_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.self_attn.o_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.self_attn.q_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.self_attn.v_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.mlp.down_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.mlp.gate_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.mlp.up_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.self_attn.k_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.self_attn.o_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.self_attn.q_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.self_attn.v_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.mlp.down_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.mlp.gate_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.mlp.up_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.self_attn.k_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.self_attn.o_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.self_attn.q_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.self_attn.v_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.3.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.self_attn.k_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.norm.weight": "pytorch_model-00002-of-00002.bin"
+  }
+}

runs/Feb01_03-52-21_129c3b823eb8/events.out.tfevents.1738382009.129c3b823eb8.57352.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d5291b8f1a30d95e9962cc8882b339753b930af3a03860abe24346d7417b7360
+size 5446

runs/Feb01_03-58-24_129c3b823eb8/events.out.tfevents.1738382368.129c3b823eb8.60932.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d56955271f454a5edff912e1067717eb7543d74c2d4bdc6828bddb04a18b680
+size 5446

runs/Feb01_04-01-00_129c3b823eb8/events.out.tfevents.1738382525.129c3b823eb8.64334.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be19d658343c6f7e10fa64d5df632dfbee1c6739351a19931382498a882fd36f
+size 5800

runs/Feb01_04-01-00_129c3b823eb8/events.out.tfevents.1738382538.129c3b823eb8.64334.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:692137af554b71fde253fd37809446da49b1825936b38772b31a3f928104166d
+size 5800

runs/Jan30_23-42-18_129c3b823eb8/events.out.tfevents.1738280589.129c3b823eb8.33136.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f15a80399b4b3317986959585f7df1db311d419fe5598ff0f2e6a1c13de5a87e
+size 5445

runs/Jan30_23-48-03_129c3b823eb8/events.out.tfevents.1738280933.129c3b823eb8.36530.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2df4891e2953fc31e34df9c0239a88430b1c88fafcb71fad0ea43ffb36372749
+size 12165

runs/Jan31_07-16-36_129c3b823eb8/events.out.tfevents.1738307857.129c3b823eb8.42757.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2a93df86d0e7d998480a1f79e211c6fd290187a5bad843bfe721c0d9c1108c32
+size 5445

runs/Jan31_07-23-28_129c3b823eb8/events.out.tfevents.1738308269.129c3b823eb8.46389.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db0ccc7c191d20469a4afd361b9334747baa690ec42354c9af506186f69e74c5
+size 72766

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c5ae00e602b8860cbd784ba82a8aa14e8feecec692e7076590d014d7b7fdafa
+size 11421896

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,209 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "chat_template": "{%- if tools %}\n    {{- '<|im_start|>system\\n' }}\n    {%- if messages[0]['role'] == 'system' %}\n        {{- messages[0]['content'] }}\n    {%- else %}\n        {{- 'You are Qwen, created by Alibaba Cloud. You are a helpful assistant.' }}\n    {%- endif %}\n    {{- \"\\n\\n# Tools\\n\\nYou may call one or more functions to assist with the user query.\\n\\nYou are provided with function signatures within <tools></tools> XML tags:\\n<tools>\" }}\n    {%- for tool in tools %}\n        {{- \"\\n\" }}\n        {{- tool | tojson }}\n    {%- endfor %}\n    {{- \"\\n</tools>\\n\\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\\n<tool_call>\\n{\\\"name\\\": <function-name>, \\\"arguments\\\": <args-json-object>}\\n</tool_call><|im_end|>\\n\" }}\n{%- else %}\n    {%- if messages[0]['role'] == 'system' %}\n        {{- '<|im_start|>system\\n' + messages[0]['content'] + '<|im_end|>\\n' }}\n    {%- else %}\n        {{- '<|im_start|>system\\nYou are Qwen, created by Alibaba Cloud. You are a helpful assistant.<|im_end|>\\n' }}\n    {%- endif %}\n{%- endif %}\n{%- for message in messages %}\n    {%- if (message.role == \"user\") or (message.role == \"system\" and not loop.first) or (message.role == \"assistant\" and not message.tool_calls) %}\n        {{- '<|im_start|>' + message.role + '\\n' + message.content + '<|im_end|>' + '\\n' }}\n    {%- elif message.role == \"assistant\" %}\n        {{- '<|im_start|>' + message.role }}\n        {%- if message.content %}\n            {{- '\\n' + message.content }}\n        {%- endif %}\n        {%- for tool_call in message.tool_calls %}\n            {%- if tool_call.function is defined %}\n                {%- set tool_call = tool_call.function %}\n            {%- endif %}\n            {{- '\\n<tool_call>\\n{\"name\": \"' }}\n            {{- tool_call.name }}\n            {{- '\", \"arguments\": ' }}\n            {{- tool_call.arguments | tojson }}\n            {{- '}\\n</tool_call>' }}\n        {%- endfor %}\n        {{- '<|im_end|>\\n' }}\n    {%- elif message.role == \"tool\" %}\n        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != \"tool\") %}\n            {{- '<|im_start|>user' }}\n        {%- endif %}\n        {{- '\\n<tool_response>\\n' }}\n        {{- message.content }}\n        {{- '\\n</tool_response>' }}\n        {%- if loop.last or (messages[loop.index0 + 1].role != \"tool\") %}\n            {{- '<|im_end|>\\n' }}\n        {%- endif %}\n    {%- endif %}\n{%- endfor %}\n{%- if add_generation_prompt %}\n    {{- '<|im_start|>assistant\\n' }}\n{%- endif %}\n",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "left",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "total_flos": 0.0,
+    "train_loss": 0.0,
+    "train_runtime": 0.0058,
+    "train_samples_per_second": 3851297.791,
+    "train_steps_per_second": 17193.294
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1667 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 6.1244167962674965,
+  "eval_steps": 500,
+  "global_step": 250,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "completion_length": 736.4702529907227,
+      "epoch": 0.049766718506998445,
+      "grad_norm": 0.2507069706916809,
+      "kl": 0.0,
+      "learning_rate": 7.142857142857142e-08,
+      "loss": 0.0,
+      "reward": 0.04415178840281442,
+      "reward_std": 0.07034091584500857,
+      "rewards/equation_reward_func": 0.04415178793715313,
+      "rewards/format_reward_func": 0.0,
+      "step": 2
+    },
+    {
+      "completion_length": 723.1704015731812,
+      "epoch": 0.09953343701399689,
+      "grad_norm": 0.19884330034255981,
+      "kl": 2.0936699339557663e-05,
+      "learning_rate": 1.4285714285714285e-07,
+      "loss": 0.0,
+      "reward": 0.040647323767188936,
+      "reward_std": 0.0637543131451821,
+      "rewards/equation_reward_func": 0.04064732347615063,
+      "rewards/format_reward_func": 0.0,
+      "step": 4
+    },
+    {
+      "completion_length": 726.5163822174072,
+      "epoch": 0.14930015552099535,
+      "grad_norm": 0.21145105361938477,
+      "kl": 0.00019492170304147294,
+      "learning_rate": 2.1428571428571426e-07,
+      "loss": 0.0,
+      "reward": 0.04095238326408435,
+      "reward_std": 0.06441530691517983,
+      "rewards/equation_reward_func": 0.040952383089461364,
+      "rewards/format_reward_func": 0.0,
+      "step": 6
+    },
+    {
+      "completion_length": 737.8207015991211,
+      "epoch": 0.19906687402799378,
+      "grad_norm": 0.2020396590232849,
+      "kl": 0.020334478189397487,
+      "learning_rate": 2.857142857142857e-07,
+      "loss": 0.0,
+      "reward": 0.03635416827455629,
+      "reward_std": 0.05670656039728783,
+      "rewards/equation_reward_func": 0.03635416833276395,
+      "rewards/format_reward_func": 0.0,
+      "step": 8
+    },
+    {
+      "completion_length": 718.5461435317993,
+      "epoch": 0.24883359253499224,
+      "grad_norm": 27.479997634887695,
+      "kl": 9.990212610488015,
+      "learning_rate": 3.5714285714285716e-07,
+      "loss": 0.01,
+      "reward": 0.04543898967676796,
+      "reward_std": 0.07194261607946828,
+      "rewards/equation_reward_func": 0.04543899020063691,
+      "rewards/format_reward_func": 0.0,
+      "step": 10
+    },
+    {
+      "completion_length": 721.6964378356934,
+      "epoch": 0.2986003110419907,
+      "grad_norm": 0.19479116797447205,
+      "kl": 0.005109551766508957,
+      "learning_rate": 4.285714285714285e-07,
+      "loss": 0.0,
+      "reward": 0.04148065741173923,
+      "reward_std": 0.0677548690000549,
+      "rewards/equation_reward_func": 0.04148065741173923,
+      "rewards/format_reward_func": 0.0,
+      "step": 12
+    },
+    {
+      "completion_length": 725.9003086090088,
+      "epoch": 0.3483670295489891,
+      "grad_norm": 0.24158786237239838,
+      "kl": 0.502096803898894,
+      "learning_rate": 5e-07,
+      "loss": 0.0005,
+      "reward": 0.04821428797731642,
+      "reward_std": 0.07803500922454987,
+      "rewards/equation_reward_func": 0.048214288559393026,
+      "rewards/format_reward_func": 0.0,
+      "step": 14
+    },
+    {
+      "completion_length": 722.5781373977661,
+      "epoch": 0.39813374805598756,
+      "grad_norm": 0.290544331073761,
+      "kl": 0.23321715661586495,
+      "learning_rate": 4.999740409224932e-07,
+      "loss": 0.0002,
+      "reward": 0.05134672833082732,
+      "reward_std": 0.07946415679180063,
+      "rewards/equation_reward_func": 0.05134672856365796,
+      "rewards/format_reward_func": 0.0,
+      "step": 16
+    },
+    {
+      "completion_length": 723.7433156967163,
+      "epoch": 0.447900466562986,
+      "grad_norm": 4.716856479644775,
+      "kl": 0.8582769820350222,
+      "learning_rate": 4.998961690809627e-07,
+      "loss": 0.0009,
+      "reward": 0.050446430934243836,
+      "reward_std": 0.07721506280358881,
+      "rewards/equation_reward_func": 0.050446430992451496,
+      "rewards/format_reward_func": 0.0,
+      "step": 18
+    },
+    {
+      "completion_length": 729.6198072433472,
+      "epoch": 0.4976671850699845,
+      "grad_norm": 0.23771615326404572,
+      "kl": 0.3220994914881885,
+      "learning_rate": 4.997664006472578e-07,
+      "loss": 0.0003,
+      "reward": 0.045706847246037796,
+      "reward_std": 0.07288302374945488,
+      "rewards/equation_reward_func": 0.045706847246037796,
+      "rewards/format_reward_func": 0.0,
+      "step": 20
+    },
+    {
+      "completion_length": 712.8631057739258,
+      "epoch": 0.5474339035769828,
+      "grad_norm": 0.3750320374965668,
+      "kl": 0.27479040302569047,
+      "learning_rate": 4.995847625707292e-07,
+      "loss": 0.0003,
+      "reward": 0.05489583619055338,
+      "reward_std": 0.0833382241835352,
+      "rewards/equation_reward_func": 0.054895836423384026,
+      "rewards/format_reward_func": 0.0,
+      "step": 22
+    },
+    {
+      "completion_length": 731.4576015472412,
+      "epoch": 0.5972006220839814,
+      "grad_norm": 0.2089901864528656,
+      "kl": 0.12606932656490244,
+      "learning_rate": 4.993512925726318e-07,
+      "loss": 0.0001,
+      "reward": 0.0600520860607503,
+      "reward_std": 0.0899482914537657,
+      "rewards/equation_reward_func": 0.06005208553688135,
+      "rewards/format_reward_func": 0.0,
+      "step": 24
+    },
+    {
+      "completion_length": 706.6056671142578,
+      "epoch": 0.6469673405909798,
+      "grad_norm": 0.17620234191417694,
+      "kl": 0.1556346261058934,
+      "learning_rate": 4.990660391382923e-07,
+      "loss": 0.0002,
+      "reward": 0.05229166932986118,
+      "reward_std": 0.07350753628998064,
+      "rewards/equation_reward_func": 0.05229166956269182,
+      "rewards/format_reward_func": 0.0,
+      "step": 26
+    },
+    {
+      "completion_length": 727.1808137893677,
+      "epoch": 0.6967340590979783,
+      "grad_norm": 0.19479602575302124,
+      "kl": 0.12168441573157907,
+      "learning_rate": 4.987290615070384e-07,
+      "loss": 0.0001,
+      "reward": 0.053683038655435666,
+      "reward_std": 0.08042177859169897,
+      "rewards/equation_reward_func": 0.053683039121096954,
+      "rewards/format_reward_func": 0.0,
+      "step": 28
+    },
+    {
+      "completion_length": 720.8891496658325,
+      "epoch": 0.7465007776049767,
+      "grad_norm": 0.1857473999261856,
+      "kl": 0.1632600230514072,
+      "learning_rate": 4.983404296598978e-07,
+      "loss": 0.0002,
+      "reward": 0.05391369271092117,
+      "reward_std": 0.08413292915793136,
+      "rewards/equation_reward_func": 0.053913692419882864,
+      "rewards/format_reward_func": 0.0,
+      "step": 30
+    },
+    {
+      "completion_length": 720.4337940216064,
+      "epoch": 0.7962674961119751,
+      "grad_norm": 0.23092247545719147,
+      "kl": 0.15535293571883813,
+      "learning_rate": 4.979002243050646e-07,
+      "loss": 0.0002,
+      "reward": 0.05988095561042428,
+      "reward_std": 0.09168167802272364,
+      "rewards/equation_reward_func": 0.05988095601787791,
+      "rewards/format_reward_func": 0.0,
+      "step": 32
+    },
+    {
+      "completion_length": 718.6845378875732,
+      "epoch": 0.8460342146189735,
+      "grad_norm": 0.23407958447933197,
+      "kl": 0.25782948260894045,
+      "learning_rate": 4.974085368611381e-07,
+      "loss": 0.0003,
+      "reward": 0.06691220620996319,
+      "reward_std": 0.09768064138188493,
+      "rewards/equation_reward_func": 0.06691220562788658,
+      "rewards/format_reward_func": 0.0,
+      "step": 34
+    },
+    {
+      "completion_length": 718.0454006195068,
+      "epoch": 0.895800933125972,
+      "grad_norm": 0.3076172471046448,
+      "kl": 0.2404527408652939,
+      "learning_rate": 4.968654694381379e-07,
+      "loss": 0.0002,
+      "reward": 0.07349702704232186,
+      "reward_std": 0.10955648736853618,
+      "rewards/equation_reward_func": 0.07349702733336017,
+      "rewards/format_reward_func": 0.0,
+      "step": 36
+    },
+    {
+      "completion_length": 704.1488237380981,
+      "epoch": 0.9455676516329704,
+      "grad_norm": 0.2561110258102417,
+      "kl": 0.43795167771168053,
+      "learning_rate": 4.962711348162987e-07,
+      "loss": 0.0004,
+      "reward": 0.06241815793327987,
+      "reward_std": 0.09217380215704907,
+      "rewards/equation_reward_func": 0.0624181583407335,
+      "rewards/format_reward_func": 0.0,
+      "step": 38
+    },
+    {
+      "completion_length": 707.3921279907227,
+      "epoch": 0.995334370139969,
+      "grad_norm": 0.3400561511516571,
+      "kl": 0.5494289128109813,
+      "learning_rate": 4.956256564226487e-07,
+      "loss": 0.0005,
+      "reward": 0.0764508958091028,
+      "reward_std": 0.11110821401234716,
+      "rewards/equation_reward_func": 0.07645089708967134,
+      "rewards/format_reward_func": 0.0,
+      "step": 40
+    },
+    {
+      "completion_length": 715.0272221156529,
+      "epoch": 1.0497667185069985,
+      "grad_norm": 0.26081565022468567,
+      "kl": 0.4236157455614635,
+      "learning_rate": 4.949291683053768e-07,
+      "loss": 0.0005,
+      "reward": 0.07186394860701902,
+      "reward_std": 0.10362207902861494,
+      "rewards/equation_reward_func": 0.07186394876667432,
+      "rewards/format_reward_func": 0.0,
+      "step": 42
+    },
+    {
+      "completion_length": 714.9486722946167,
+      "epoch": 1.0995334370139969,
+      "grad_norm": 0.29378727078437805,
+      "kl": 0.3755593653768301,
+      "learning_rate": 4.941818151059955e-07,
+      "loss": 0.0004,
+      "reward": 0.0799404798890464,
+      "reward_std": 0.11443577655882109,
+      "rewards/equation_reward_func": 0.07994047965621576,
+      "rewards/format_reward_func": 0.0,
+      "step": 44
+    },
+    {
+      "completion_length": 727.829628944397,
+      "epoch": 1.1493001555209954,
+      "grad_norm": 2045.599365234375,
+      "kl": 128.7541933595203,
+      "learning_rate": 4.933837520293017e-07,
+      "loss": 0.1288,
+      "reward": 0.06808780113351531,
+      "reward_std": 0.09949399236938916,
+      "rewards/equation_reward_func": 0.06808780090068467,
+      "rewards/format_reward_func": 0.0,
+      "step": 46
+    },
+    {
+      "completion_length": 709.632453918457,
+      "epoch": 1.1990668740279937,
+      "grad_norm": 0.2698291838169098,
+      "kl": 0.4989726666826755,
+      "learning_rate": 4.925351448111454e-07,
+      "loss": 0.0005,
+      "reward": 0.09389881315291859,
+      "reward_std": 0.13221543522377033,
+      "rewards/equation_reward_func": 0.09389881303650327,
+      "rewards/format_reward_func": 0.0,
+      "step": 48
+    },
+    {
+      "completion_length": 719.485878944397,
+      "epoch": 1.2488335925349923,
+      "grad_norm": 0.36381521821022034,
+      "kl": 0.550471473718062,
+      "learning_rate": 4.91636169684011e-07,
+      "loss": 0.0006,
+      "reward": 0.08360863462439738,
+      "reward_std": 0.11854775344545487,
+      "rewards/equation_reward_func": 0.08360863421694376,
+      "rewards/format_reward_func": 0.0,
+      "step": 50
+    },
+    {
+      "completion_length": 725.6599855422974,
+      "epoch": 1.2986003110419908,
+      "grad_norm": 0.3374347686767578,
+      "kl": 0.663099701050669,
+      "learning_rate": 4.906870133404186e-07,
+      "loss": 0.0007,
+      "reward": 0.08503720644512214,
+      "reward_std": 0.12180299674218986,
+      "rewards/equation_reward_func": 0.0850372067943681,
+      "rewards/format_reward_func": 0.0,
+      "step": 52
+    },
+    {
+      "completion_length": 723.972484588623,
+      "epoch": 1.3483670295489891,
+      "grad_norm": 1.0345810651779175,
+      "kl": 0.9573397457133979,
+      "learning_rate": 4.896878728941531e-07,
+      "loss": 0.001,
+      "reward": 0.09177827867097221,
+      "reward_std": 0.12253864679951221,
+      "rewards/equation_reward_func": 0.09177827744861133,
+      "rewards/format_reward_func": 0.0,
+      "step": 54
+    },
+    {
+      "completion_length": 712.2269496917725,
+      "epoch": 1.3981337480559874,
+      "grad_norm": 0.27968963980674744,
+      "kl": 0.8391579431481659,
+      "learning_rate": 4.886389558393284e-07,
+      "loss": 0.0008,
+      "reward": 0.08570684934966266,
+      "reward_std": 0.1181660912843654,
+      "rewards/equation_reward_func": 0.08570684841834009,
+      "rewards/format_reward_func": 0.0,
+      "step": 56
+    },
+    {
+      "completion_length": 730.5327529907227,
+      "epoch": 1.447900466562986,
+      "grad_norm": 0.28138798475265503,
+      "kl": 0.9094656470697373,
+      "learning_rate": 4.875404800072976e-07,
+      "loss": 0.0009,
+      "reward": 0.08794643338478636,
+      "reward_std": 0.12104765651747584,
+      "rewards/equation_reward_func": 0.08794643309374806,
+      "rewards/format_reward_func": 0.0,
+      "step": 58
+    },
+    {
+      "completion_length": 732.3861742019653,
+      "epoch": 1.4976671850699845,
+      "grad_norm": 0.34412360191345215,
+      "kl": 1.009782899171114,
+      "learning_rate": 4.86392673521415e-07,
+      "loss": 0.001,
+      "reward": 0.10000744601711631,
+      "reward_std": 0.13957228315121029,
+      "rewards/equation_reward_func": 0.10000744566787034,
+      "rewards/format_reward_func": 0.0,
+      "step": 60
+    },
+    {
+      "completion_length": 725.0677175521851,
+      "epoch": 1.5474339035769828,
+      "grad_norm": 0.3454972207546234,
+      "kl": 1.0763904643245041,
+      "learning_rate": 4.851957747496606e-07,
+      "loss": 0.0011,
+      "reward": 0.10212798128486611,
+      "reward_std": 0.13816983328433707,
+      "rewards/equation_reward_func": 0.10212798012071289,
+      "rewards/format_reward_func": 0.0,
+      "step": 62
+    },
+    {
+      "completion_length": 730.5171251296997,
+      "epoch": 1.5972006220839814,
+      "grad_norm": 0.3473067581653595,
+      "kl": 1.4565551071427763,
+      "learning_rate": 4.839500322551386e-07,
+      "loss": 0.0015,
+      "reward": 0.10485119439545088,
+      "reward_std": 0.14129075466189533,
+      "rewards/equation_reward_func": 0.10485119334771298,
+      "rewards/format_reward_func": 0.0,
+      "step": 64
+    },
+    {
+      "completion_length": 735.0320043563843,
+      "epoch": 1.64696734059098,
+      "grad_norm": 0.3159619867801666,
+      "kl": 1.5041364189237356,
+      "learning_rate": 4.826557047444563e-07,
+      "loss": 0.0015,
+      "reward": 0.10093006424722262,
+      "reward_std": 0.13811934839759488,
+      "rewards/equation_reward_func": 0.1009300641308073,
+      "rewards/format_reward_func": 0.0,
+      "step": 66
+    },
+    {
+      "completion_length": 730.7455463409424,
+      "epoch": 1.6967340590979783,
+      "grad_norm": 1.146909236907959,
+      "kl": 2.238507369533181,
+      "learning_rate": 4.813130610139993e-07,
+      "loss": 0.0022,
+      "reward": 0.10973958898102865,
+      "reward_std": 0.13851106038782746,
+      "rewards/equation_reward_func": 0.10973958781687543,
+      "rewards/format_reward_func": 0.0,
+      "step": 68
+    },
+    {
+      "completion_length": 712.6971893310547,
+      "epoch": 1.7465007776049766,
+      "grad_norm": 7.27742338180542,
+      "kl": 3.2542791040614247,
+      "learning_rate": 4.799223798941089e-07,
+      "loss": 0.0033,
+      "reward": 0.12900298138265498,
+      "reward_std": 0.15667404458508827,
+      "rewards/equation_reward_func": 0.1290029831288848,
+      "rewards/format_reward_func": 0.0,
+      "step": 70
+    },
+    {
+      "completion_length": 729.6331987380981,
+      "epoch": 1.7962674961119751,
+      "grad_norm": 10.986953735351562,
+      "kl": 4.106183127500117,
+      "learning_rate": 4.78483950191177e-07,
+      "loss": 0.0041,
+      "reward": 0.12543899397132918,
+      "reward_std": 0.16567694948753342,
+      "rewards/equation_reward_func": 0.12543899344746023,
+      "rewards/format_reward_func": 0.0,
+      "step": 72
+    },
+    {
+      "completion_length": 737.0245656967163,
+      "epoch": 1.8460342146189737,
+      "grad_norm": 1.6122727394104004,
+      "kl": 3.731540434062481,
+      "learning_rate": 4.769980706276687e-07,
+      "loss": 0.0037,
+      "reward": 0.12507440976332873,
+      "reward_std": 0.159569505834952,
+      "rewards/equation_reward_func": 0.12507440929766744,
+      "rewards/format_reward_func": 0.0,
+      "step": 74
+    },
+    {
+      "completion_length": 729.0632581710815,
+      "epoch": 1.895800933125972,
+      "grad_norm": 0.5852969288825989,
+      "kl": 2.9793617641553283,
+      "learning_rate": 4.7546504978008595e-07,
+      "loss": 0.003,
+      "reward": 0.12817708833608776,
+      "reward_std": 0.1600989469443448,
+      "rewards/equation_reward_func": 0.1281770879868418,
+      "rewards/format_reward_func": 0.0,
+      "step": 76
+    },
+    {
+      "completion_length": 734.6302223205566,
+      "epoch": 1.9455676516329703,
+      "grad_norm": 0.9090600609779358,
+      "kl": 3.139740688726306,
+      "learning_rate": 4.738852060148848e-07,
+      "loss": 0.0031,
+      "reward": 0.13495536311529577,
+      "reward_std": 0.1720278718858026,
+      "rewards/equation_reward_func": 0.13495536299888045,
+      "rewards/format_reward_func": 0.0,
+      "step": 78
+    },
+    {
+      "completion_length": 742.833345413208,
+      "epoch": 1.995334370139969,
+      "grad_norm": 0.5681818723678589,
+      "kl": 3.712686972692609,
+      "learning_rate": 4.722588674223593e-07,
+      "loss": 0.0037,
+      "reward": 0.13085565919755027,
+      "reward_std": 0.15991040458902717,
+      "rewards/equation_reward_func": 0.1308556593139656,
+      "rewards/format_reward_func": 0.0,
+      "step": 80
+    },
+    {
+      "completion_length": 717.2042718184622,
+      "epoch": 2.0248833592534994,
+      "grad_norm": 1.5164953470230103,
+      "kl": 5.466580171334116,
+      "learning_rate": 4.70586371748506e-07,
+      "loss": 0.0032,
+      "reward": 0.14641604347056464,
+      "reward_std": 0.18159407436063416,
+      "rewards/equation_reward_func": 0.1464160444509042,
+      "rewards/format_reward_func": 0.0,
+      "step": 82
+    },
+    {
+      "completion_length": 730.2589464187622,
+      "epoch": 2.0746500777604977,
+      "grad_norm": 0.6375504732131958,
+      "kl": 4.280845553614199,
+      "learning_rate": 4.6886806632488363e-07,
+      "loss": 0.0043,
+      "reward": 0.14213542238576338,
+      "reward_std": 0.1740714008337818,
+      "rewards/equation_reward_func": 0.14213542168727145,
+      "rewards/format_reward_func": 0.0,
+      "step": 84
+    },
+    {
+      "completion_length": 744.4538831710815,
+      "epoch": 2.124416796267496,
+      "grad_norm": 0.9480769038200378,
+      "kl": 7.16812994517386,
+      "learning_rate": 4.6710430799648143e-07,
+      "loss": 0.0072,
+      "reward": 0.12831845637992956,
+      "reward_std": 0.1582361755426973,
+      "rewards/equation_reward_func": 0.12831845649634488,
+      "rewards/format_reward_func": 0.0,
+      "step": 86
+    },
+    {
+      "completion_length": 732.5520973205566,
+      "epoch": 2.1741835147744943,
+      "grad_norm": 16.496623992919922,
+      "kl": 10.49539315700531,
+      "learning_rate": 4.652954630476127e-07,
+      "loss": 0.0105,
+      "reward": 0.14677828032290563,
+      "reward_std": 0.1764058277476579,
+      "rewards/equation_reward_func": 0.1467782796244137,
+      "rewards/format_reward_func": 0.0,
+      "step": 88
+    },
+    {
+      "completion_length": 736.1361722946167,
+      "epoch": 2.223950233281493,
+      "grad_norm": 2.352017879486084,
+      "kl": 10.109702784568071,
+      "learning_rate": 4.6344190712584713e-07,
+      "loss": 0.0101,
+      "reward": 0.13781250565079972,
+      "reward_std": 0.1627702646655962,
+      "rewards/equation_reward_func": 0.13781250413740054,
+      "rewards/format_reward_func": 0.0,
+      "step": 90
+    },
+    {
+      "completion_length": 749.1317129135132,
+      "epoch": 2.2737169517884914,
+      "grad_norm": 3.804121255874634,
+      "kl": 15.052036292850971,
+      "learning_rate": 4.615440251639995e-07,
+      "loss": 0.0151,
+      "reward": 0.14105655340244994,
+      "reward_std": 0.17247924709226936,
+      "rewards/equation_reward_func": 0.14105655369348824,
+      "rewards/format_reward_func": 0.0,
+      "step": 92
+    },
+    {
+      "completion_length": 717.3884019851685,
+      "epoch": 2.3234836702954897,
+      "grad_norm": 2.226238489151001,
+      "kl": 12.018643591552973,
+      "learning_rate": 4.596022113001894e-07,
+      "loss": 0.012,
+      "reward": 0.15741816238733009,
+      "reward_std": 0.17923290858743712,
+      "rewards/equation_reward_func": 0.15741816128138453,
+      "rewards/format_reward_func": 0.0,
+      "step": 94
+    },
+    {
+      "completion_length": 726.2500143051147,
+      "epoch": 2.3732503888024885,
+      "grad_norm": 2.1459925174713135,
+      "kl": 12.27118530496955,
+      "learning_rate": 4.576168687959895e-07,
+      "loss": 0.0123,
+      "reward": 0.16154762578662485,
+      "reward_std": 0.18940409342758358,
+      "rewards/equation_reward_func": 0.16154762508813292,
+      "rewards/format_reward_func": 0.0,
+      "step": 96
+    },
+    {
+      "completion_length": 711.6696538925171,
+      "epoch": 2.423017107309487,
+      "grad_norm": 1.4883497953414917,
+      "kl": 15.596692271530628,
+      "learning_rate": 4.555884099526793e-07,
+      "loss": 0.0156,
+      "reward": 0.15925595845328644,
+      "reward_std": 0.1815938005456701,
+      "rewards/equation_reward_func": 0.1592559577547945,
+      "rewards/format_reward_func": 0.0,
+      "step": 98
+    },
+    {
+      "completion_length": 719.6242723464966,
+      "epoch": 2.472783825816485,
+      "grad_norm": 4.10906982421875,
+      "kl": 17.258602559566498,
+      "learning_rate": 4.5351725602562174e-07,
+      "loss": 0.0173,
+      "reward": 0.17212054354604334,
+      "reward_std": 0.18435519566992298,
+      "rewards/equation_reward_func": 0.17212054308038205,
+      "rewards/format_reward_func": 0.0,
+      "step": 100
+    },
+    {
+      "completion_length": 697.6637020111084,
+      "epoch": 2.522550544323484,
+      "grad_norm": 1.1079808473587036,
+      "kl": 14.344636462628841,
+      "learning_rate": 4.514038371367791e-07,
+      "loss": 0.0143,
+      "reward": 0.17430060362676159,
+      "reward_std": 0.19522728596348315,
+      "rewards/equation_reward_func": 0.17430060246260837,
+      "rewards/format_reward_func": 0.0,
+      "step": 102
+    },
+    {
+      "completion_length": 695.2105755805969,
+      "epoch": 2.5723172628304822,
+      "grad_norm": 1.298901081085205,
+      "kl": 15.563006613403559,
+      "learning_rate": 4.4924859218538936e-07,
+      "loss": 0.0156,
+      "reward": 0.17871280398685485,
+      "reward_std": 0.19645729020703584,
+      "rewards/equation_reward_func": 0.17871280352119356,
+      "rewards/format_reward_func": 0.0,
+      "step": 104
+    },
+    {
+      "completion_length": 687.2507581710815,
+      "epoch": 2.6220839813374806,
+      "grad_norm": 1.333657145500183,
+      "kl": 14.787582196295261,
+      "learning_rate": 4.470519687568185e-07,
+      "loss": 0.0148,
+      "reward": 0.19031250709667802,
+      "reward_std": 0.2006249635014683,
+      "rewards/equation_reward_func": 0.19031250721309334,
+      "rewards/format_reward_func": 0.0,
+      "step": 106
+    },
+    {
+      "completion_length": 672.3839402198792,
+      "epoch": 2.671850699844479,
+      "grad_norm": 1.4585353136062622,
+      "kl": 20.08526621758938,
+      "learning_rate": 4.4481442302960923e-07,
+      "loss": 0.0201,
+      "reward": 0.18158482806757092,
+      "reward_std": 0.1955818484420888,
+      "rewards/equation_reward_func": 0.18158482783474028,
+      "rewards/format_reward_func": 0.0,
+      "step": 108
+    },
+    {
+      "completion_length": 651.4077491760254,
+      "epoch": 2.721617418351477,
+      "grad_norm": 1.516221523284912,
+      "kl": 17.027776926755905,
+      "learning_rate": 4.4253641968074505e-07,
+      "loss": 0.017,
+      "reward": 0.1995759003330022,
+      "reward_std": 0.21349556557834148,
+      "rewards/equation_reward_func": 0.19957590056583285,
+      "rewards/format_reward_func": 0.0,
+      "step": 110
+    },
+    {
+      "completion_length": 672.9442043304443,
+      "epoch": 2.771384136858476,
+      "grad_norm": 2.0658159255981445,
+      "kl": 20.176754418760538,
+      "learning_rate": 4.402184317891501e-07,
+      "loss": 0.0202,
+      "reward": 0.20375744753982872,
+      "reward_std": 0.18776777852326632,
+      "rewards/equation_reward_func": 0.2037574463756755,
+      "rewards/format_reward_func": 0.0,
+      "step": 112
+    },
+    {
+      "completion_length": 665.7247114181519,
+      "epoch": 2.8211508553654743,
+      "grad_norm": 2.339445114135742,
+      "kl": 22.64492540061474,
+      "learning_rate": 4.37860940737443e-07,
+      "loss": 0.0226,
+      "reward": 0.1926413766341284,
+      "reward_std": 0.2001927924575284,
+      "rewards/equation_reward_func": 0.19264137593563646,
+      "rewards/format_reward_func": 0.0,
+      "step": 114
+    },
+    {
+      "completion_length": 669.665937423706,
+      "epoch": 2.8709175738724726,
+      "grad_norm": 2.852607011795044,
+      "kl": 32.22943264245987,
+      "learning_rate": 4.354644361119671e-07,
+      "loss": 0.0322,
+      "reward": 0.19950893591158092,
+      "reward_std": 0.1933421454159543,
+      "rewards/equation_reward_func": 0.19950893614441156,
+      "rewards/format_reward_func": 0.0,
+      "step": 116
+    },
+    {
+      "completion_length": 670.7053713798523,
+      "epoch": 2.9206842923794714,
+      "grad_norm": 2.6619129180908203,
+      "kl": 27.73328886926174,
+      "learning_rate": 4.3302941560111716e-07,
+      "loss": 0.0277,
+      "reward": 0.19388393545523286,
+      "reward_std": 0.19777346146292984,
+      "rewards/equation_reward_func": 0.1938839361537248,
+      "rewards/format_reward_func": 0.0,
+      "step": 118
+    },
+    {
+      "completion_length": 676.3571548461914,
+      "epoch": 2.9704510108864697,
+      "grad_norm": 3.816153049468994,
+      "kl": 27.2223904132843,
+      "learning_rate": 4.3055638489198236e-07,
+      "loss": 0.0272,
+      "reward": 0.20729167491663247,
+      "reward_std": 0.20934273721650243,
+      "rewards/equation_reward_func": 0.20729167328681797,
+      "rewards/format_reward_func": 0.0,
+      "step": 120
+    },
+    {
+      "completion_length": 659.7907361482319,
+      "epoch": 3.0,
+      "grad_norm": 0.624527633190155,
+      "kl": 27.528421577654388,
+      "learning_rate": 4.280458575653296e-07,
+      "loss": 0.0163,
+      "reward": 0.20659148869545838,
+      "reward_std": 0.19081004316869535,
+      "rewards/equation_reward_func": 0.20659148947973,
+      "rewards/format_reward_func": 0.0,
+      "step": 122
+    },
+    {
+      "completion_length": 659.4025421142578,
+      "epoch": 3.0497667185069983,
+      "grad_norm": 3.345853567123413,
+      "kl": 21.34368522465229,
+      "learning_rate": 4.2549835498894665e-07,
+      "loss": 0.0213,
+      "reward": 0.22118304355535656,
+      "reward_std": 0.21869899448938668,
+      "rewards/equation_reward_func": 0.22118304437026381,
+      "rewards/format_reward_func": 0.0,
+      "step": 124
+    },
+    {
+      "completion_length": 672.1183128356934,
+      "epoch": 3.099533437013997,
+      "grad_norm": 6.106723785400391,
+      "kl": 23.556977652013302,
+      "learning_rate": 4.229144062093679e-07,
+      "loss": 0.0236,
+      "reward": 0.21467262762598693,
+      "reward_std": 0.2053254572674632,
+      "rewards/equation_reward_func": 0.21467262762598693,
+      "rewards/format_reward_func": 0.0,
+      "step": 126
+    },
+    {
+      "completion_length": 653.0297751426697,
+      "epoch": 3.1493001555209954,
+      "grad_norm": 5.746135234832764,
+      "kl": 26.1618300229311,
+      "learning_rate": 4.2029454784200675e-07,
+      "loss": 0.0262,
+      "reward": 0.21742560202255845,
+      "reward_std": 0.2172505116323009,
+      "rewards/equation_reward_func": 0.217425603303127,
+      "rewards/format_reward_func": 0.0,
+      "step": 128
+    },
+    {
+      "completion_length": 645.058048248291,
+      "epoch": 3.1990668740279937,
+      "grad_norm": 60.6376953125,
+      "kl": 53.1397475451231,
+      "learning_rate": 4.1763932395971433e-07,
+      "loss": 0.0531,
+      "reward": 0.2241517937509343,
+      "reward_std": 0.20952896296512336,
+      "rewards/equation_reward_func": 0.22415179491508752,
+      "rewards/format_reward_func": 0.0,
+      "step": 130
+    },
+    {
+      "completion_length": 632.6659345626831,
+      "epoch": 3.248833592534992,
+      "grad_norm": 5.82427978515625,
+      "kl": 41.686398059129715,
+      "learning_rate": 4.1494928597979117e-07,
+      "loss": 0.0417,
+      "reward": 0.22440477029886097,
+      "reward_std": 0.2128691952675581,
+      "rewards/equation_reward_func": 0.22440477076452225,
+      "rewards/format_reward_func": 0.0,
+      "step": 132
+    },
+    {
+      "completion_length": 639.6711411476135,
+      "epoch": 3.298600311041991,
+      "grad_norm": 3.375183343887329,
+      "kl": 36.797510489821434,
+      "learning_rate": 4.122249925494726e-07,
+      "loss": 0.0368,
+      "reward": 0.2161235201638192,
+      "reward_std": 0.20362528192345053,
+      "rewards/equation_reward_func": 0.21612352062948048,
+      "rewards/format_reward_func": 0.0,
+      "step": 134
+    },
+    {
+      "completion_length": 651.2276935577393,
+      "epoch": 3.348367029548989,
+      "grad_norm": 5.04212760925293,
+      "kl": 37.60325849056244,
+      "learning_rate": 4.094670094299131e-07,
+      "loss": 0.0376,
+      "reward": 0.22996280749794096,
+      "reward_std": 0.214357816032134,
+      "rewards/equation_reward_func": 0.22996280703227967,
+      "rewards/format_reward_func": 0.0,
+      "step": 136
+    },
+    {
+      "completion_length": 631.5751585960388,
+      "epoch": 3.3981337480559874,
+      "grad_norm": 4.119243144989014,
+      "kl": 43.57139265537262,
+      "learning_rate": 4.066759093786931e-07,
+      "loss": 0.0436,
+      "reward": 0.2285714359022677,
+      "reward_std": 0.21766341011971235,
+      "rewards/equation_reward_func": 0.22857143532019109,
+      "rewards/format_reward_func": 0.0,
+      "step": 138
+    },
+    {
+      "completion_length": 647.8214359283447,
+      "epoch": 3.447900466562986,
+      "grad_norm": 7.117722988128662,
+      "kl": 60.4551947414875,
+      "learning_rate": 4.038522720308732e-07,
+      "loss": 0.0605,
+      "reward": 0.21806548640597612,
+      "reward_std": 0.20702184177935123,
+      "rewards/equation_reward_func": 0.2180654831463471,
+      "rewards/format_reward_func": 0.0,
+      "step": 140
+    },
+    {
+      "completion_length": 609.9583463668823,
+      "epoch": 3.4976671850699845,
+      "grad_norm": 4.748437881469727,
+      "kl": 58.59304141998291,
+      "learning_rate": 4.009966837786194e-07,
+      "loss": 0.0586,
+      "reward": 0.2300297737820074,
+      "reward_std": 0.20853826915845275,
+      "rewards/equation_reward_func": 0.23002976982388645,
+      "rewards/format_reward_func": 0.0,
+      "step": 142
+    },
+    {
+      "completion_length": 631.8430180549622,
+      "epoch": 3.547433903576983,
+      "grad_norm": 8.042330741882324,
+      "kl": 82.30807757377625,
+      "learning_rate": 3.981097376494259e-07,
+      "loss": 0.0823,
+      "reward": 0.21836310264188796,
+      "reward_std": 0.20933940180111676,
+      "rewards/equation_reward_func": 0.21836310101207346,
+      "rewards/format_reward_func": 0.0,
+      "step": 144
+    },
+    {
+      "completion_length": 624.0669736862183,
+      "epoch": 3.5972006220839816,
+      "grad_norm": 7.811219692230225,
+      "kl": 77.89375275373459,
+      "learning_rate": 3.951920331829592e-07,
+      "loss": 0.0779,
+      "reward": 0.2207961401436478,
+      "reward_std": 0.21105306909885257,
+      "rewards/equation_reward_func": 0.22079613932874054,
+      "rewards/format_reward_func": 0.0,
+      "step": 146
+    },
+    {
+      "completion_length": 623.5215888023376,
+      "epoch": 3.64696734059098,
+      "grad_norm": 8.836230278015137,
+      "kl": 65.97143815457821,
+      "learning_rate": 3.922441763065506e-07,
+      "loss": 0.066,
+      "reward": 0.2193824496353045,
+      "reward_std": 0.20604081987403333,
+      "rewards/equation_reward_func": 0.21938244777265936,
+      "rewards/format_reward_func": 0.0,
+      "step": 148
+    },
+    {
+      "completion_length": 634.7611751556396,
+      "epoch": 3.6967340590979783,
+      "grad_norm": 5.354574680328369,
+      "kl": 56.36278319358826,
+      "learning_rate": 3.8926677920936093e-07,
+      "loss": 0.0564,
+      "reward": 0.2112648879410699,
+      "reward_std": 0.2029515573522076,
+      "rewards/equation_reward_func": 0.21126488805748522,
+      "rewards/format_reward_func": 0.0,
+      "step": 150
+    },
+    {
+      "completion_length": 636.0297775268555,
+      "epoch": 3.7465007776049766,
+      "grad_norm": 5.276882648468018,
+      "kl": 65.72037261724472,
+      "learning_rate": 3.862604602152464e-07,
+      "loss": 0.0657,
+      "reward": 0.20753721124492586,
+      "reward_std": 0.20195745571982116,
+      "rewards/equation_reward_func": 0.20753721171058714,
+      "rewards/format_reward_func": 0.0,
+      "step": 152
+    },
+    {
+      "completion_length": 634.954626083374,
+      "epoch": 3.796267496111975,
+      "grad_norm": 8.027347564697266,
+      "kl": 77.93326985836029,
+      "learning_rate": 3.8322584365434934e-07,
+      "loss": 0.0779,
+      "reward": 0.2165699511533603,
+      "reward_std": 0.2101849897298962,
+      "rewards/equation_reward_func": 0.2165699495235458,
+      "rewards/format_reward_func": 0.0,
+      "step": 154
+    },
+    {
+      "completion_length": 638.3660817146301,
+      "epoch": 3.8460342146189737,
+      "grad_norm": 4.954690456390381,
+      "kl": 83.4894488453865,
+      "learning_rate": 3.8016355973344173e-07,
+      "loss": 0.0835,
+      "reward": 0.21200893796049058,
+      "reward_std": 0.21022081119008362,
+      "rewards/equation_reward_func": 0.21200893679633737,
+      "rewards/format_reward_func": 0.0,
+      "step": 156
+    },
+    {
+      "completion_length": 620.3281378746033,
+      "epoch": 3.895800933125972,
+      "grad_norm": 4.270212650299072,
+      "kl": 82.2349089384079,
+      "learning_rate": 3.7707424440504863e-07,
+      "loss": 0.0822,
+      "reward": 0.211755960714072,
+      "reward_std": 0.20715959300287068,
+      "rewards/equation_reward_func": 0.21175595885142684,
+      "rewards/format_reward_func": 0.0,
+      "step": 158
+    },
+    {
+      "completion_length": 632.0409350395203,
+      "epoch": 3.9455676516329703,
+      "grad_norm": 4.687271595001221,
+      "kl": 90.35439342260361,
+      "learning_rate": 3.739585392353787e-07,
+      "loss": 0.0904,
+      "reward": 0.21921131818089634,
+      "reward_std": 0.20252067118417472,
+      "rewards/equation_reward_func": 0.21921131608542055,
+      "rewards/format_reward_func": 0.0,
+      "step": 160
+    },
+    {
+      "completion_length": 630.2678661346436,
+      "epoch": 3.995334370139969,
+      "grad_norm": 5.595997333526611,
+      "kl": 95.46352458000183,
+      "learning_rate": 3.7081709127108767e-07,
+      "loss": 0.0955,
+      "reward": 0.22013393603265285,
+      "reward_std": 0.2177246706560254,
+      "rewards/equation_reward_func": 0.2201339368475601,
+      "rewards/format_reward_func": 0.0,
+      "step": 162
+    },
+    {
+      "completion_length": 632.1065288342928,
+      "epoch": 4.024883359253499,
+      "grad_norm": 8.787236213684082,
+      "kl": 144.07192611694336,
+      "learning_rate": 3.6765055290490513e-07,
+      "loss": 0.0855,
+      "reward": 0.20649123721216855,
+      "reward_std": 0.21240881752026708,
+      "rewards/equation_reward_func": 0.2064912359377271,
+      "rewards/format_reward_func": 0.0,
+      "step": 164
+    },
+    {
+      "completion_length": 619.5156345367432,
+      "epoch": 4.074650077760498,
+      "grad_norm": 7.552036762237549,
+      "kl": 137.199125289917,
+      "learning_rate": 3.644595817401501e-07,
+      "loss": 0.1372,
+      "reward": 0.2162797685014084,
+      "reward_std": 0.21547920361626893,
+      "rewards/equation_reward_func": 0.2162797685014084,
+      "rewards/format_reward_func": 0.0,
+      "step": 166
+    },
+    {
+      "completion_length": 618.7634057998657,
+      "epoch": 4.1244167962674965,
+      "grad_norm": 6.8007354736328125,
+      "kl": 103.6235063970089,
+      "learning_rate": 3.6124484045416483e-07,
+      "loss": 0.1036,
+      "reward": 0.23168899782467633,
+      "reward_std": 0.21457487577572465,
+      "rewards/equation_reward_func": 0.23168899829033762,
+      "rewards/format_reward_func": 0.0,
+      "step": 168
+    },
+    {
+      "completion_length": 637.4136991500854,
+      "epoch": 4.174183514774494,
+      "grad_norm": 8.004964828491211,
+      "kl": 113.37393373250961,
+      "learning_rate": 3.580069966606949e-07,
+      "loss": 0.1134,
+      "reward": 0.21156250836793333,
+      "reward_std": 0.2123116059228778,
+      "rewards/equation_reward_func": 0.21156250790227205,
+      "rewards/format_reward_func": 0.0,
+      "step": 170
+    },
+    {
+      "completion_length": 634.7485208511353,
+      "epoch": 4.223950233281493,
+      "grad_norm": 7.898318290710449,
+      "kl": 109.72896337509155,
+      "learning_rate": 3.547467227712444e-07,
+      "loss": 0.1097,
+      "reward": 0.2029910811688751,
+      "reward_std": 0.20662414643447846,
+      "rewards/equation_reward_func": 0.20299108081962913,
+      "rewards/format_reward_func": 0.0,
+      "step": 172
+    },
+    {
+      "completion_length": 621.2730751037598,
+      "epoch": 4.273716951788492,
+      "grad_norm": 7.211435317993164,
+      "kl": 99.61057341098785,
+      "learning_rate": 3.5146469585543386e-07,
+      "loss": 0.0996,
+      "reward": 0.22819941327907145,
+      "reward_std": 0.2186455992050469,
+      "rewards/equation_reward_func": 0.22819941234774888,
+      "rewards/format_reward_func": 0.0,
+      "step": 174
+    },
+    {
+      "completion_length": 640.9628086090088,
+      "epoch": 4.32348367029549,
+      "grad_norm": 7.790672302246094,
+      "kl": 93.87813127040863,
+      "learning_rate": 3.481615975003922e-07,
+      "loss": 0.0939,
+      "reward": 0.2149925670819357,
+      "reward_std": 0.20749260939192027,
+      "rewards/equation_reward_func": 0.2149925702251494,
+      "rewards/format_reward_func": 0.0,
+      "step": 176
+    },
+    {
+      "completion_length": 615.1093888282776,
+      "epoch": 4.3732503888024885,
+      "grad_norm": 22.329519271850586,
+      "kl": 87.78260296583176,
+      "learning_rate": 3.448381136692089e-07,
+      "loss": 0.0878,
+      "reward": 0.21617560542654246,
+      "reward_std": 0.20247984025627375,
+      "rewards/equation_reward_func": 0.2161756035638973,
+      "rewards/format_reward_func": 0.0,
+      "step": 178
+    },
+    {
+      "completion_length": 629.4829001426697,
+      "epoch": 4.423017107309486,
+      "grad_norm": 13.893996238708496,
+      "kl": 98.21013808250427,
+      "learning_rate": 3.4149493455847897e-07,
+      "loss": 0.0982,
+      "reward": 0.21152530901599675,
+      "reward_std": 0.2093647257424891,
+      "rewards/equation_reward_func": 0.21152530668769032,
+      "rewards/format_reward_func": 0.0,
+      "step": 180
+    },
+    {
+      "completion_length": 623.7224802970886,
+      "epoch": 4.472783825816485,
+      "grad_norm": 7.4938130378723145,
+      "kl": 149.59339570999146,
+      "learning_rate": 3.3813275445496766e-07,
+      "loss": 0.1496,
+      "reward": 0.2145535812014714,
+      "reward_std": 0.2063142586266622,
+      "rewards/equation_reward_func": 0.214553578523919,
+      "rewards/format_reward_func": 0.0,
+      "step": 182
+    },
+    {
+      "completion_length": 639.263400554657,
+      "epoch": 4.522550544323484,
+      "grad_norm": 6.325891494750977,
+      "kl": 147.64970636367798,
+      "learning_rate": 3.347522715914262e-07,
+      "loss": 0.1476,
+      "reward": 0.20923363824840635,
+      "reward_std": 0.20685563085135072,
+      "rewards/equation_reward_func": 0.20923363824840635,
+      "rewards/format_reward_func": 0.0,
+      "step": 184
+    },
+    {
+      "completion_length": 636.6897439956665,
+      "epoch": 4.572317262830482,
+      "grad_norm": 4.635812759399414,
+      "kl": 130.48132091760635,
+      "learning_rate": 3.313541880015877e-07,
+      "loss": 0.1305,
+      "reward": 0.21598215226549655,
+      "reward_std": 0.2006415540818125,
+      "rewards/equation_reward_func": 0.21598214923869818,
+      "rewards/format_reward_func": 0.0,
+      "step": 186
+    },
+    {
+      "completion_length": 631.9933152198792,
+      "epoch": 4.6220839813374806,
+      "grad_norm": 7.933198928833008,
+      "kl": 118.75544810295105,
+      "learning_rate": 3.279392093743747e-07,
+      "loss": 0.1188,
+      "reward": 0.22688244911842048,
+      "reward_std": 0.22052743670064956,
+      "rewards/equation_reward_func": 0.22688244772143662,
+      "rewards/format_reward_func": 0.0,
+      "step": 188
+    },
+    {
+      "completion_length": 632.7038769721985,
+      "epoch": 4.671850699844479,
+      "grad_norm": 6.763364791870117,
+      "kl": 112.75827008485794,
+      "learning_rate": 3.245080449073459e-07,
+      "loss": 0.1128,
+      "reward": 0.2060937569476664,
+      "reward_std": 0.20044768252409995,
+      "rewards/equation_reward_func": 0.2060937574133277,
+      "rewards/format_reward_func": 0.0,
+      "step": 190
+    },
+    {
+      "completion_length": 632.4464421272278,
+      "epoch": 4.721617418351477,
+      "grad_norm": 4.295353412628174,
+      "kl": 108.82453501224518,
+      "learning_rate": 3.210614071594162e-07,
+      "loss": 0.1088,
+      "reward": 0.20745536405593157,
+      "reward_std": 0.21275918127503246,
+      "rewards/equation_reward_func": 0.2074553637066856,
+      "rewards/format_reward_func": 0.0,
+      "step": 192
+    },
+    {
+      "completion_length": 634.1763515472412,
+      "epoch": 4.771384136858476,
+      "grad_norm": 4.46217679977417,
+      "kl": 118.317107796669,
+      "learning_rate": 3.1760001190287695e-07,
+      "loss": 0.1183,
+      "reward": 0.20520090113859624,
+      "reward_std": 0.2021206704666838,
+      "rewards/equation_reward_func": 0.20520090113859624,
+      "rewards/format_reward_func": 0.0,
+      "step": 194
+    },
+    {
+      "completion_length": 620.2395968437195,
+      "epoch": 4.821150855365475,
+      "grad_norm": 4.841196060180664,
+      "kl": 119.24478554725647,
+      "learning_rate": 3.141245779747502e-07,
+      "loss": 0.1192,
+      "reward": 0.21259673358872533,
+      "reward_std": 0.21422103908844292,
+      "rewards/equation_reward_func": 0.21259673358872533,
+      "rewards/format_reward_func": 0.0,
+      "step": 196
+    },
+    {
+      "completion_length": 609.0446557998657,
+      "epoch": 4.870917573872473,
+      "grad_norm": 4.3330559730529785,
+      "kl": 119.67610502243042,
+      "learning_rate": 3.106358271275056e-07,
+      "loss": 0.1197,
+      "reward": 0.22683036630041897,
+      "reward_std": 0.20717181416694075,
+      "rewards/equation_reward_func": 0.22683036653324962,
+      "rewards/format_reward_func": 0.0,
+      "step": 198
+    },
+    {
+      "completion_length": 614.8869152069092,
+      "epoch": 4.920684292379471,
+      "grad_norm": 92.09661102294922,
+      "kl": 144.53644692897797,
+      "learning_rate": 3.0713448387917227e-07,
+      "loss": 0.1445,
+      "reward": 0.21901042643003166,
+      "reward_std": 0.20682094641961157,
+      "rewards/equation_reward_func": 0.2190104245673865,
+      "rewards/format_reward_func": 0.0,
+      "step": 200
+    },
+    {
+      "completion_length": 631.4241156578064,
+      "epoch": 4.970451010886469,
+      "grad_norm": 6.355322360992432,
+      "kl": 154.4233751296997,
+      "learning_rate": 3.0362127536287636e-07,
+      "loss": 0.1544,
+      "reward": 0.21773066406603903,
+      "reward_std": 0.21250074298586696,
+      "rewards/equation_reward_func": 0.2177306618541479,
+      "rewards/format_reward_func": 0.0,
+      "step": 202
+    },
+    {
+      "completion_length": 624.7180488987973,
+      "epoch": 5.0,
+      "grad_norm": 5.770173072814941,
+      "kl": 161.87928571199117,
+      "learning_rate": 3.0009693117583523e-07,
+      "loss": 0.0961,
+      "reward": 0.21541354177813782,
+      "reward_std": 0.20374000229333578,
+      "rewards/equation_reward_func": 0.215413541386002,
+      "rewards/format_reward_func": 0.0,
+      "step": 204
+    },
+    {
+      "completion_length": 624.5647420883179,
+      "epoch": 5.049766718506999,
+      "grad_norm": 6.884070873260498,
+      "kl": 157.92570447921753,
+      "learning_rate": 2.965621832278401e-07,
+      "loss": 0.1579,
+      "reward": 0.22669643780682236,
+      "reward_std": 0.20801680884324014,
+      "rewards/equation_reward_func": 0.22669643454719335,
+      "rewards/format_reward_func": 0.0,
+      "step": 206
+    },
+    {
+      "completion_length": 614.1570081710815,
+      "epoch": 5.099533437013997,
+      "grad_norm": 4.670907497406006,
+      "kl": 134.14546036720276,
+      "learning_rate": 2.9301776558925875e-07,
+      "loss": 0.1341,
+      "reward": 0.2188244123244658,
+      "reward_std": 0.20453347032889724,
+      "rewards/equation_reward_func": 0.21882441325578839,
+      "rewards/format_reward_func": 0.0,
+      "step": 208
+    },
+    {
+      "completion_length": 614.4702506065369,
+      "epoch": 5.149300155520995,
+      "grad_norm": 14.716873168945312,
+      "kl": 109.80421262979507,
+      "learning_rate": 2.894644143385885e-07,
+      "loss": 0.1098,
+      "reward": 0.21839286445174366,
+      "reward_std": 0.20062782417517155,
+      "rewards/equation_reward_func": 0.21839286398608238,
+      "rewards/format_reward_func": 0.0,
+      "step": 210
+    },
+    {
+      "completion_length": 622.4672718048096,
+      "epoch": 5.199066874027994,
+      "grad_norm": 10.858051300048828,
+      "kl": 114.28983092308044,
+      "learning_rate": 2.859028674095937e-07,
+      "loss": 0.1143,
+      "reward": 0.2192782819038257,
+      "reward_std": 0.2128367607947439,
+      "rewards/equation_reward_func": 0.21927828167099506,
+      "rewards/format_reward_func": 0.0,
+      "step": 212
+    },
+    {
+      "completion_length": 612.6160840988159,
+      "epoch": 5.248833592534992,
+      "grad_norm": 3.8785901069641113,
+      "kl": 125.06462055444717,
+      "learning_rate": 2.823338644380566e-07,
+      "loss": 0.1251,
+      "reward": 0.23020090232603252,
+      "reward_std": 0.2176531965378672,
+      "rewards/equation_reward_func": 0.23020089999772608,
+      "rewards/format_reward_func": 0.0,
+      "step": 214
+    },
+    {
+      "completion_length": 635.8995633125305,
+      "epoch": 5.298600311041991,
+      "grad_norm": 5.062567234039307,
+      "kl": 148.21274209022522,
+      "learning_rate": 2.7875814660817504e-07,
+      "loss": 0.1482,
+      "reward": 0.2193973324028775,
+      "reward_std": 0.22195886494591832,
+      "rewards/equation_reward_func": 0.21939733054023236,
+      "rewards/format_reward_func": 0.0,
+      "step": 216
+    },
+    {
+      "completion_length": 630.8229269981384,
+      "epoch": 5.348367029548989,
+      "grad_norm": 5.181402206420898,
+      "kl": 165.8618984222412,
+      "learning_rate": 2.751764564986396e-07,
+      "loss": 0.1659,
+      "reward": 0.2077009006170556,
+      "reward_std": 0.2193935844115913,
+      "rewards/equation_reward_func": 0.2077009001513943,
+      "rewards/format_reward_func": 0.0,
+      "step": 218
+    },
+    {
+      "completion_length": 628.6517939567566,
+      "epoch": 5.3981337480559874,
+      "grad_norm": 4.105767726898193,
+      "kl": 148.7712802886963,
+      "learning_rate": 2.715895379284194e-07,
+      "loss": 0.1488,
+      "reward": 0.2191815583501011,
+      "reward_std": 0.20989621221087873,
+      "rewards/equation_reward_func": 0.21918155602179468,
+      "rewards/format_reward_func": 0.0,
+      "step": 220
+    },
+    {
+      "completion_length": 629.8006067276001,
+      "epoch": 5.447900466562986,
+      "grad_norm": 3.895611524581909,
+      "kl": 142.22095596790314,
+      "learning_rate": 2.6799813580229174e-07,
+      "loss": 0.1422,
+      "reward": 0.22290923492982984,
+      "reward_std": 0.21323461562860757,
+      "rewards/equation_reward_func": 0.2229092346969992,
+      "rewards/format_reward_func": 0.0,
+      "step": 222
+    },
+    {
+      "completion_length": 608.6183171272278,
+      "epoch": 5.497667185069984,
+      "grad_norm": 6.331876277923584,
+      "kl": 135.1478552222252,
+      "learning_rate": 2.6440299595614606e-07,
+      "loss": 0.1351,
+      "reward": 0.21991072362288833,
+      "reward_std": 0.22133340197615325,
+      "rewards/equation_reward_func": 0.21991072269156575,
+      "rewards/format_reward_func": 0.0,
+      "step": 224
+    },
+    {
+      "completion_length": 611.6756086349487,
+      "epoch": 5.547433903576983,
+      "grad_norm": 3.41554594039917,
+      "kl": 135.47022581100464,
+      "learning_rate": 2.6080486500209347e-07,
+      "loss": 0.1355,
+      "reward": 0.21784971025772393,
+      "reward_std": 0.21086209290660918,
+      "rewards/equation_reward_func": 0.2178497090935707,
+      "rewards/format_reward_func": 0.0,
+      "step": 226
+    },
+    {
+      "completion_length": 609.0922722816467,
+      "epoch": 5.597200622083982,
+      "grad_norm": 4.638352870941162,
+      "kl": 149.68241280317307,
+      "learning_rate": 2.572044901734166e-07,
+      "loss": 0.1497,
+      "reward": 0.22438989242073148,
+      "reward_std": 0.2241612394573167,
+      "rewards/equation_reward_func": 0.2243898919550702,
+      "rewards/format_reward_func": 0.0,
+      "step": 228
+    },
+    {
+      "completion_length": 629.8534321784973,
+      "epoch": 5.6469673405909795,
+      "grad_norm": 4.474099159240723,
+      "kl": 164.97060561180115,
+      "learning_rate": 2.536026191693893e-07,
+      "loss": 0.165,
+      "reward": 0.2060565553838387,
+      "reward_std": 0.21067888580728322,
+      "rewards/equation_reward_func": 0.20605655445251614,
+      "rewards/format_reward_func": 0.0,
+      "step": 230
+    },
+    {
+      "completion_length": 626.8482217788696,
+      "epoch": 5.696734059097978,
+      "grad_norm": 9.778329849243164,
+      "kl": 169.21773087978363,
+      "learning_rate": 2.5e-07,
+      "loss": 0.1692,
+      "reward": 0.20911459170747548,
+      "reward_std": 0.21599237713962793,
+      "rewards/equation_reward_func": 0.2091145912418142,
+      "rewards/format_reward_func": 0.0,
+      "step": 232
+    },
+    {
+      "completion_length": 629.8660821914673,
+      "epoch": 5.746500777604977,
+      "grad_norm": 5.210114479064941,
+      "kl": 171.0250325202942,
+      "learning_rate": 2.4639738083061073e-07,
+      "loss": 0.171,
+      "reward": 0.2135788791347295,
+      "reward_std": 0.20587447995785624,
+      "rewards/equation_reward_func": 0.21357887890189886,
+      "rewards/format_reward_func": 0.0,
+      "step": 234
+    },
+    {
+      "completion_length": 628.7165260314941,
+      "epoch": 5.796267496111975,
+      "grad_norm": 4.644392490386963,
+      "kl": 149.7915449142456,
+      "learning_rate": 2.4279550982658345e-07,
+      "loss": 0.1498,
+      "reward": 0.20833334070630372,
+      "reward_std": 0.21195052459370345,
+      "rewards/equation_reward_func": 0.20833334047347307,
+      "rewards/format_reward_func": 0.0,
+      "step": 236
+    },
+    {
+      "completion_length": 628.755964756012,
+      "epoch": 5.846034214618974,
+      "grad_norm": 6.456798076629639,
+      "kl": 442.08424025774,
+      "learning_rate": 2.3919513499790646e-07,
+      "loss": 0.4421,
+      "reward": 0.22005209047347307,
+      "reward_std": 0.21488765871617943,
+      "rewards/equation_reward_func": 0.22005209024064243,
+      "rewards/format_reward_func": 0.0,
+      "step": 238
+    },
+    {
+      "completion_length": 612.3988199234009,
+      "epoch": 5.895800933125972,
+      "grad_norm": 9.304161071777344,
+      "kl": 118.21684062480927,
+      "learning_rate": 2.3559700404385394e-07,
+      "loss": 0.1182,
+      "reward": 0.22447917505633086,
+      "reward_std": 0.211615604814142,
+      "rewards/equation_reward_func": 0.22447917482350022,
+      "rewards/format_reward_func": 0.0,
+      "step": 240
+    },
+    {
+      "completion_length": 633.3660821914673,
+      "epoch": 5.94556765163297,
+      "grad_norm": 5.745642185211182,
+      "kl": 133.20424818992615,
+      "learning_rate": 2.3200186419770823e-07,
+      "loss": 0.1332,
+      "reward": 0.2242708442499861,
+      "reward_std": 0.2152464333921671,
+      "rewards/equation_reward_func": 0.22427084331866354,
+      "rewards/format_reward_func": 0.0,
+      "step": 242
+    },
+    {
+      "completion_length": 618.1235270500183,
+      "epoch": 5.995334370139969,
+      "grad_norm": 4.167017936706543,
+      "kl": 143.97905486822128,
+      "learning_rate": 2.284104620715807e-07,
+      "loss": 0.144,
+      "reward": 0.22046875627711415,
+      "reward_std": 0.21442426112480462,
+      "rewards/equation_reward_func": 0.22046875732485205,
+      "rewards/format_reward_func": 0.0,
+      "step": 244
+    },
+    {
+      "completion_length": 634.5175580476459,
+      "epoch": 6.024883359253499,
+      "grad_norm": 3.44785213470459,
+      "kl": 167.55113441065737,
+      "learning_rate": 2.2482354350136043e-07,
+      "loss": 0.0995,
+      "reward": 0.21961153769179395,
+      "reward_std": 0.2146961924276854,
+      "rewards/equation_reward_func": 0.21961153769179395,
+      "rewards/format_reward_func": 0.0,
+      "step": 246
+    },
+    {
+      "completion_length": 634.5863180160522,
+      "epoch": 6.074650077760498,
+      "grad_norm": 7.954348564147949,
+      "kl": 163.61565399169922,
+      "learning_rate": 2.2124185339182496e-07,
+      "loss": 0.1636,
+      "reward": 0.23546131700277328,
+      "reward_std": 0.2178129724925384,
+      "rewards/equation_reward_func": 0.23546131781768054,
+      "rewards/format_reward_func": 0.0,
+      "step": 248
+    },
+    {
+      "completion_length": 610.0825996398926,
+      "epoch": 6.1244167962674965,
+      "grad_norm": 4.648006439208984,
+      "kl": 167.8152883052826,
+      "learning_rate": 2.1766613556194344e-07,
+      "loss": 0.1678,
+      "reward": 0.22144346224376932,
+      "reward_std": 0.21030379901640117,
+      "rewards/equation_reward_func": 0.22144346177810803,
+      "rewards/format_reward_func": 0.0,
+      "step": 250
+    },
+    {
+      "epoch": 6.1244167962674965,
+      "step": 250,
+      "total_flos": 0.0,
+      "train_loss": 0.0,
+      "train_runtime": 0.0058,
+      "train_samples_per_second": 3851297.791,
+      "train_steps_per_second": 17193.294
+    }
+  ],
+  "logging_steps": 2,
+  "max_steps": 100,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 25,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:90a6effc585bdefe330f2be7562ec2dff7b9a51e810846afc3eaea737d2854ee
+size 5624

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff