step 1600

Browse files

Files changed (6) hide show

generation_config.json +7 -0
model-00001-of-00003.safetensors +3 -0
model-00002-of-00003.safetensors +3 -0
model-00003-of-00003.safetensors +3 -0
model.safetensors.index.json +244 -0
trainer_state.json +1923 -0

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "do_sample": true,
+  "eos_token_id": 2,
+  "transformers_version": "4.40.2"
+}

model-00001-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:46c5e3e1c7f14c651b8954733db0fe00d1853e8a5bd0eccae1b0073ec7067bf4
+size 4949453792

model-00002-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:259fe40447303fc97bb4d606b03ee2f84df297340acc35ec9d0de47df6cb070a
+size 4999819336

model-00003-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b698cf45add049b21c866559ed166c0aff5ef78d4582a2cc8b37d4242b239cde
+size 1929457496

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,244 @@

+{
+  "metadata": {
+    "total_size": 11878703104
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00003-of-00003.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.norm.weight": "model-00003-of-00003.safetensors"
+  }
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1923 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.3821579984474831,
+  "eval_steps": 400,
+  "global_step": 1600,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.00023884874902967696,
+      "eval_loss": 1.5979785919189453,
+      "eval_runtime": 224.9995,
+      "eval_samples_per_second": 3.778,
+      "eval_steps_per_second": 3.778,
+      "step": 1
+    },
+    {
+      "epoch": 0.0014330924941780617,
+      "grad_norm": 20.875,
+      "learning_rate": 6.000000000000001e-07,
+      "loss": 1.8691,
+      "step": 6
+    },
+    {
+      "epoch": 0.0028661849883561234,
+      "grad_norm": 14.0625,
+      "learning_rate": 1.2000000000000002e-06,
+      "loss": 1.8156,
+      "step": 12
+    },
+    {
+      "epoch": 0.004299277482534185,
+      "grad_norm": 11.1875,
+      "learning_rate": 1.8000000000000001e-06,
+      "loss": 1.6925,
+      "step": 18
+    },
+    {
+      "epoch": 0.005732369976712247,
+      "grad_norm": 7.15625,
+      "learning_rate": 2.4000000000000003e-06,
+      "loss": 1.612,
+      "step": 24
+    },
+    {
+      "epoch": 0.0071654624708903086,
+      "grad_norm": 7.25,
+      "learning_rate": 3e-06,
+      "loss": 1.8222,
+      "step": 30
+    },
+    {
+      "epoch": 0.00859855496506837,
+      "grad_norm": 5.71875,
+      "learning_rate": 3.6000000000000003e-06,
+      "loss": 1.6277,
+      "step": 36
+    },
+    {
+      "epoch": 0.010031647459246432,
+      "grad_norm": 5.65625,
+      "learning_rate": 4.2000000000000004e-06,
+      "loss": 1.5655,
+      "step": 42
+    },
+    {
+      "epoch": 0.011464739953424494,
+      "grad_norm": 6.90625,
+      "learning_rate": 4.800000000000001e-06,
+      "loss": 1.7691,
+      "step": 48
+    },
+    {
+      "epoch": 0.012897832447602555,
+      "grad_norm": 6.96875,
+      "learning_rate": 5.400000000000001e-06,
+      "loss": 1.7085,
+      "step": 54
+    },
+    {
+      "epoch": 0.014330924941780617,
+      "grad_norm": 5.3125,
+      "learning_rate": 6e-06,
+      "loss": 1.4649,
+      "step": 60
+    },
+    {
+      "epoch": 0.01576401743595868,
+      "grad_norm": 15.8125,
+      "learning_rate": 6.600000000000001e-06,
+      "loss": 1.6534,
+      "step": 66
+    },
+    {
+      "epoch": 0.01719710993013674,
+      "grad_norm": 42.75,
+      "learning_rate": 7.2000000000000005e-06,
+      "loss": 1.673,
+      "step": 72
+    },
+    {
+      "epoch": 0.018630202424314804,
+      "grad_norm": 5.5,
+      "learning_rate": 7.800000000000002e-06,
+      "loss": 1.429,
+      "step": 78
+    },
+    {
+      "epoch": 0.020063294918492864,
+      "grad_norm": 3.875,
+      "learning_rate": 8.400000000000001e-06,
+      "loss": 1.6067,
+      "step": 84
+    },
+    {
+      "epoch": 0.021496387412670927,
+      "grad_norm": 4.53125,
+      "learning_rate": 9e-06,
+      "loss": 1.4336,
+      "step": 90
+    },
+    {
+      "epoch": 0.022929479906848987,
+      "grad_norm": 4.40625,
+      "learning_rate": 9.600000000000001e-06,
+      "loss": 1.5998,
+      "step": 96
+    },
+    {
+      "epoch": 0.02436257240102705,
+      "grad_norm": 5.40625,
+      "learning_rate": 1.02e-05,
+      "loss": 1.5259,
+      "step": 102
+    },
+    {
+      "epoch": 0.02579566489520511,
+      "grad_norm": 9.0,
+      "learning_rate": 1.0800000000000002e-05,
+      "loss": 1.5255,
+      "step": 108
+    },
+    {
+      "epoch": 0.027228757389383174,
+      "grad_norm": 5.34375,
+      "learning_rate": 1.14e-05,
+      "loss": 1.5375,
+      "step": 114
+    },
+    {
+      "epoch": 0.028661849883561234,
+      "grad_norm": 4.625,
+      "learning_rate": 1.2e-05,
+      "loss": 1.4729,
+      "step": 120
+    },
+    {
+      "epoch": 0.030094942377739298,
+      "grad_norm": 5.78125,
+      "learning_rate": 1.2600000000000001e-05,
+      "loss": 1.5446,
+      "step": 126
+    },
+    {
+      "epoch": 0.03152803487191736,
+      "grad_norm": 5.15625,
+      "learning_rate": 1.3200000000000002e-05,
+      "loss": 1.6895,
+      "step": 132
+    },
+    {
+      "epoch": 0.03296112736609542,
+      "grad_norm": 4.59375,
+      "learning_rate": 1.38e-05,
+      "loss": 1.6145,
+      "step": 138
+    },
+    {
+      "epoch": 0.03439421986027348,
+      "grad_norm": 4.96875,
+      "learning_rate": 1.4400000000000001e-05,
+      "loss": 1.4316,
+      "step": 144
+    },
+    {
+      "epoch": 0.035827312354451545,
+      "grad_norm": 4.71875,
+      "learning_rate": 1.5000000000000002e-05,
+      "loss": 1.5619,
+      "step": 150
+    },
+    {
+      "epoch": 0.03726040484862961,
+      "grad_norm": 7.9375,
+      "learning_rate": 1.5600000000000003e-05,
+      "loss": 1.6608,
+      "step": 156
+    },
+    {
+      "epoch": 0.038693497342807665,
+      "grad_norm": 4.34375,
+      "learning_rate": 1.62e-05,
+      "loss": 1.6418,
+      "step": 162
+    },
+    {
+      "epoch": 0.04012658983698573,
+      "grad_norm": 4.8125,
+      "learning_rate": 1.6800000000000002e-05,
+      "loss": 1.5532,
+      "step": 168
+    },
+    {
+      "epoch": 0.04155968233116379,
+      "grad_norm": 7.90625,
+      "learning_rate": 1.7400000000000003e-05,
+      "loss": 1.6124,
+      "step": 174
+    },
+    {
+      "epoch": 0.042992774825341855,
+      "grad_norm": 5.90625,
+      "learning_rate": 1.8e-05,
+      "loss": 1.5629,
+      "step": 180
+    },
+    {
+      "epoch": 0.04442586731951991,
+      "grad_norm": 9.4375,
+      "learning_rate": 1.86e-05,
+      "loss": 1.5727,
+      "step": 186
+    },
+    {
+      "epoch": 0.045858959813697975,
+      "grad_norm": 6.34375,
+      "learning_rate": 1.9200000000000003e-05,
+      "loss": 1.4866,
+      "step": 192
+    },
+    {
+      "epoch": 0.04729205230787604,
+      "grad_norm": 10.9375,
+      "learning_rate": 1.98e-05,
+      "loss": 1.6203,
+      "step": 198
+    },
+    {
+      "epoch": 0.0487251448020541,
+      "grad_norm": 5.46875,
+      "learning_rate": 1.9999756307053947e-05,
+      "loss": 1.6003,
+      "step": 204
+    },
+    {
+      "epoch": 0.05015823729623216,
+      "grad_norm": 7.34375,
+      "learning_rate": 1.9998476951563914e-05,
+      "loss": 1.7795,
+      "step": 210
+    },
+    {
+      "epoch": 0.05159132979041022,
+      "grad_norm": 5.03125,
+      "learning_rate": 1.9996101150403543e-05,
+      "loss": 1.6262,
+      "step": 216
+    },
+    {
+      "epoch": 0.053024422284588285,
+      "grad_norm": 6.03125,
+      "learning_rate": 1.999262916410621e-05,
+      "loss": 1.5033,
+      "step": 222
+    },
+    {
+      "epoch": 0.05445751477876635,
+      "grad_norm": 6.375,
+      "learning_rate": 1.9988061373414342e-05,
+      "loss": 1.528,
+      "step": 228
+    },
+    {
+      "epoch": 0.055890607272944405,
+      "grad_norm": 5.375,
+      "learning_rate": 1.9982398279237657e-05,
+      "loss": 1.6706,
+      "step": 234
+    },
+    {
+      "epoch": 0.05732369976712247,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.9975640502598243e-05,
+      "loss": 1.8826,
+      "step": 240
+    },
+    {
+      "epoch": 0.05875679226130053,
+      "grad_norm": 7.21875,
+      "learning_rate": 1.9967788784562474e-05,
+      "loss": 1.6844,
+      "step": 246
+    },
+    {
+      "epoch": 0.060189884755478595,
+      "grad_norm": 14.0,
+      "learning_rate": 1.9958843986159705e-05,
+      "loss": 1.6681,
+      "step": 252
+    },
+    {
+      "epoch": 0.06162297724965665,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.9948807088287884e-05,
+      "loss": 1.5271,
+      "step": 258
+    },
+    {
+      "epoch": 0.06305606974383472,
+      "grad_norm": 5.78125,
+      "learning_rate": 1.9937679191605964e-05,
+      "loss": 1.5941,
+      "step": 264
+    },
+    {
+      "epoch": 0.06448916223801278,
+      "grad_norm": 7.75,
+      "learning_rate": 1.9925461516413224e-05,
+      "loss": 1.6754,
+      "step": 270
+    },
+    {
+      "epoch": 0.06592225473219084,
+      "grad_norm": 5.03125,
+      "learning_rate": 1.991215540251542e-05,
+      "loss": 1.6616,
+      "step": 276
+    },
+    {
+      "epoch": 0.0673553472263689,
+      "grad_norm": 5.46875,
+      "learning_rate": 1.989776230907789e-05,
+      "loss": 1.7207,
+      "step": 282
+    },
+    {
+      "epoch": 0.06878843972054696,
+      "grad_norm": 4.84375,
+      "learning_rate": 1.988228381446553e-05,
+      "loss": 1.6092,
+      "step": 288
+    },
+    {
+      "epoch": 0.07022153221472502,
+      "grad_norm": 15.625,
+      "learning_rate": 1.9865721616069695e-05,
+      "loss": 1.6828,
+      "step": 294
+    },
+    {
+      "epoch": 0.07165462470890309,
+      "grad_norm": 7.125,
+      "learning_rate": 1.9848077530122083e-05,
+      "loss": 1.7341,
+      "step": 300
+    },
+    {
+      "epoch": 0.07308771720308115,
+      "grad_norm": 10.625,
+      "learning_rate": 1.9829353491495545e-05,
+      "loss": 1.6181,
+      "step": 306
+    },
+    {
+      "epoch": 0.07452080969725922,
+      "grad_norm": 4.75,
+      "learning_rate": 1.9809551553491918e-05,
+      "loss": 1.548,
+      "step": 312
+    },
+    {
+      "epoch": 0.07595390219143727,
+      "grad_norm": 6.9375,
+      "learning_rate": 1.9788673887616852e-05,
+      "loss": 1.5703,
+      "step": 318
+    },
+    {
+      "epoch": 0.07738699468561533,
+      "grad_norm": 6.71875,
+      "learning_rate": 1.9766722783341682e-05,
+      "loss": 1.7147,
+      "step": 324
+    },
+    {
+      "epoch": 0.0788200871797934,
+      "grad_norm": 6.8125,
+      "learning_rate": 1.9743700647852356e-05,
+      "loss": 1.7598,
+      "step": 330
+    },
+    {
+      "epoch": 0.08025317967397146,
+      "grad_norm": 5.0625,
+      "learning_rate": 1.9719610005785466e-05,
+      "loss": 1.7136,
+      "step": 336
+    },
+    {
+      "epoch": 0.08168627216814951,
+      "grad_norm": 6.03125,
+      "learning_rate": 1.9694453498951392e-05,
+      "loss": 1.7161,
+      "step": 342
+    },
+    {
+      "epoch": 0.08311936466232758,
+      "grad_norm": 7.34375,
+      "learning_rate": 1.9668233886044597e-05,
+      "loss": 1.6319,
+      "step": 348
+    },
+    {
+      "epoch": 0.08455245715650564,
+      "grad_norm": 5.21875,
+      "learning_rate": 1.96409540423411e-05,
+      "loss": 1.5857,
+      "step": 354
+    },
+    {
+      "epoch": 0.08598554965068371,
+      "grad_norm": 10.6875,
+      "learning_rate": 1.961261695938319e-05,
+      "loss": 1.7632,
+      "step": 360
+    },
+    {
+      "epoch": 0.08741864214486177,
+      "grad_norm": 6.21875,
+      "learning_rate": 1.9583225744651334e-05,
+      "loss": 1.4205,
+      "step": 366
+    },
+    {
+      "epoch": 0.08885173463903982,
+      "grad_norm": 5.875,
+      "learning_rate": 1.9552783621223437e-05,
+      "loss": 1.7812,
+      "step": 372
+    },
+    {
+      "epoch": 0.0902848271332179,
+      "grad_norm": 4.46875,
+      "learning_rate": 1.9521293927421388e-05,
+      "loss": 1.5759,
+      "step": 378
+    },
+    {
+      "epoch": 0.09171791962739595,
+      "grad_norm": 6.53125,
+      "learning_rate": 1.9488760116444966e-05,
+      "loss": 1.6537,
+      "step": 384
+    },
+    {
+      "epoch": 0.09315101212157402,
+      "grad_norm": 10.8125,
+      "learning_rate": 1.945518575599317e-05,
+      "loss": 1.4973,
+      "step": 390
+    },
+    {
+      "epoch": 0.09458410461575208,
+      "grad_norm": 4.1875,
+      "learning_rate": 1.942057452787297e-05,
+      "loss": 1.578,
+      "step": 396
+    },
+    {
+      "epoch": 0.09553949961187078,
+      "eval_loss": 1.4027706384658813,
+      "eval_runtime": 224.2305,
+      "eval_samples_per_second": 3.791,
+      "eval_steps_per_second": 3.791,
+      "step": 400
+    },
+    {
+      "epoch": 0.09601719710993013,
+      "grad_norm": 3.875,
+      "learning_rate": 1.938493022759556e-05,
+      "loss": 1.6032,
+      "step": 402
+    },
+    {
+      "epoch": 0.0974502896041082,
+      "grad_norm": 6.125,
+      "learning_rate": 1.9348256763960146e-05,
+      "loss": 1.7055,
+      "step": 408
+    },
+    {
+      "epoch": 0.09888338209828626,
+      "grad_norm": 5.84375,
+      "learning_rate": 1.9310558158625286e-05,
+      "loss": 1.7454,
+      "step": 414
+    },
+    {
+      "epoch": 0.10031647459246432,
+      "grad_norm": 7.0625,
+      "learning_rate": 1.9271838545667876e-05,
+      "loss": 1.7345,
+      "step": 420
+    },
+    {
+      "epoch": 0.10174956708664239,
+      "grad_norm": 6.125,
+      "learning_rate": 1.923210217112981e-05,
+      "loss": 1.6099,
+      "step": 426
+    },
+    {
+      "epoch": 0.10318265958082044,
+      "grad_norm": 4.59375,
+      "learning_rate": 1.9191353392552346e-05,
+      "loss": 1.652,
+      "step": 432
+    },
+    {
+      "epoch": 0.10461575207499851,
+      "grad_norm": 5.96875,
+      "learning_rate": 1.914959667849825e-05,
+      "loss": 1.7092,
+      "step": 438
+    },
+    {
+      "epoch": 0.10604884456917657,
+      "grad_norm": 6.4375,
+      "learning_rate": 1.910683660806177e-05,
+      "loss": 1.7545,
+      "step": 444
+    },
+    {
+      "epoch": 0.10748193706335463,
+      "grad_norm": 10.4375,
+      "learning_rate": 1.9063077870366504e-05,
+      "loss": 1.5287,
+      "step": 450
+    },
+    {
+      "epoch": 0.1089150295575327,
+      "grad_norm": 7.84375,
+      "learning_rate": 1.901832526405114e-05,
+      "loss": 1.7219,
+      "step": 456
+    },
+    {
+      "epoch": 0.11034812205171075,
+      "grad_norm": 9.5625,
+      "learning_rate": 1.8972583696743284e-05,
+      "loss": 1.665,
+      "step": 462
+    },
+    {
+      "epoch": 0.11178121454588881,
+      "grad_norm": 10.0625,
+      "learning_rate": 1.892585818452126e-05,
+      "loss": 1.6363,
+      "step": 468
+    },
+    {
+      "epoch": 0.11321430704006688,
+      "grad_norm": 5.78125,
+      "learning_rate": 1.8878153851364013e-05,
+      "loss": 1.543,
+      "step": 474
+    },
+    {
+      "epoch": 0.11464739953424494,
+      "grad_norm": 6.125,
+      "learning_rate": 1.8829475928589272e-05,
+      "loss": 1.5826,
+      "step": 480
+    },
+    {
+      "epoch": 0.11608049202842301,
+      "grad_norm": 4.8125,
+      "learning_rate": 1.8779829754279806e-05,
+      "loss": 1.581,
+      "step": 486
+    },
+    {
+      "epoch": 0.11751358452260106,
+      "grad_norm": 9.75,
+      "learning_rate": 1.8729220772698096e-05,
+      "loss": 1.5841,
+      "step": 492
+    },
+    {
+      "epoch": 0.11894667701677912,
+      "grad_norm": 13.3125,
+      "learning_rate": 1.8677654533689287e-05,
+      "loss": 1.6944,
+      "step": 498
+    },
+    {
+      "epoch": 0.12037976951095719,
+      "grad_norm": 4.96875,
+      "learning_rate": 1.8625136692072577e-05,
+      "loss": 1.6203,
+      "step": 504
+    },
+    {
+      "epoch": 0.12181286200513525,
+      "grad_norm": 6.3125,
+      "learning_rate": 1.8571673007021124e-05,
+      "loss": 1.5639,
+      "step": 510
+    },
+    {
+      "epoch": 0.1232459544993133,
+      "grad_norm": 5.5,
+      "learning_rate": 1.851726934143048e-05,
+      "loss": 1.6397,
+      "step": 516
+    },
+    {
+      "epoch": 0.12467904699349137,
+      "grad_norm": 5.125,
+      "learning_rate": 1.8461931661275642e-05,
+      "loss": 1.7315,
+      "step": 522
+    },
+    {
+      "epoch": 0.12611213948766944,
+      "grad_norm": 6.25,
+      "learning_rate": 1.8405666034956842e-05,
+      "loss": 1.7201,
+      "step": 528
+    },
+    {
+      "epoch": 0.1275452319818475,
+      "grad_norm": 8.9375,
+      "learning_rate": 1.8348478632634067e-05,
+      "loss": 1.6047,
+      "step": 534
+    },
+    {
+      "epoch": 0.12897832447602556,
+      "grad_norm": 46.25,
+      "learning_rate": 1.8290375725550417e-05,
+      "loss": 1.6949,
+      "step": 540
+    },
+    {
+      "epoch": 0.13041141697020361,
+      "grad_norm": 5.9375,
+      "learning_rate": 1.8231363685344422e-05,
+      "loss": 1.7245,
+      "step": 546
+    },
+    {
+      "epoch": 0.13184450946438167,
+      "grad_norm": 5.78125,
+      "learning_rate": 1.8171448983351284e-05,
+      "loss": 1.641,
+      "step": 552
+    },
+    {
+      "epoch": 0.13327760195855975,
+      "grad_norm": 24.125,
+      "learning_rate": 1.8110638189893267e-05,
+      "loss": 1.6125,
+      "step": 558
+    },
+    {
+      "epoch": 0.1347106944527378,
+      "grad_norm": 6.4375,
+      "learning_rate": 1.804893797355914e-05,
+      "loss": 1.6647,
+      "step": 564
+    },
+    {
+      "epoch": 0.13614378694691587,
+      "grad_norm": 6.34375,
+      "learning_rate": 1.798635510047293e-05,
+      "loss": 1.7073,
+      "step": 570
+    },
+    {
+      "epoch": 0.13757687944109392,
+      "grad_norm": 6.1875,
+      "learning_rate": 1.792289643355191e-05,
+      "loss": 1.6271,
+      "step": 576
+    },
+    {
+      "epoch": 0.13900997193527198,
+      "grad_norm": 5.0625,
+      "learning_rate": 1.785856893175402e-05,
+      "loss": 1.6317,
+      "step": 582
+    },
+    {
+      "epoch": 0.14044306442945004,
+      "grad_norm": 4.6875,
+      "learning_rate": 1.7793379649314743e-05,
+      "loss": 1.6578,
+      "step": 588
+    },
+    {
+      "epoch": 0.14187615692362812,
+      "grad_norm": 4.84375,
+      "learning_rate": 1.7727335734973512e-05,
+      "loss": 1.6554,
+      "step": 594
+    },
+    {
+      "epoch": 0.14330924941780618,
+      "grad_norm": 6.1875,
+      "learning_rate": 1.766044443118978e-05,
+      "loss": 1.5523,
+      "step": 600
+    },
+    {
+      "epoch": 0.14474234191198423,
+      "grad_norm": 23.375,
+      "learning_rate": 1.759271307334881e-05,
+      "loss": 1.616,
+      "step": 606
+    },
+    {
+      "epoch": 0.1461754344061623,
+      "grad_norm": 6.9375,
+      "learning_rate": 1.7524149088957244e-05,
+      "loss": 1.7729,
+      "step": 612
+    },
+    {
+      "epoch": 0.14760852690034035,
+      "grad_norm": 10.25,
+      "learning_rate": 1.7454759996828622e-05,
+      "loss": 1.5922,
+      "step": 618
+    },
+    {
+      "epoch": 0.14904161939451843,
+      "grad_norm": 7.21875,
+      "learning_rate": 1.7384553406258842e-05,
+      "loss": 1.583,
+      "step": 624
+    },
+    {
+      "epoch": 0.1504747118886965,
+      "grad_norm": 6.9375,
+      "learning_rate": 1.7313537016191706e-05,
+      "loss": 1.6019,
+      "step": 630
+    },
+    {
+      "epoch": 0.15190780438287455,
+      "grad_norm": 11.5,
+      "learning_rate": 1.7241718614374678e-05,
+      "loss": 1.6195,
+      "step": 636
+    },
+    {
+      "epoch": 0.1533408968770526,
+      "grad_norm": 5.5,
+      "learning_rate": 1.716910607650483e-05,
+      "loss": 1.5012,
+      "step": 642
+    },
+    {
+      "epoch": 0.15477398937123066,
+      "grad_norm": 6.71875,
+      "learning_rate": 1.709570736536521e-05,
+      "loss": 1.7686,
+      "step": 648
+    },
+    {
+      "epoch": 0.15620708186540874,
+      "grad_norm": 5.71875,
+      "learning_rate": 1.7021530529951627e-05,
+      "loss": 1.7922,
+      "step": 654
+    },
+    {
+      "epoch": 0.1576401743595868,
+      "grad_norm": 7.8125,
+      "learning_rate": 1.6946583704589973e-05,
+      "loss": 1.623,
+      "step": 660
+    },
+    {
+      "epoch": 0.15907326685376486,
+      "grad_norm": 6.34375,
+      "learning_rate": 1.6870875108044233e-05,
+      "loss": 1.6039,
+      "step": 666
+    },
+    {
+      "epoch": 0.1605063593479429,
+      "grad_norm": 6.46875,
+      "learning_rate": 1.6794413042615168e-05,
+      "loss": 1.6392,
+      "step": 672
+    },
+    {
+      "epoch": 0.16193945184212097,
+      "grad_norm": 5.4375,
+      "learning_rate": 1.6717205893229904e-05,
+      "loss": 1.5683,
+      "step": 678
+    },
+    {
+      "epoch": 0.16337254433629902,
+      "grad_norm": 4.78125,
+      "learning_rate": 1.6639262126522417e-05,
+      "loss": 1.6165,
+      "step": 684
+    },
+    {
+      "epoch": 0.1648056368304771,
+      "grad_norm": 5.4375,
+      "learning_rate": 1.6560590289905074e-05,
+      "loss": 1.5341,
+      "step": 690
+    },
+    {
+      "epoch": 0.16623872932465517,
+      "grad_norm": 5.25,
+      "learning_rate": 1.6481199010631312e-05,
+      "loss": 1.6573,
+      "step": 696
+    },
+    {
+      "epoch": 0.16767182181883322,
+      "grad_norm": 5.21875,
+      "learning_rate": 1.6401096994849558e-05,
+      "loss": 1.5056,
+      "step": 702
+    },
+    {
+      "epoch": 0.16910491431301128,
+      "grad_norm": 12.625,
+      "learning_rate": 1.632029302664851e-05,
+      "loss": 1.5337,
+      "step": 708
+    },
+    {
+      "epoch": 0.17053800680718934,
+      "grad_norm": 4.28125,
+      "learning_rate": 1.6238795967093865e-05,
+      "loss": 1.5038,
+      "step": 714
+    },
+    {
+      "epoch": 0.17197109930136742,
+      "grad_norm": 6.96875,
+      "learning_rate": 1.6156614753256583e-05,
+      "loss": 1.5587,
+      "step": 720
+    },
+    {
+      "epoch": 0.17340419179554548,
+      "grad_norm": 4.90625,
+      "learning_rate": 1.607375839723287e-05,
+      "loss": 1.563,
+      "step": 726
+    },
+    {
+      "epoch": 0.17483728428972353,
+      "grad_norm": 5.34375,
+      "learning_rate": 1.599023598515586e-05,
+      "loss": 1.6058,
+      "step": 732
+    },
+    {
+      "epoch": 0.1762703767839016,
+      "grad_norm": 5.25,
+      "learning_rate": 1.5906056676199256e-05,
+      "loss": 1.7244,
+      "step": 738
+    },
+    {
+      "epoch": 0.17770346927807965,
+      "grad_norm": 4.5,
+      "learning_rate": 1.5821229701572897e-05,
+      "loss": 1.6587,
+      "step": 744
+    },
+    {
+      "epoch": 0.17913656177225773,
+      "grad_norm": 12.75,
+      "learning_rate": 1.573576436351046e-05,
+      "loss": 1.6018,
+      "step": 750
+    },
+    {
+      "epoch": 0.1805696542664358,
+      "grad_norm": 6.0,
+      "learning_rate": 1.564967003424938e-05,
+      "loss": 1.6205,
+      "step": 756
+    },
+    {
+      "epoch": 0.18200274676061384,
+      "grad_norm": 5.59375,
+      "learning_rate": 1.556295615500305e-05,
+      "loss": 1.6345,
+      "step": 762
+    },
+    {
+      "epoch": 0.1834358392547919,
+      "grad_norm": 4.59375,
+      "learning_rate": 1.5475632234925505e-05,
+      "loss": 1.5226,
+      "step": 768
+    },
+    {
+      "epoch": 0.18486893174896996,
+      "grad_norm": 4.78125,
+      "learning_rate": 1.5387707850068633e-05,
+      "loss": 1.6488,
+      "step": 774
+    },
+    {
+      "epoch": 0.18630202424314804,
+      "grad_norm": 4.28125,
+      "learning_rate": 1.529919264233205e-05,
+      "loss": 1.5393,
+      "step": 780
+    },
+    {
+      "epoch": 0.1877351167373261,
+      "grad_norm": 7.625,
+      "learning_rate": 1.5210096318405768e-05,
+      "loss": 1.5374,
+      "step": 786
+    },
+    {
+      "epoch": 0.18916820923150415,
+      "grad_norm": 4.21875,
+      "learning_rate": 1.5120428648705716e-05,
+      "loss": 1.4963,
+      "step": 792
+    },
+    {
+      "epoch": 0.1906013017256822,
+      "grad_norm": 4.25,
+      "learning_rate": 1.5030199466302354e-05,
+      "loss": 1.5828,
+      "step": 798
+    },
+    {
+      "epoch": 0.19107899922374155,
+      "eval_loss": 1.3809266090393066,
+      "eval_runtime": 223.0505,
+      "eval_samples_per_second": 3.811,
+      "eval_steps_per_second": 3.811,
+      "step": 800
+    },
+    {
+      "epoch": 0.19203439421986027,
+      "grad_norm": 6.21875,
+      "learning_rate": 1.493941866584231e-05,
+      "loss": 1.5799,
+      "step": 804
+    },
+    {
+      "epoch": 0.19346748671403832,
+      "grad_norm": 8.5,
+      "learning_rate": 1.4848096202463373e-05,
+      "loss": 1.6519,
+      "step": 810
+    },
+    {
+      "epoch": 0.1949005792082164,
+      "grad_norm": 4.59375,
+      "learning_rate": 1.4756242090702756e-05,
+      "loss": 1.5897,
+      "step": 816
+    },
+    {
+      "epoch": 0.19633367170239446,
+      "grad_norm": 5.75,
+      "learning_rate": 1.4663866403398915e-05,
+      "loss": 1.6454,
+      "step": 822
+    },
+    {
+      "epoch": 0.19776676419657252,
+      "grad_norm": 4.1875,
+      "learning_rate": 1.4570979270586944e-05,
+      "loss": 1.5361,
+      "step": 828
+    },
+    {
+      "epoch": 0.19919985669075058,
+      "grad_norm": 5.375,
+      "learning_rate": 1.4477590878387697e-05,
+      "loss": 1.5086,
+      "step": 834
+    },
+    {
+      "epoch": 0.20063294918492863,
+      "grad_norm": 4.375,
+      "learning_rate": 1.4383711467890776e-05,
+      "loss": 1.6474,
+      "step": 840
+    },
+    {
+      "epoch": 0.20206604167910672,
+      "grad_norm": 4.6875,
+      "learning_rate": 1.4289351334031461e-05,
+      "loss": 1.465,
+      "step": 846
+    },
+    {
+      "epoch": 0.20349913417328477,
+      "grad_norm": 8.6875,
+      "learning_rate": 1.4194520824461773e-05,
+      "loss": 1.5312,
+      "step": 852
+    },
+    {
+      "epoch": 0.20493222666746283,
+      "grad_norm": 5.53125,
+      "learning_rate": 1.4099230338415728e-05,
+      "loss": 1.4775,
+      "step": 858
+    },
+    {
+      "epoch": 0.2063653191616409,
+      "grad_norm": 9.8125,
+      "learning_rate": 1.4003490325568953e-05,
+      "loss": 1.8343,
+      "step": 864
+    },
+    {
+      "epoch": 0.20779841165581894,
+      "grad_norm": 8.0625,
+      "learning_rate": 1.3907311284892737e-05,
+      "loss": 1.537,
+      "step": 870
+    },
+    {
+      "epoch": 0.20923150414999703,
+      "grad_norm": 6.3125,
+      "learning_rate": 1.3810703763502744e-05,
+      "loss": 1.7239,
+      "step": 876
+    },
+    {
+      "epoch": 0.21066459664417508,
+      "grad_norm": 5.75,
+      "learning_rate": 1.371367835550235e-05,
+      "loss": 1.5176,
+      "step": 882
+    },
+    {
+      "epoch": 0.21209768913835314,
+      "grad_norm": 4.65625,
+      "learning_rate": 1.3616245700820922e-05,
+      "loss": 1.641,
+      "step": 888
+    },
+    {
+      "epoch": 0.2135307816325312,
+      "grad_norm": 4.0625,
+      "learning_rate": 1.3518416484047018e-05,
+      "loss": 1.5882,
+      "step": 894
+    },
+    {
+      "epoch": 0.21496387412670925,
+      "grad_norm": 5.09375,
+      "learning_rate": 1.342020143325669e-05,
+      "loss": 1.6042,
+      "step": 900
+    },
+    {
+      "epoch": 0.2163969666208873,
+      "grad_norm": 5.84375,
+      "learning_rate": 1.3321611318837033e-05,
+      "loss": 1.5516,
+      "step": 906
+    },
+    {
+      "epoch": 0.2178300591150654,
+      "grad_norm": 6.15625,
+      "learning_rate": 1.3222656952305113e-05,
+      "loss": 1.5349,
+      "step": 912
+    },
+    {
+      "epoch": 0.21926315160924345,
+      "grad_norm": 5.21875,
+      "learning_rate": 1.3123349185122328e-05,
+      "loss": 1.6652,
+      "step": 918
+    },
+    {
+      "epoch": 0.2206962441034215,
+      "grad_norm": 17.25,
+      "learning_rate": 1.3023698907504447e-05,
+      "loss": 1.7149,
+      "step": 924
+    },
+    {
+      "epoch": 0.22212933659759956,
+      "grad_norm": 6.8125,
+      "learning_rate": 1.2923717047227368e-05,
+      "loss": 1.6285,
+      "step": 930
+    },
+    {
+      "epoch": 0.22356242909177762,
+      "grad_norm": 4.1875,
+      "learning_rate": 1.2823414568428767e-05,
+      "loss": 1.5982,
+      "step": 936
+    },
+    {
+      "epoch": 0.2249955215859557,
+      "grad_norm": 5.8125,
+      "learning_rate": 1.2722802470405744e-05,
+      "loss": 1.5901,
+      "step": 942
+    },
+    {
+      "epoch": 0.22642861408013376,
+      "grad_norm": 4.75,
+      "learning_rate": 1.2621891786408648e-05,
+      "loss": 1.5705,
+      "step": 948
+    },
+    {
+      "epoch": 0.22786170657431182,
+      "grad_norm": 10.1875,
+      "learning_rate": 1.252069358243114e-05,
+      "loss": 1.5263,
+      "step": 954
+    },
+    {
+      "epoch": 0.22929479906848987,
+      "grad_norm": 3.671875,
+      "learning_rate": 1.2419218955996677e-05,
+      "loss": 1.5622,
+      "step": 960
+    },
+    {
+      "epoch": 0.23072789156266793,
+      "grad_norm": 4.625,
+      "learning_rate": 1.2317479034941572e-05,
+      "loss": 1.5984,
+      "step": 966
+    },
+    {
+      "epoch": 0.23216098405684601,
+      "grad_norm": 7.21875,
+      "learning_rate": 1.2215484976194675e-05,
+      "loss": 1.6465,
+      "step": 972
+    },
+    {
+      "epoch": 0.23359407655102407,
+      "grad_norm": 6.59375,
+      "learning_rate": 1.211324796455389e-05,
+      "loss": 1.705,
+      "step": 978
+    },
+    {
+      "epoch": 0.23502716904520213,
+      "grad_norm": 5.96875,
+      "learning_rate": 1.2010779211459649e-05,
+      "loss": 1.5316,
+      "step": 984
+    },
+    {
+      "epoch": 0.23646026153938018,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.190808995376545e-05,
+      "loss": 1.4676,
+      "step": 990
+    },
+    {
+      "epoch": 0.23789335403355824,
+      "grad_norm": 4.9375,
+      "learning_rate": 1.1805191452505602e-05,
+      "loss": 1.5319,
+      "step": 996
+    },
+    {
+      "epoch": 0.2393264465277363,
+      "grad_norm": 5.625,
+      "learning_rate": 1.1702094991660326e-05,
+      "loss": 1.6112,
+      "step": 1002
+    },
+    {
+      "epoch": 0.24075953902191438,
+      "grad_norm": 4.71875,
+      "learning_rate": 1.159881187691835e-05,
+      "loss": 1.6341,
+      "step": 1008
+    },
+    {
+      "epoch": 0.24219263151609244,
+      "grad_norm": 4.3125,
+      "learning_rate": 1.1495353434437098e-05,
+      "loss": 1.4623,
+      "step": 1014
+    },
+    {
+      "epoch": 0.2436257240102705,
+      "grad_norm": 19.625,
+      "learning_rate": 1.1391731009600655e-05,
+      "loss": 1.4166,
+      "step": 1020
+    },
+    {
+      "epoch": 0.24505881650444855,
+      "grad_norm": 4.0625,
+      "learning_rate": 1.128795596577563e-05,
+      "loss": 1.5813,
+      "step": 1026
+    },
+    {
+      "epoch": 0.2464919089986266,
+      "grad_norm": 6.25,
+      "learning_rate": 1.1184039683065014e-05,
+      "loss": 1.5772,
+      "step": 1032
+    },
+    {
+      "epoch": 0.2479250014928047,
+      "grad_norm": 5.53125,
+      "learning_rate": 1.1079993557060228e-05,
+      "loss": 1.401,
+      "step": 1038
+    },
+    {
+      "epoch": 0.24935809398698275,
+      "grad_norm": 6.65625,
+      "learning_rate": 1.0975828997591496e-05,
+      "loss": 1.6248,
+      "step": 1044
+    },
+    {
+      "epoch": 0.2507911864811608,
+      "grad_norm": 856.0,
+      "learning_rate": 1.0871557427476585e-05,
+      "loss": 1.775,
+      "step": 1050
+    },
+    {
+      "epoch": 0.2522242789753389,
+      "grad_norm": 4.1875,
+      "learning_rate": 1.0767190281268187e-05,
+      "loss": 1.586,
+      "step": 1056
+    },
+    {
+      "epoch": 0.25365737146951695,
+      "grad_norm": 3.53125,
+      "learning_rate": 1.0662739004000005e-05,
+      "loss": 1.5397,
+      "step": 1062
+    },
+    {
+      "epoch": 0.255090463963695,
+      "grad_norm": 4.125,
+      "learning_rate": 1.055821504993164e-05,
+      "loss": 1.8712,
+      "step": 1068
+    },
+    {
+      "epoch": 0.25652355645787306,
+      "grad_norm": 5.1875,
+      "learning_rate": 1.0453629881292537e-05,
+      "loss": 1.5357,
+      "step": 1074
+    },
+    {
+      "epoch": 0.2579566489520511,
+      "grad_norm": 3.921875,
+      "learning_rate": 1.0348994967025012e-05,
+      "loss": 1.4033,
+      "step": 1080
+    },
+    {
+      "epoch": 0.25938974144622917,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.0244321781526533e-05,
+      "loss": 1.5611,
+      "step": 1086
+    },
+    {
+      "epoch": 0.26082283394040723,
+      "grad_norm": 4.8125,
+      "learning_rate": 1.0139621803391454e-05,
+      "loss": 1.577,
+      "step": 1092
+    },
+    {
+      "epoch": 0.2622559264345853,
+      "grad_norm": 5.46875,
+      "learning_rate": 1.0034906514152239e-05,
+      "loss": 1.5149,
+      "step": 1098
+    },
+    {
+      "epoch": 0.26368901892876334,
+      "grad_norm": 6.4375,
+      "learning_rate": 9.930187397020385e-06,
+      "loss": 1.5796,
+      "step": 1104
+    },
+    {
+      "epoch": 0.2651221114229414,
+      "grad_norm": 4.28125,
+      "learning_rate": 9.825475935627165e-06,
+      "loss": 1.5702,
+      "step": 1110
+    },
+    {
+      "epoch": 0.2665552039171195,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.720783612764314e-06,
+      "loss": 1.5354,
+      "step": 1116
+    },
+    {
+      "epoch": 0.26798829641129757,
+      "grad_norm": 4.375,
+      "learning_rate": 9.616121909124801e-06,
+      "loss": 1.4122,
+      "step": 1122
+    },
+    {
+      "epoch": 0.2694213889054756,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.511502302043867e-06,
+      "loss": 1.6959,
+      "step": 1128
+    },
+    {
+      "epoch": 0.2708544813996537,
+      "grad_norm": 8.4375,
+      "learning_rate": 9.406936264240386e-06,
+      "loss": 1.5493,
+      "step": 1134
+    },
+    {
+      "epoch": 0.27228757389383174,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.302435262558748e-06,
+      "loss": 1.4156,
+      "step": 1140
+    },
+    {
+      "epoch": 0.2737206663880098,
+      "grad_norm": 720.0,
+      "learning_rate": 9.198010756711413e-06,
+      "loss": 1.567,
+      "step": 1146
+    },
+    {
+      "epoch": 0.27515375888218785,
+      "grad_norm": 3.875,
+      "learning_rate": 9.093674198022201e-06,
+      "loss": 1.3814,
+      "step": 1152
+    },
+    {
+      "epoch": 0.2765868513763659,
+      "grad_norm": 3.671875,
+      "learning_rate": 8.989437028170537e-06,
+      "loss": 1.4261,
+      "step": 1158
+    },
+    {
+      "epoch": 0.27801994387054396,
+      "grad_norm": 10.375,
+      "learning_rate": 8.885310677936746e-06,
+      "loss": 1.506,
+      "step": 1164
+    },
+    {
+      "epoch": 0.279453036364722,
+      "grad_norm": 3.46875,
+      "learning_rate": 8.781306565948528e-06,
+      "loss": 1.3967,
+      "step": 1170
+    },
+    {
+      "epoch": 0.2808861288589001,
+      "grad_norm": 3.984375,
+      "learning_rate": 8.677436097428775e-06,
+      "loss": 1.5761,
+      "step": 1176
+    },
+    {
+      "epoch": 0.2823192213530782,
+      "grad_norm": 3.484375,
+      "learning_rate": 8.573710662944884e-06,
+      "loss": 1.5428,
+      "step": 1182
+    },
+    {
+      "epoch": 0.28375231384725624,
+      "grad_norm": 6.25,
+      "learning_rate": 8.47014163715962e-06,
+      "loss": 1.5426,
+      "step": 1188
+    },
+    {
+      "epoch": 0.2851854063414343,
+      "grad_norm": 6.25,
+      "learning_rate": 8.366740377583781e-06,
+      "loss": 1.503,
+      "step": 1194
+    },
+    {
+      "epoch": 0.28661849883561236,
+      "grad_norm": 3.828125,
+      "learning_rate": 8.263518223330698e-06,
+      "loss": 1.4355,
+      "step": 1200
+    },
+    {
+      "epoch": 0.28661849883561236,
+      "eval_loss": 1.315157413482666,
+      "eval_runtime": 223.8181,
+      "eval_samples_per_second": 3.798,
+      "eval_steps_per_second": 3.798,
+      "step": 1200
+    },
+    {
+      "epoch": 0.2880515913297904,
+      "grad_norm": 5.625,
+      "learning_rate": 8.1604864938728e-06,
+      "loss": 1.4389,
+      "step": 1206
+    },
+    {
+      "epoch": 0.28948468382396847,
+      "grad_norm": 5.0625,
+      "learning_rate": 8.057656487800283e-06,
+      "loss": 1.5346,
+      "step": 1212
+    },
+    {
+      "epoch": 0.2909177763181465,
+      "grad_norm": 4.21875,
+      "learning_rate": 7.955039481582098e-06,
+      "loss": 1.4492,
+      "step": 1218
+    },
+    {
+      "epoch": 0.2923508688123246,
+      "grad_norm": 4.9375,
+      "learning_rate": 7.852646728329368e-06,
+      "loss": 1.4305,
+      "step": 1224
+    },
+    {
+      "epoch": 0.29378396130650264,
+      "grad_norm": 4.9375,
+      "learning_rate": 7.750489456561351e-06,
+      "loss": 1.607,
+      "step": 1230
+    },
+    {
+      "epoch": 0.2952170538006807,
+      "grad_norm": 4.90625,
+      "learning_rate": 7.6485788689741e-06,
+      "loss": 1.3777,
+      "step": 1236
+    },
+    {
+      "epoch": 0.2966501462948588,
+      "grad_norm": 5.875,
+      "learning_rate": 7.546926141211975e-06,
+      "loss": 1.5751,
+      "step": 1242
+    },
+    {
+      "epoch": 0.29808323878903686,
+      "grad_norm": 4.8125,
+      "learning_rate": 7.445542420642097e-06,
+      "loss": 1.5106,
+      "step": 1248
+    },
+    {
+      "epoch": 0.2995163312832149,
+      "grad_norm": 4.875,
+      "learning_rate": 7.344438825131912e-06,
+      "loss": 1.5982,
+      "step": 1254
+    },
+    {
+      "epoch": 0.300949423777393,
+      "grad_norm": 5.09375,
+      "learning_rate": 7.243626441830009e-06,
+      "loss": 1.5328,
+      "step": 1260
+    },
+    {
+      "epoch": 0.30238251627157103,
+      "grad_norm": 4.09375,
+      "learning_rate": 7.143116325950266e-06,
+      "loss": 1.6138,
+      "step": 1266
+    },
+    {
+      "epoch": 0.3038156087657491,
+      "grad_norm": 3.8125,
+      "learning_rate": 7.042919499559538e-06,
+      "loss": 1.4547,
+      "step": 1272
+    },
+    {
+      "epoch": 0.30524870125992715,
+      "grad_norm": 4.1875,
+      "learning_rate": 6.943046950368944e-06,
+      "loss": 1.4393,
+      "step": 1278
+    },
+    {
+      "epoch": 0.3066817937541052,
+      "grad_norm": 5.34375,
+      "learning_rate": 6.843509630528977e-06,
+      "loss": 1.4009,
+      "step": 1284
+    },
+    {
+      "epoch": 0.30811488624828326,
+      "grad_norm": 5.125,
+      "learning_rate": 6.744318455428436e-06,
+      "loss": 1.5134,
+      "step": 1290
+    },
+    {
+      "epoch": 0.3095479787424613,
+      "grad_norm": 4.96875,
+      "learning_rate": 6.645484302497452e-06,
+      "loss": 1.5411,
+      "step": 1296
+    },
+    {
+      "epoch": 0.3109810712366394,
+      "grad_norm": 4.9375,
+      "learning_rate": 6.547018010014654e-06,
+      "loss": 1.5058,
+      "step": 1302
+    },
+    {
+      "epoch": 0.3124141637308175,
+      "grad_norm": 3.59375,
+      "learning_rate": 6.448930375918632e-06,
+      "loss": 1.4026,
+      "step": 1308
+    },
+    {
+      "epoch": 0.31384725622499554,
+      "grad_norm": 4.78125,
+      "learning_rate": 6.351232156623803e-06,
+      "loss": 1.3993,
+      "step": 1314
+    },
+    {
+      "epoch": 0.3152803487191736,
+      "grad_norm": 4.21875,
+      "learning_rate": 6.25393406584088e-06,
+      "loss": 1.6574,
+      "step": 1320
+    },
+    {
+      "epoch": 0.31671344121335165,
+      "grad_norm": 4.40625,
+      "learning_rate": 6.157046773401964e-06,
+      "loss": 1.5233,
+      "step": 1326
+    },
+    {
+      "epoch": 0.3181465337075297,
+      "grad_norm": 5.25,
+      "learning_rate": 6.06058090409049e-06,
+      "loss": 1.5095,
+      "step": 1332
+    },
+    {
+      "epoch": 0.31957962620170777,
+      "grad_norm": 4.625,
+      "learning_rate": 5.9645470364761e-06,
+      "loss": 1.3797,
+      "step": 1338
+    },
+    {
+      "epoch": 0.3210127186958858,
+      "grad_norm": 5.84375,
+      "learning_rate": 5.868955701754584e-06,
+      "loss": 1.6089,
+      "step": 1344
+    },
+    {
+      "epoch": 0.3224458111900639,
+      "grad_norm": 3.71875,
+      "learning_rate": 5.773817382593008e-06,
+      "loss": 1.4297,
+      "step": 1350
+    },
+    {
+      "epoch": 0.32387890368424194,
+      "grad_norm": 3.578125,
+      "learning_rate": 5.679142511980176e-06,
+      "loss": 1.327,
+      "step": 1356
+    },
+    {
+      "epoch": 0.32531199617842,
+      "grad_norm": 4.6875,
+      "learning_rate": 5.584941472082549e-06,
+      "loss": 1.4878,
+      "step": 1362
+    },
+    {
+      "epoch": 0.32674508867259805,
+      "grad_norm": 5.125,
+      "learning_rate": 5.491224593105695e-06,
+      "loss": 1.4593,
+      "step": 1368
+    },
+    {
+      "epoch": 0.32817818116677616,
+      "grad_norm": 7.1875,
+      "learning_rate": 5.398002152161484e-06,
+      "loss": 1.5287,
+      "step": 1374
+    },
+    {
+      "epoch": 0.3296112736609542,
+      "grad_norm": 5.71875,
+      "learning_rate": 5.305284372141095e-06,
+      "loss": 1.4808,
+      "step": 1380
+    },
+    {
+      "epoch": 0.3310443661551323,
+      "grad_norm": 4.09375,
+      "learning_rate": 5.213081420593933e-06,
+      "loss": 1.4244,
+      "step": 1386
+    },
+    {
+      "epoch": 0.33247745864931033,
+      "grad_norm": 9.5,
+      "learning_rate": 5.121403408612672e-06,
+      "loss": 1.5213,
+      "step": 1392
+    },
+    {
+      "epoch": 0.3339105511434884,
+      "grad_norm": 5.09375,
+      "learning_rate": 5.030260389724447e-06,
+      "loss": 1.4455,
+      "step": 1398
+    },
+    {
+      "epoch": 0.33534364363766644,
+      "grad_norm": 6.6875,
+      "learning_rate": 4.939662358788364e-06,
+      "loss": 1.5983,
+      "step": 1404
+    },
+    {
+      "epoch": 0.3367767361318445,
+      "grad_norm": 4.96875,
+      "learning_rate": 4.849619250899458e-06,
+      "loss": 1.3544,
+      "step": 1410
+    },
+    {
+      "epoch": 0.33820982862602256,
+      "grad_norm": 4.65625,
+      "learning_rate": 4.76014094029921e-06,
+      "loss": 1.4412,
+      "step": 1416
+    },
+    {
+      "epoch": 0.3396429211202006,
+      "grad_norm": 6.40625,
+      "learning_rate": 4.671237239292699e-06,
+      "loss": 1.4463,
+      "step": 1422
+    },
+    {
+      "epoch": 0.34107601361437867,
+      "grad_norm": 5.25,
+      "learning_rate": 4.582917897172603e-06,
+      "loss": 1.5306,
+      "step": 1428
+    },
+    {
+      "epoch": 0.3425091061085568,
+      "grad_norm": 4.40625,
+      "learning_rate": 4.495192599150045e-06,
+      "loss": 1.5532,
+      "step": 1434
+    },
+    {
+      "epoch": 0.34394219860273484,
+      "grad_norm": 5.15625,
+      "learning_rate": 4.408070965292534e-06,
+      "loss": 1.4818,
+      "step": 1440
+    },
+    {
+      "epoch": 0.3453752910969129,
+      "grad_norm": 4.125,
+      "learning_rate": 4.321562549468991e-06,
+      "loss": 1.4144,
+      "step": 1446
+    },
+    {
+      "epoch": 0.34680838359109095,
+      "grad_norm": 4.28125,
+      "learning_rate": 4.235676838302069e-06,
+      "loss": 1.4173,
+      "step": 1452
+    },
+    {
+      "epoch": 0.348241476085269,
+      "grad_norm": 8.5,
+      "learning_rate": 4.150423250127846e-06,
+      "loss": 1.4121,
+      "step": 1458
+    },
+    {
+      "epoch": 0.34967456857944706,
+      "grad_norm": 5.90625,
+      "learning_rate": 4.065811133962987e-06,
+      "loss": 1.4121,
+      "step": 1464
+    },
+    {
+      "epoch": 0.3511076610736251,
+      "grad_norm": 4.625,
+      "learning_rate": 3.981849768479516e-06,
+      "loss": 1.3973,
+      "step": 1470
+    },
+    {
+      "epoch": 0.3525407535678032,
+      "grad_norm": 5.1875,
+      "learning_rate": 3.898548360987325e-06,
+      "loss": 1.4554,
+      "step": 1476
+    },
+    {
+      "epoch": 0.35397384606198123,
+      "grad_norm": 5.40625,
+      "learning_rate": 3.81591604642446e-06,
+      "loss": 1.4958,
+      "step": 1482
+    },
+    {
+      "epoch": 0.3554069385561593,
+      "grad_norm": 5.28125,
+      "learning_rate": 3.7339618863553983e-06,
+      "loss": 1.4843,
+      "step": 1488
+    },
+    {
+      "epoch": 0.35684003105033735,
+      "grad_norm": 5.96875,
+      "learning_rate": 3.6526948679773256e-06,
+      "loss": 1.6051,
+      "step": 1494
+    },
+    {
+      "epoch": 0.35827312354451546,
+      "grad_norm": 3.6875,
+      "learning_rate": 3.5721239031346067e-06,
+      "loss": 1.4176,
+      "step": 1500
+    },
+    {
+      "epoch": 0.3597062160386935,
+      "grad_norm": 4.375,
+      "learning_rate": 3.492257827341492e-06,
+      "loss": 1.4049,
+      "step": 1506
+    },
+    {
+      "epoch": 0.3611393085328716,
+      "grad_norm": 3.71875,
+      "learning_rate": 3.4131053988131947e-06,
+      "loss": 1.5823,
+      "step": 1512
+    },
+    {
+      "epoch": 0.36257240102704963,
+      "grad_norm": 6.0,
+      "learning_rate": 3.3346752975054763e-06,
+      "loss": 1.4469,
+      "step": 1518
+    },
+    {
+      "epoch": 0.3640054935212277,
+      "grad_norm": 4.21875,
+      "learning_rate": 3.2569761241627694e-06,
+      "loss": 1.4373,
+      "step": 1524
+    },
+    {
+      "epoch": 0.36543858601540574,
+      "grad_norm": 6.03125,
+      "learning_rate": 3.1800163993750166e-06,
+      "loss": 1.4823,
+      "step": 1530
+    },
+    {
+      "epoch": 0.3668716785095838,
+      "grad_norm": 4.625,
+      "learning_rate": 3.103804562643302e-06,
+      "loss": 1.4585,
+      "step": 1536
+    },
+    {
+      "epoch": 0.36830477100376185,
+      "grad_norm": 4.28125,
+      "learning_rate": 3.028348971454356e-06,
+      "loss": 1.4233,
+      "step": 1542
+    },
+    {
+      "epoch": 0.3697378634979399,
+      "grad_norm": 14.625,
+      "learning_rate": 2.953657900364053e-06,
+      "loss": 1.4869,
+      "step": 1548
+    },
+    {
+      "epoch": 0.37117095599211797,
+      "grad_norm": 4.1875,
+      "learning_rate": 2.8797395400900362e-06,
+      "loss": 1.5315,
+      "step": 1554
+    },
+    {
+      "epoch": 0.3726040484862961,
+      "grad_norm": 4.125,
+      "learning_rate": 2.8066019966134907e-06,
+      "loss": 1.4887,
+      "step": 1560
+    },
+    {
+      "epoch": 0.37403714098047414,
+      "grad_norm": 3.796875,
+      "learning_rate": 2.7342532902902418e-06,
+      "loss": 1.4533,
+      "step": 1566
+    },
+    {
+      "epoch": 0.3754702334746522,
+      "grad_norm": 4.03125,
+      "learning_rate": 2.6627013549712355e-06,
+      "loss": 1.4017,
+      "step": 1572
+    },
+    {
+      "epoch": 0.37690332596883025,
+      "grad_norm": 6.84375,
+      "learning_rate": 2.5919540371325005e-06,
+      "loss": 1.3971,
+      "step": 1578
+    },
+    {
+      "epoch": 0.3783364184630083,
+      "grad_norm": 5.5625,
+      "learning_rate": 2.522019095014683e-06,
+      "loss": 1.5576,
+      "step": 1584
+    },
+    {
+      "epoch": 0.37976951095718636,
+      "grad_norm": 10.875,
+      "learning_rate": 2.45290419777228e-06,
+      "loss": 1.4719,
+      "step": 1590
+    },
+    {
+      "epoch": 0.3812026034513644,
+      "grad_norm": 5.15625,
+      "learning_rate": 2.3846169246326345e-06,
+      "loss": 1.4618,
+      "step": 1596
+    },
+    {
+      "epoch": 0.3821579984474831,
+      "eval_loss": 1.2876688241958618,
+      "eval_runtime": 226.2654,
+      "eval_samples_per_second": 3.757,
+      "eval_steps_per_second": 3.757,
+      "step": 1600
+    }
+  ],
+  "logging_steps": 6,
+  "max_steps": 2000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 400,
+  "total_flos": 2.9553261973639004e+18,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}