rabiulawal commited on May 1

Commit

892175b

verified ·

1 Parent(s): a426e8a

Add files using upload-large-folder tool

Browse files

Files changed (17) hide show

config.json +38 -0
generation_config.json +7 -0
model-00001-of-00004.safetensors +3 -0
model-00002-of-00004.safetensors +3 -0
model-00003-of-00004.safetensors +3 -0
model-00004-of-00004.safetensors +3 -0
model.safetensors.index.json +298 -0
rng_state_0.pth +3 -0
rng_state_1.pth +3 -0
rng_state_2.pth +3 -0
rng_state_3.pth +3 -0
rng_state_4.pth +3 -0
rng_state_5.pth +3 -0
rng_state_6.pth +3 -0
rng_state_7.pth +3 -0
trainer_state.json +2321 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "_name_or_path": "BAAI/Emu3-Stage1",
+  "architectures": [
+    "Emu3ForCausalLM"
+  ],
+  "attention_dropout": 0.1,
+  "auto_map": {
+    "AutoConfig": "BAAI/Emu3-Stage1--configuration_emu3.Emu3Config",
+    "AutoModelForCausalLM": "BAAI/Emu3-Stage1--modeling_emu3.Emu3ForCausalLM"
+  },
+  "boi_token_id": 151852,
+  "bos_token_id": 151849,
+  "eof_token_id": 151847,
+  "eoi_token_id": 151853,
+  "eol_token_id": 151846,
+  "eos_token_id": 151850,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "image_area": 65536,
+  "img_token_id": 151851,
+  "initializer_range": 0.02,
+  "intermediate_size": 14336,
+  "max_position_embeddings": 4300,
+  "model_type": "Emu3",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 8,
+  "pad_token_id": 151643,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.44.0",
+  "use_cache": false,
+  "vocab_size": 184622
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 151849,
+  "eos_token_id": 151850,
+  "pad_token_id": 151643,
+  "transformers_version": "4.44.0"
+}

model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:09d3e19a322e5b1297b08c1323a33e61fd8f6f9981eb793aabae29dd3c90d67e
+size 4884766656

model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:94c43f2ee52e35f7f03f92f4459789c956af4c57322ac467bd35b8603f713ff1
+size 4999819320

model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:89173b2b450f39cc71af24a55147f3c371ab05525cd02e44fc05051a5e1910c1
+size 4915916184

model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:98da8acc2927ba0aa54de87755999f70e70707933bfb5a65bbc87ae5e7831602
+size 2183554760

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,298 @@

+{
+  "metadata": {
+    "total_size": 16984023040
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00004-of-00004.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.norm.weight": "model-00004-of-00004.safetensors"
+  }
+}

rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c361a54bb98632eca653ebbbde03fde0c66d8fd6153a6c3d7d471c7866c30a22
+size 15984

rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f511c4ca211740b8b3a024d6497fae2c9b7ae2483a4f3ff823f45eaf56061e9
+size 15984

rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5035d6c94d0823711df0867e61393a89c02d13ff6b2bc23ff1b042a539e9411c
+size 15984

rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0094f43aa3f97099c65a354d0578c6aff4f03bb7abd71c4c645fcb0ba7d315ad
+size 15984

rng_state_4.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6dd4df529d17901c20b562c8727464fbc1002c2ceff37bb88d1a92eca08a2c16
+size 15984

rng_state_5.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c41b2cddbed24adf345fe92f7b39b44520ebef39cb140e957ddf417a134b18dd
+size 15984

rng_state_6.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b858adb1d55770c9d9e7f6a7c9c95171919b300c6d589cb64738504f5d2eb963
+size 15984

rng_state_7.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ee47f99fbd11989686b5780a4e0a6f6f3709e515120b0094d0dfc4a28e26f96f
+size 15984

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2321 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 26.812761843377377,
+  "eval_steps": 100,
+  "global_step": 10400,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.12890750886239125,
+      "grad_norm": 5.744519798404323,
+      "learning_rate": 1e-05,
+      "loss": 3.8898,
+      "step": 50
+    },
+    {
+      "epoch": 0.2578150177247825,
+      "grad_norm": 7.663336118255639,
+      "learning_rate": 9.999766822485166e-06,
+      "loss": 2.7367,
+      "step": 100
+    },
+    {
+      "epoch": 0.2578150177247825,
+      "eval_loss": 2.547008991241455,
+      "eval_runtime": 13.6928,
+      "eval_samples_per_second": 73.031,
+      "eval_steps_per_second": 2.337,
+      "step": 100
+    },
+    {
+      "epoch": 0.3867225265871737,
+      "grad_norm": 6.687747513820881,
+      "learning_rate": 9.999067314105889e-06,
+      "loss": 2.4915,
+      "step": 150
+    },
+    {
+      "epoch": 0.515630035449565,
+      "grad_norm": 3.3619995730848027,
+      "learning_rate": 9.997901547355329e-06,
+      "loss": 2.3844,
+      "step": 200
+    },
+    {
+      "epoch": 0.515630035449565,
+      "eval_loss": 2.2610087394714355,
+      "eval_runtime": 13.0766,
+      "eval_samples_per_second": 76.472,
+      "eval_steps_per_second": 2.447,
+      "step": 200
+    },
+    {
+      "epoch": 0.6445375443119562,
+      "grad_norm": 5.032691180052785,
+      "learning_rate": 9.996269643047091e-06,
+      "loss": 2.2534,
+      "step": 250
+    },
+    {
+      "epoch": 0.7734450531743474,
+      "grad_norm": 3.975968794985624,
+      "learning_rate": 9.99417177030268e-06,
+      "loss": 2.1781,
+      "step": 300
+    },
+    {
+      "epoch": 0.7734450531743474,
+      "eval_loss": 2.0959012508392334,
+      "eval_runtime": 13.0524,
+      "eval_samples_per_second": 76.614,
+      "eval_steps_per_second": 2.452,
+      "step": 300
+    },
+    {
+      "epoch": 0.9023525620367386,
+      "grad_norm": 3.795190451013864,
+      "learning_rate": 9.991608146533984e-06,
+      "loss": 2.1342,
+      "step": 350
+    },
+    {
+      "epoch": 1.03126007089913,
+      "grad_norm": 3.850079627270192,
+      "learning_rate": 9.988579037420745e-06,
+      "loss": 2.0796,
+      "step": 400
+    },
+    {
+      "epoch": 1.03126007089913,
+      "eval_loss": 2.029681921005249,
+      "eval_runtime": 13.0552,
+      "eval_samples_per_second": 76.598,
+      "eval_steps_per_second": 2.451,
+      "step": 400
+    },
+    {
+      "epoch": 1.1601675797615212,
+      "grad_norm": 2.0860401247438722,
+      "learning_rate": 9.985084756883026e-06,
+      "loss": 2.0583,
+      "step": 450
+    },
+    {
+      "epoch": 1.2890750886239124,
+      "grad_norm": 1.7587705935004414,
+      "learning_rate": 9.98112566704867e-06,
+      "loss": 2.0388,
+      "step": 500
+    },
+    {
+      "epoch": 1.2890750886239124,
+      "eval_loss": 1.9869602918624878,
+      "eval_runtime": 13.1308,
+      "eval_samples_per_second": 76.157,
+      "eval_steps_per_second": 2.437,
+      "step": 500
+    },
+    {
+      "epoch": 1.4179825974863036,
+      "grad_norm": 2.675426697648005,
+      "learning_rate": 9.97670217821578e-06,
+      "loss": 2.0418,
+      "step": 550
+    },
+    {
+      "epoch": 1.5468901063486948,
+      "grad_norm": 2.1347946648640694,
+      "learning_rate": 9.971814748810192e-06,
+      "loss": 2.0001,
+      "step": 600
+    },
+    {
+      "epoch": 1.5468901063486948,
+      "eval_loss": 1.963959813117981,
+      "eval_runtime": 13.0814,
+      "eval_samples_per_second": 76.444,
+      "eval_steps_per_second": 2.446,
+      "step": 600
+    },
+    {
+      "epoch": 1.675797615211086,
+      "grad_norm": 2.8870637538075505,
+      "learning_rate": 9.96646388533797e-06,
+      "loss": 1.9743,
+      "step": 650
+    },
+    {
+      "epoch": 1.8047051240734773,
+      "grad_norm": 4.178579445918737,
+      "learning_rate": 9.960650142332914e-06,
+      "loss": 1.9717,
+      "step": 700
+    },
+    {
+      "epoch": 1.8047051240734773,
+      "eval_loss": 1.9353902339935303,
+      "eval_runtime": 13.1146,
+      "eval_samples_per_second": 76.251,
+      "eval_steps_per_second": 2.44,
+      "step": 700
+    },
+    {
+      "epoch": 1.9336126329358685,
+      "grad_norm": 2.199357001490578,
+      "learning_rate": 9.954374122299082e-06,
+      "loss": 1.9634,
+      "step": 750
+    },
+    {
+      "epoch": 2.06252014179826,
+      "grad_norm": 2.166363542050421,
+      "learning_rate": 9.947636475648373e-06,
+      "loss": 1.9475,
+      "step": 800
+    },
+    {
+      "epoch": 2.06252014179826,
+      "eval_loss": 1.9235832691192627,
+      "eval_runtime": 13.0977,
+      "eval_samples_per_second": 76.349,
+      "eval_steps_per_second": 2.443,
+      "step": 800
+    },
+    {
+      "epoch": 2.191427650660651,
+      "grad_norm": 2.467046686495788,
+      "learning_rate": 9.940437900633096e-06,
+      "loss": 1.9309,
+      "step": 850
+    },
+    {
+      "epoch": 2.3203351595230424,
+      "grad_norm": 2.855139647937512,
+      "learning_rate": 9.932779143273619e-06,
+      "loss": 1.9347,
+      "step": 900
+    },
+    {
+      "epoch": 2.3203351595230424,
+      "eval_loss": 1.9101444482803345,
+      "eval_runtime": 13.1292,
+      "eval_samples_per_second": 76.166,
+      "eval_steps_per_second": 2.437,
+      "step": 900
+    },
+    {
+      "epoch": 2.4492426683854336,
+      "grad_norm": 1.9014562925621068,
+      "learning_rate": 9.92466099728106e-06,
+      "loss": 1.9278,
+      "step": 950
+    },
+    {
+      "epoch": 2.578150177247825,
+      "grad_norm": 1.3665703880188187,
+      "learning_rate": 9.91608430397502e-06,
+      "loss": 1.9157,
+      "step": 1000
+    },
+    {
+      "epoch": 2.578150177247825,
+      "eval_loss": 1.8934762477874756,
+      "eval_runtime": 13.0864,
+      "eval_samples_per_second": 76.415,
+      "eval_steps_per_second": 2.445,
+      "step": 1000
+    },
+    {
+      "epoch": 2.707057686110216,
+      "grad_norm": 1.2319877018351602,
+      "learning_rate": 9.907049952196403e-06,
+      "loss": 1.9105,
+      "step": 1050
+    },
+    {
+      "epoch": 2.8359651949726072,
+      "grad_norm": 1.5481172638750316,
+      "learning_rate": 9.897558878215295e-06,
+      "loss": 1.907,
+      "step": 1100
+    },
+    {
+      "epoch": 2.8359651949726072,
+      "eval_loss": 1.8839563131332397,
+      "eval_runtime": 13.153,
+      "eval_samples_per_second": 76.028,
+      "eval_steps_per_second": 2.433,
+      "step": 1100
+    },
+    {
+      "epoch": 2.9648727038349985,
+      "grad_norm": 2.045794673210496,
+      "learning_rate": 9.887612065633936e-06,
+      "loss": 1.8945,
+      "step": 1150
+    },
+    {
+      "epoch": 3.0937802126973897,
+      "grad_norm": 1.1757006962680892,
+      "learning_rate": 9.877210545284792e-06,
+      "loss": 1.888,
+      "step": 1200
+    },
+    {
+      "epoch": 3.0937802126973897,
+      "eval_loss": 1.874881386756897,
+      "eval_runtime": 13.1346,
+      "eval_samples_per_second": 76.135,
+      "eval_steps_per_second": 2.436,
+      "step": 1200
+    },
+    {
+      "epoch": 3.222687721559781,
+      "grad_norm": 4.950973442850626,
+      "learning_rate": 9.86635539512371e-06,
+      "loss": 1.8811,
+      "step": 1250
+    },
+    {
+      "epoch": 3.351595230422172,
+      "grad_norm": 1.8124376039297767,
+      "learning_rate": 9.855047740118221e-06,
+      "loss": 1.876,
+      "step": 1300
+    },
+    {
+      "epoch": 3.351595230422172,
+      "eval_loss": 1.86701238155365,
+      "eval_runtime": 13.0772,
+      "eval_samples_per_second": 76.469,
+      "eval_steps_per_second": 2.447,
+      "step": 1300
+    },
+    {
+      "epoch": 3.4805027392845633,
+      "grad_norm": 1.0286338189260262,
+      "learning_rate": 9.843288752130942e-06,
+      "loss": 1.8683,
+      "step": 1350
+    },
+    {
+      "epoch": 3.6094102481469545,
+      "grad_norm": 1.9894455905335977,
+      "learning_rate": 9.831079649798138e-06,
+      "loss": 1.8731,
+      "step": 1400
+    },
+    {
+      "epoch": 3.6094102481469545,
+      "eval_loss": 1.8612475395202637,
+      "eval_runtime": 13.1177,
+      "eval_samples_per_second": 76.233,
+      "eval_steps_per_second": 2.439,
+      "step": 1400
+    },
+    {
+      "epoch": 3.7383177570093458,
+      "grad_norm": 1.7685619948548048,
+      "learning_rate": 9.818421698403429e-06,
+      "loss": 1.8648,
+      "step": 1450
+    },
+    {
+      "epoch": 3.867225265871737,
+      "grad_norm": 1.5478355130519232,
+      "learning_rate": 9.805316209746655e-06,
+      "loss": 1.8665,
+      "step": 1500
+    },
+    {
+      "epoch": 3.867225265871737,
+      "eval_loss": 1.8537719249725342,
+      "eval_runtime": 13.1085,
+      "eval_samples_per_second": 76.286,
+      "eval_steps_per_second": 2.441,
+      "step": 1500
+    },
+    {
+      "epoch": 3.996132774734128,
+      "grad_norm": 2.1355502302510447,
+      "learning_rate": 9.791764542007945e-06,
+      "loss": 1.8655,
+      "step": 1550
+    },
+    {
+      "epoch": 4.12504028359652,
+      "grad_norm": 1.1480708382569662,
+      "learning_rate": 9.777768099606938e-06,
+      "loss": 1.8346,
+      "step": 1600
+    },
+    {
+      "epoch": 4.12504028359652,
+      "eval_loss": 1.8495159149169922,
+      "eval_runtime": 13.1242,
+      "eval_samples_per_second": 76.195,
+      "eval_steps_per_second": 2.438,
+      "step": 1600
+    },
+    {
+      "epoch": 4.253947792458911,
+      "grad_norm": 1.4360213593754323,
+      "learning_rate": 9.763328333057263e-06,
+      "loss": 1.8265,
+      "step": 1650
+    },
+    {
+      "epoch": 4.382855301321302,
+      "grad_norm": 1.8676589580299272,
+      "learning_rate": 9.748446738816201e-06,
+      "loss": 1.8391,
+      "step": 1700
+    },
+    {
+      "epoch": 4.382855301321302,
+      "eval_loss": 1.8443361520767212,
+      "eval_runtime": 13.1311,
+      "eval_samples_per_second": 76.155,
+      "eval_steps_per_second": 2.437,
+      "step": 1700
+    },
+    {
+      "epoch": 4.5117628101836935,
+      "grad_norm": 1.2690786695530565,
+      "learning_rate": 9.733124859129598e-06,
+      "loss": 1.8434,
+      "step": 1750
+    },
+    {
+      "epoch": 4.640670319046085,
+      "grad_norm": 1.0388627604335856,
+      "learning_rate": 9.717364281872047e-06,
+      "loss": 1.842,
+      "step": 1800
+    },
+    {
+      "epoch": 4.640670319046085,
+      "eval_loss": 1.8362445831298828,
+      "eval_runtime": 13.1151,
+      "eval_samples_per_second": 76.248,
+      "eval_steps_per_second": 2.44,
+      "step": 1800
+    },
+    {
+      "epoch": 4.769577827908476,
+      "grad_norm": 1.8674582891348575,
+      "learning_rate": 9.701166640382317e-06,
+      "loss": 1.8308,
+      "step": 1850
+    },
+    {
+      "epoch": 4.898485336770867,
+      "grad_norm": 1.4621440377933717,
+      "learning_rate": 9.684533613294096e-06,
+      "loss": 1.8382,
+      "step": 1900
+    },
+    {
+      "epoch": 4.898485336770867,
+      "eval_loss": 1.831936240196228,
+      "eval_runtime": 13.0768,
+      "eval_samples_per_second": 76.472,
+      "eval_steps_per_second": 2.447,
+      "step": 1900
+    },
+    {
+      "epoch": 5.027392845633258,
+      "grad_norm": 1.0861177702948985,
+      "learning_rate": 9.667466924362013e-06,
+      "loss": 1.8308,
+      "step": 1950
+    },
+    {
+      "epoch": 5.15630035449565,
+      "grad_norm": 1.8095526457252593,
+      "learning_rate": 9.649968342283005e-06,
+      "loss": 1.8161,
+      "step": 2000
+    },
+    {
+      "epoch": 5.15630035449565,
+      "eval_loss": 1.829033374786377,
+      "eval_runtime": 13.067,
+      "eval_samples_per_second": 76.529,
+      "eval_steps_per_second": 2.449,
+      "step": 2000
+    },
+    {
+      "epoch": 5.285207863358041,
+      "grad_norm": 1.518641242728159,
+      "learning_rate": 9.632039680513024e-06,
+      "loss": 1.8007,
+      "step": 2050
+    },
+    {
+      "epoch": 5.414115372220432,
+      "grad_norm": 1.0542508895398046,
+      "learning_rate": 9.613682797079086e-06,
+      "loss": 1.7999,
+      "step": 2100
+    },
+    {
+      "epoch": 5.414115372220432,
+      "eval_loss": 1.8255321979522705,
+      "eval_runtime": 13.0764,
+      "eval_samples_per_second": 76.474,
+      "eval_steps_per_second": 2.447,
+      "step": 2100
+    },
+    {
+      "epoch": 5.543022881082823,
+      "grad_norm": 1.9568398940474616,
+      "learning_rate": 9.594899594386732e-06,
+      "loss": 1.8189,
+      "step": 2150
+    },
+    {
+      "epoch": 5.6719303899452145,
+      "grad_norm": 0.8933581069243784,
+      "learning_rate": 9.57569201902286e-06,
+      "loss": 1.8066,
+      "step": 2200
+    },
+    {
+      "epoch": 5.6719303899452145,
+      "eval_loss": 1.8212575912475586,
+      "eval_runtime": 13.0944,
+      "eval_samples_per_second": 76.369,
+      "eval_steps_per_second": 2.444,
+      "step": 2200
+    },
+    {
+      "epoch": 5.800837898807606,
+      "grad_norm": 0.7789642769876175,
+      "learning_rate": 9.556062061553995e-06,
+      "loss": 1.8068,
+      "step": 2250
+    },
+    {
+      "epoch": 5.929745407669997,
+      "grad_norm": 1.0394842073428503,
+      "learning_rate": 9.536011756320011e-06,
+      "loss": 1.8165,
+      "step": 2300
+    },
+    {
+      "epoch": 5.929745407669997,
+      "eval_loss": 1.8185018301010132,
+      "eval_runtime": 13.0777,
+      "eval_samples_per_second": 76.466,
+      "eval_steps_per_second": 2.447,
+      "step": 2300
+    },
+    {
+      "epoch": 6.058652916532388,
+      "grad_norm": 1.9360605440141716,
+      "learning_rate": 9.515543181223277e-06,
+      "loss": 1.7866,
+      "step": 2350
+    },
+    {
+      "epoch": 6.187560425394779,
+      "grad_norm": 1.2520661239107576,
+      "learning_rate": 9.494658457513341e-06,
+      "loss": 1.7824,
+      "step": 2400
+    },
+    {
+      "epoch": 6.187560425394779,
+      "eval_loss": 1.8156663179397583,
+      "eval_runtime": 13.1655,
+      "eval_samples_per_second": 75.956,
+      "eval_steps_per_second": 2.431,
+      "step": 2400
+    },
+    {
+      "epoch": 6.316467934257171,
+      "grad_norm": 1.000324849529494,
+      "learning_rate": 9.473359749567078e-06,
+      "loss": 1.7615,
+      "step": 2450
+    },
+    {
+      "epoch": 6.445375443119562,
+      "grad_norm": 1.3836801021717113,
+      "learning_rate": 9.451649264664393e-06,
+      "loss": 1.7862,
+      "step": 2500
+    },
+    {
+      "epoch": 6.445375443119562,
+      "eval_loss": 1.8142428398132324,
+      "eval_runtime": 13.1078,
+      "eval_samples_per_second": 76.29,
+      "eval_steps_per_second": 2.441,
+      "step": 2500
+    },
+    {
+      "epoch": 6.574282951981953,
+      "grad_norm": 1.185972658017016,
+      "learning_rate": 9.429529252759473e-06,
+      "loss": 1.7781,
+      "step": 2550
+    },
+    {
+      "epoch": 6.703190460844344,
+      "grad_norm": 1.3211128393117773,
+      "learning_rate": 9.407002006247607e-06,
+      "loss": 1.7938,
+      "step": 2600
+    },
+    {
+      "epoch": 6.703190460844344,
+      "eval_loss": 1.8131171464920044,
+      "eval_runtime": 13.1513,
+      "eval_samples_per_second": 76.038,
+      "eval_steps_per_second": 2.433,
+      "step": 2600
+    },
+    {
+      "epoch": 6.832097969706735,
+      "grad_norm": 0.8590841147093398,
+      "learning_rate": 9.38406985972762e-06,
+      "loss": 1.7819,
+      "step": 2650
+    },
+    {
+      "epoch": 6.961005478569127,
+      "grad_norm": 1.1002946939980542,
+      "learning_rate": 9.360735189759931e-06,
+      "loss": 1.779,
+      "step": 2700
+    },
+    {
+      "epoch": 6.961005478569127,
+      "eval_loss": 1.8070383071899414,
+      "eval_runtime": 13.1109,
+      "eval_samples_per_second": 76.272,
+      "eval_steps_per_second": 2.441,
+      "step": 2700
+    },
+    {
+      "epoch": 7.089912987431518,
+      "grad_norm": 0.817596374129843,
+      "learning_rate": 9.33700041462025e-06,
+      "loss": 1.753,
+      "step": 2750
+    },
+    {
+      "epoch": 7.218820496293909,
+      "grad_norm": 1.0808717745133152,
+      "learning_rate": 9.312867994048968e-06,
+      "loss": 1.7458,
+      "step": 2800
+    },
+    {
+      "epoch": 7.218820496293909,
+      "eval_loss": 1.8095868825912476,
+      "eval_runtime": 13.1323,
+      "eval_samples_per_second": 76.148,
+      "eval_steps_per_second": 2.437,
+      "step": 2800
+    },
+    {
+      "epoch": 7.3477280051563,
+      "grad_norm": 0.8442636870457885,
+      "learning_rate": 9.288340428996245e-06,
+      "loss": 1.757,
+      "step": 2850
+    },
+    {
+      "epoch": 7.4766355140186915,
+      "grad_norm": 1.0951706799923664,
+      "learning_rate": 9.263420261362819e-06,
+      "loss": 1.7664,
+      "step": 2900
+    },
+    {
+      "epoch": 7.4766355140186915,
+      "eval_loss": 1.8063181638717651,
+      "eval_runtime": 13.1116,
+      "eval_samples_per_second": 76.268,
+      "eval_steps_per_second": 2.441,
+      "step": 2900
+    },
+    {
+      "epoch": 7.605543022881083,
+      "grad_norm": 0.8139272254320195,
+      "learning_rate": 9.238110073736583e-06,
+      "loss": 1.761,
+      "step": 2950
+    },
+    {
+      "epoch": 7.734450531743474,
+      "grad_norm": 0.6888444622016576,
+      "learning_rate": 9.212412489124936e-06,
+      "loss": 1.7547,
+      "step": 3000
+    },
+    {
+      "epoch": 7.734450531743474,
+      "eval_loss": 1.8043750524520874,
+      "eval_runtime": 13.1107,
+      "eval_samples_per_second": 76.273,
+      "eval_steps_per_second": 2.441,
+      "step": 3000
+    },
+    {
+      "epoch": 7.863358040605865,
+      "grad_norm": 1.018729521686255,
+      "learning_rate": 9.186330170682957e-06,
+      "loss": 1.7442,
+      "step": 3050
+    },
+    {
+      "epoch": 7.992265549468256,
+      "grad_norm": 0.8799323123741036,
+      "learning_rate": 9.159865821437395e-06,
+      "loss": 1.7638,
+      "step": 3100
+    },
+    {
+      "epoch": 7.992265549468256,
+      "eval_loss": 1.8019227981567383,
+      "eval_runtime": 13.0997,
+      "eval_samples_per_second": 76.338,
+      "eval_steps_per_second": 2.443,
+      "step": 3100
+    },
+    {
+      "epoch": 8.121173058330648,
+      "grad_norm": 1.4687960864251868,
+      "learning_rate": 9.133022184006557e-06,
+      "loss": 1.731,
+      "step": 3150
+    },
+    {
+      "epoch": 8.25008056719304,
+      "grad_norm": 0.9161146205099422,
+      "learning_rate": 9.105802040316072e-06,
+      "loss": 1.7358,
+      "step": 3200
+    },
+    {
+      "epoch": 8.25008056719304,
+      "eval_loss": 1.8057516813278198,
+      "eval_runtime": 13.1035,
+      "eval_samples_per_second": 76.316,
+      "eval_steps_per_second": 2.442,
+      "step": 3200
+    },
+    {
+      "epoch": 8.37898807605543,
+      "grad_norm": 0.8698810995163442,
+      "learning_rate": 9.078208211310591e-06,
+      "loss": 1.7241,
+      "step": 3250
+    },
+    {
+      "epoch": 8.507895584917822,
+      "grad_norm": 0.9947966385810627,
+      "learning_rate": 9.050243556661431e-06,
+      "loss": 1.7311,
+      "step": 3300
+    },
+    {
+      "epoch": 8.507895584917822,
+      "eval_loss": 1.8024331331253052,
+      "eval_runtime": 13.1243,
+      "eval_samples_per_second": 76.194,
+      "eval_steps_per_second": 2.438,
+      "step": 3300
+    },
+    {
+      "epoch": 8.636803093780212,
+      "grad_norm": 1.2907987005361603,
+      "learning_rate": 9.021910974470226e-06,
+      "loss": 1.7335,
+      "step": 3350
+    },
+    {
+      "epoch": 8.765710602642605,
+      "grad_norm": 0.9547137254617599,
+      "learning_rate": 8.993213400968581e-06,
+      "loss": 1.7266,
+      "step": 3400
+    },
+    {
+      "epoch": 8.765710602642605,
+      "eval_loss": 1.799899697303772,
+      "eval_runtime": 13.1032,
+      "eval_samples_per_second": 76.317,
+      "eval_steps_per_second": 2.442,
+      "step": 3400
+    },
+    {
+      "epoch": 8.894618111504995,
+      "grad_norm": 1.5800053647243488,
+      "learning_rate": 8.96415381021377e-06,
+      "loss": 1.7251,
+      "step": 3450
+    },
+    {
+      "epoch": 9.023525620367387,
+      "grad_norm": 1.1497644242985878,
+      "learning_rate": 8.934735213780525e-06,
+      "loss": 1.7321,
+      "step": 3500
+    },
+    {
+      "epoch": 9.023525620367387,
+      "eval_loss": 1.8060522079467773,
+      "eval_runtime": 13.0546,
+      "eval_samples_per_second": 76.601,
+      "eval_steps_per_second": 2.451,
+      "step": 3500
+    },
+    {
+      "epoch": 9.152433129229777,
+      "grad_norm": 0.8880170559763843,
+      "learning_rate": 8.904960660448944e-06,
+      "loss": 1.6982,
+      "step": 3550
+    },
+    {
+      "epoch": 9.28134063809217,
+      "grad_norm": 0.906726525842874,
+      "learning_rate": 8.87483323588851e-06,
+      "loss": 1.6925,
+      "step": 3600
+    },
+    {
+      "epoch": 9.28134063809217,
+      "eval_loss": 1.8056344985961914,
+      "eval_runtime": 13.1162,
+      "eval_samples_per_second": 76.242,
+      "eval_steps_per_second": 2.44,
+      "step": 3600
+    },
+    {
+      "epoch": 9.41024814695456,
+      "grad_norm": 0.7387925861728116,
+      "learning_rate": 8.844356062338336e-06,
+      "loss": 1.7154,
+      "step": 3650
+    },
+    {
+      "epoch": 9.539155655816952,
+      "grad_norm": 0.8098820460727597,
+      "learning_rate": 8.813532298283564e-06,
+      "loss": 1.7064,
+      "step": 3700
+    },
+    {
+      "epoch": 9.539155655816952,
+      "eval_loss": 1.8040461540222168,
+      "eval_runtime": 13.3504,
+      "eval_samples_per_second": 74.904,
+      "eval_steps_per_second": 2.397,
+      "step": 3700
+    },
+    {
+      "epoch": 9.668063164679342,
+      "grad_norm": 1.4812013438287208,
+      "learning_rate": 8.782365138128063e-06,
+      "loss": 1.7056,
+      "step": 3750
+    },
+    {
+      "epoch": 9.796970673541734,
+      "grad_norm": 1.4075421003153479,
+      "learning_rate": 8.750857811863372e-06,
+      "loss": 1.7055,
+      "step": 3800
+    },
+    {
+      "epoch": 9.796970673541734,
+      "eval_loss": 1.8006582260131836,
+      "eval_runtime": 13.1096,
+      "eval_samples_per_second": 76.28,
+      "eval_steps_per_second": 2.441,
+      "step": 3800
+    },
+    {
+      "epoch": 9.925878182404125,
+      "grad_norm": 0.979257993376132,
+      "learning_rate": 8.719013584733945e-06,
+      "loss": 1.7063,
+      "step": 3850
+    },
+    {
+      "epoch": 10.054785691266517,
+      "grad_norm": 1.0323392882881646,
+      "learning_rate": 8.68683575689878e-06,
+      "loss": 1.6982,
+      "step": 3900
+    },
+    {
+      "epoch": 10.054785691266517,
+      "eval_loss": 1.8088464736938477,
+      "eval_runtime": 13.1055,
+      "eval_samples_per_second": 76.304,
+      "eval_steps_per_second": 2.442,
+      "step": 3900
+    },
+    {
+      "epoch": 10.183693200128907,
+      "grad_norm": 0.8432865973087528,
+      "learning_rate": 8.654327663089404e-06,
+      "loss": 1.6697,
+      "step": 3950
+    },
+    {
+      "epoch": 10.3126007089913,
+      "grad_norm": 0.8501654365913497,
+      "learning_rate": 8.621492672264272e-06,
+      "loss": 1.6763,
+      "step": 4000
+    },
+    {
+      "epoch": 10.3126007089913,
+      "eval_loss": 1.80279541015625,
+      "eval_runtime": 13.176,
+      "eval_samples_per_second": 75.895,
+      "eval_steps_per_second": 2.429,
+      "step": 4000
+    },
+    {
+      "epoch": 10.44150821785369,
+      "grad_norm": 1.1664099220060633,
+      "learning_rate": 8.588334187259633e-06,
+      "loss": 1.6771,
+      "step": 4050
+    },
+    {
+      "epoch": 10.570415726716082,
+      "grad_norm": 0.9070460424097603,
+      "learning_rate": 8.554855644436876e-06,
+      "loss": 1.682,
+      "step": 4100
+    },
+    {
+      "epoch": 10.570415726716082,
+      "eval_loss": 1.8029946088790894,
+      "eval_runtime": 13.1056,
+      "eval_samples_per_second": 76.303,
+      "eval_steps_per_second": 2.442,
+      "step": 4100
+    },
+    {
+      "epoch": 10.699323235578472,
+      "grad_norm": 0.7662785544399567,
+      "learning_rate": 8.521060513326407e-06,
+      "loss": 1.681,
+      "step": 4150
+    },
+    {
+      "epoch": 10.828230744440864,
+      "grad_norm": 0.9591176236420089,
+      "learning_rate": 8.48695229626809e-06,
+      "loss": 1.6872,
+      "step": 4200
+    },
+    {
+      "epoch": 10.828230744440864,
+      "eval_loss": 1.8036599159240723,
+      "eval_runtime": 13.088,
+      "eval_samples_per_second": 76.406,
+      "eval_steps_per_second": 2.445,
+      "step": 4200
+    },
+    {
+      "epoch": 10.957138253303254,
+      "grad_norm": 0.943339564774533,
+      "learning_rate": 8.452534528048275e-06,
+      "loss": 1.6868,
+      "step": 4250
+    },
+    {
+      "epoch": 11.086045762165647,
+      "grad_norm": 0.7414322441654991,
+      "learning_rate": 8.417810775533475e-06,
+      "loss": 1.6488,
+      "step": 4300
+    },
+    {
+      "epoch": 11.086045762165647,
+      "eval_loss": 1.813919186592102,
+      "eval_runtime": 13.1081,
+      "eval_samples_per_second": 76.288,
+      "eval_steps_per_second": 2.441,
+      "step": 4300
+    },
+    {
+      "epoch": 11.214953271028037,
+      "grad_norm": 0.6902822159292165,
+      "learning_rate": 8.38278463730072e-06,
+      "loss": 1.6577,
+      "step": 4350
+    },
+    {
+      "epoch": 11.343860779890429,
+      "grad_norm": 0.9780746917670575,
+      "learning_rate": 8.34745974326462e-06,
+      "loss": 1.6536,
+      "step": 4400
+    },
+    {
+      "epoch": 11.343860779890429,
+      "eval_loss": 1.8024951219558716,
+      "eval_runtime": 13.0832,
+      "eval_samples_per_second": 76.434,
+      "eval_steps_per_second": 2.446,
+      "step": 4400
+    },
+    {
+      "epoch": 11.47276828875282,
+      "grad_norm": 0.7950931841673834,
+      "learning_rate": 8.311839754301177e-06,
+      "loss": 1.6462,
+      "step": 4450
+    },
+    {
+      "epoch": 11.601675797615211,
+      "grad_norm": 0.9131614430555427,
+      "learning_rate": 8.27592836186839e-06,
+      "loss": 1.6522,
+      "step": 4500
+    },
+    {
+      "epoch": 11.601675797615211,
+      "eval_loss": 1.8098039627075195,
+      "eval_runtime": 13.1139,
+      "eval_samples_per_second": 76.255,
+      "eval_steps_per_second": 2.44,
+      "step": 4500
+    },
+    {
+      "epoch": 11.730583306477602,
+      "grad_norm": 0.8580977622623023,
+      "learning_rate": 8.239729287623703e-06,
+      "loss": 1.6627,
+      "step": 4550
+    },
+    {
+      "epoch": 11.859490815339994,
+      "grad_norm": 0.7817532513421999,
+      "learning_rate": 8.2032462830383e-06,
+      "loss": 1.6507,
+      "step": 4600
+    },
+    {
+      "epoch": 11.859490815339994,
+      "eval_loss": 1.8016694784164429,
+      "eval_runtime": 13.0936,
+      "eval_samples_per_second": 76.373,
+      "eval_steps_per_second": 2.444,
+      "step": 4600
+    },
+    {
+      "epoch": 11.988398324202384,
+      "grad_norm": 0.8340792199465882,
+      "learning_rate": 8.166483129008336e-06,
+      "loss": 1.6449,
+      "step": 4650
+    },
+    {
+      "epoch": 12.117305833064776,
+      "grad_norm": 0.8239168104274184,
+      "learning_rate": 8.129443635463095e-06,
+      "loss": 1.6331,
+      "step": 4700
+    },
+    {
+      "epoch": 12.117305833064776,
+      "eval_loss": 1.8266417980194092,
+      "eval_runtime": 13.0933,
+      "eval_samples_per_second": 76.375,
+      "eval_steps_per_second": 2.444,
+      "step": 4700
+    },
+    {
+      "epoch": 12.246213341927167,
+      "grad_norm": 0.7643985140243877,
+      "learning_rate": 8.09213164097016e-06,
+      "loss": 1.6214,
+      "step": 4750
+    },
+    {
+      "epoch": 12.375120850789559,
+      "grad_norm": 1.0119935939026563,
+      "learning_rate": 8.054551012337596e-06,
+      "loss": 1.6293,
+      "step": 4800
+    },
+    {
+      "epoch": 12.375120850789559,
+      "eval_loss": 1.814489483833313,
+      "eval_runtime": 13.1362,
+      "eval_samples_per_second": 76.126,
+      "eval_steps_per_second": 2.436,
+      "step": 4800
+    },
+    {
+      "epoch": 12.504028359651949,
+      "grad_norm": 0.99601935123506,
+      "learning_rate": 8.016705644213221e-06,
+      "loss": 1.6158,
+      "step": 4850
+    },
+    {
+      "epoch": 12.632935868514341,
+      "grad_norm": 1.225151026027347,
+      "learning_rate": 7.978599458680985e-06,
+      "loss": 1.6182,
+      "step": 4900
+    },
+    {
+      "epoch": 12.632935868514341,
+      "eval_loss": 1.810306429862976,
+      "eval_runtime": 13.0809,
+      "eval_samples_per_second": 76.447,
+      "eval_steps_per_second": 2.446,
+      "step": 4900
+    },
+    {
+      "epoch": 12.761843377376731,
+      "grad_norm": 1.040904252547746,
+      "learning_rate": 7.940236404854507e-06,
+      "loss": 1.6243,
+      "step": 4950
+    },
+    {
+      "epoch": 12.890750886239124,
+      "grad_norm": 0.9212298706701382,
+      "learning_rate": 7.90162045846781e-06,
+      "loss": 1.6299,
+      "step": 5000
+    },
+    {
+      "epoch": 12.890750886239124,
+      "eval_loss": 1.8085706233978271,
+      "eval_runtime": 13.2034,
+      "eval_samples_per_second": 75.738,
+      "eval_steps_per_second": 2.424,
+      "step": 5000
+    },
+    {
+      "epoch": 13.019658395101514,
+      "grad_norm": 1.016215886840131,
+      "learning_rate": 7.862755621463297e-06,
+      "loss": 1.6146,
+      "step": 5050
+    },
+    {
+      "epoch": 13.148565903963906,
+      "grad_norm": 0.8507288565788963,
+      "learning_rate": 7.82364592157702e-06,
+      "loss": 1.5878,
+      "step": 5100
+    },
+    {
+      "epoch": 13.148565903963906,
+      "eval_loss": 1.8241174221038818,
+      "eval_runtime": 13.0743,
+      "eval_samples_per_second": 76.486,
+      "eval_steps_per_second": 2.448,
+      "step": 5100
+    },
+    {
+      "epoch": 13.277473412826296,
+      "grad_norm": 1.024179978710285,
+      "learning_rate": 7.784295411921257e-06,
+      "loss": 1.6007,
+      "step": 5150
+    },
+    {
+      "epoch": 13.406380921688688,
+      "grad_norm": 1.2442840596634375,
+      "learning_rate": 7.744708170564469e-06,
+      "loss": 1.5849,
+      "step": 5200
+    },
+    {
+      "epoch": 13.406380921688688,
+      "eval_loss": 1.825802206993103,
+      "eval_runtime": 13.1159,
+      "eval_samples_per_second": 76.243,
+      "eval_steps_per_second": 2.44,
+      "step": 5200
+    },
+    {
+      "epoch": 13.535288430551079,
+      "grad_norm": 0.8693889427119043,
+      "learning_rate": 7.704888300108685e-06,
+      "loss": 1.5874,
+      "step": 5250
+    },
+    {
+      "epoch": 13.66419593941347,
+      "grad_norm": 0.9676377649082106,
+      "learning_rate": 7.664839927264321e-06,
+      "loss": 1.5921,
+      "step": 5300
+    },
+    {
+      "epoch": 13.66419593941347,
+      "eval_loss": 1.8196028470993042,
+      "eval_runtime": 13.1145,
+      "eval_samples_per_second": 76.251,
+      "eval_steps_per_second": 2.44,
+      "step": 5300
+    },
+    {
+      "epoch": 13.793103448275861,
+      "grad_norm": 0.6741366122265058,
+      "learning_rate": 7.624567202422511e-06,
+      "loss": 1.6057,
+      "step": 5350
+    },
+    {
+      "epoch": 13.922010957138253,
+      "grad_norm": 1.5084627705228644,
+      "learning_rate": 7.584074299224987e-06,
+      "loss": 1.5998,
+      "step": 5400
+    },
+    {
+      "epoch": 13.922010957138253,
+      "eval_loss": 1.811599612236023,
+      "eval_runtime": 13.1086,
+      "eval_samples_per_second": 76.286,
+      "eval_steps_per_second": 2.441,
+      "step": 5400
+    },
+    {
+      "epoch": 14.050918466000645,
+      "grad_norm": 0.8148594444230733,
+      "learning_rate": 7.54336541413154e-06,
+      "loss": 1.5786,
+      "step": 5450
+    },
+    {
+      "epoch": 14.179825974863036,
+      "grad_norm": 0.8325328348802723,
+      "learning_rate": 7.50244476598513e-06,
+      "loss": 1.5453,
+      "step": 5500
+    },
+    {
+      "epoch": 14.179825974863036,
+      "eval_loss": 1.8314226865768433,
+      "eval_runtime": 13.0955,
+      "eval_samples_per_second": 76.362,
+      "eval_steps_per_second": 2.444,
+      "step": 5500
+    },
+    {
+      "epoch": 14.308733483725428,
+      "grad_norm": 0.8986639419383302,
+      "learning_rate": 7.461316595574665e-06,
+      "loss": 1.5666,
+      "step": 5550
+    },
+    {
+      "epoch": 14.437640992587818,
+      "grad_norm": 0.8147864226040537,
+      "learning_rate": 7.419985165195506e-06,
+      "loss": 1.5652,
+      "step": 5600
+    },
+    {
+      "epoch": 14.437640992587818,
+      "eval_loss": 1.8322137594223022,
+      "eval_runtime": 13.1175,
+      "eval_samples_per_second": 76.234,
+      "eval_steps_per_second": 2.439,
+      "step": 5600
+    },
+    {
+      "epoch": 14.56654850145021,
+      "grad_norm": 1.0110608553329041,
+      "learning_rate": 7.378454758207753e-06,
+      "loss": 1.5698,
+      "step": 5650
+    },
+    {
+      "epoch": 14.6954560103126,
+      "grad_norm": 1.2308319616685042,
+      "learning_rate": 7.3367296785923325e-06,
+      "loss": 1.5604,
+      "step": 5700
+    },
+    {
+      "epoch": 14.6954560103126,
+      "eval_loss": 1.827386736869812,
+      "eval_runtime": 13.1201,
+      "eval_samples_per_second": 76.219,
+      "eval_steps_per_second": 2.439,
+      "step": 5700
+    },
+    {
+      "epoch": 14.824363519174993,
+      "grad_norm": 0.83397364350197,
+      "learning_rate": 7.294814250504968e-06,
+      "loss": 1.5719,
+      "step": 5750
+    },
+    {
+      "epoch": 14.953271028037383,
+      "grad_norm": 1.017237046856153,
+      "learning_rate": 7.2527128178280385e-06,
+      "loss": 1.564,
+      "step": 5800
+    },
+    {
+      "epoch": 14.953271028037383,
+      "eval_loss": 1.8239232301712036,
+      "eval_runtime": 13.1213,
+      "eval_samples_per_second": 76.212,
+      "eval_steps_per_second": 2.439,
+      "step": 5800
+    },
+    {
+      "epoch": 15.082178536899775,
+      "grad_norm": 0.8448512325036583,
+      "learning_rate": 7.210429743720406e-06,
+      "loss": 1.5481,
+      "step": 5850
+    },
+    {
+      "epoch": 15.211086045762165,
+      "grad_norm": 0.991851379910471,
+      "learning_rate": 7.1679694101652456e-06,
+      "loss": 1.5169,
+      "step": 5900
+    },
+    {
+      "epoch": 15.211086045762165,
+      "eval_loss": 1.845729947090149,
+      "eval_runtime": 13.1225,
+      "eval_samples_per_second": 76.205,
+      "eval_steps_per_second": 2.439,
+      "step": 5900
+    },
+    {
+      "epoch": 15.339993554624558,
+      "grad_norm": 0.8617346894461302,
+      "learning_rate": 7.125336217515915e-06,
+      "loss": 1.5365,
+      "step": 5950
+    },
+    {
+      "epoch": 15.468901063486948,
+      "grad_norm": 0.8688263857447182,
+      "learning_rate": 7.0825345840399304e-06,
+      "loss": 1.5252,
+      "step": 6000
+    },
+    {
+      "epoch": 15.468901063486948,
+      "eval_loss": 1.839852213859558,
+      "eval_runtime": 13.1128,
+      "eval_samples_per_second": 76.261,
+      "eval_steps_per_second": 2.44,
+      "step": 6000
+    },
+    {
+      "epoch": 15.59780857234934,
+      "grad_norm": 0.8910198236996372,
+      "learning_rate": 7.039568945461083e-06,
+      "loss": 1.5398,
+      "step": 6050
+    },
+    {
+      "epoch": 15.72671608121173,
+      "grad_norm": 0.753788589163205,
+      "learning_rate": 6.996443754499736e-06,
+      "loss": 1.5336,
+      "step": 6100
+    },
+    {
+      "epoch": 15.72671608121173,
+      "eval_loss": 1.8329018354415894,
+      "eval_runtime": 13.1393,
+      "eval_samples_per_second": 76.108,
+      "eval_steps_per_second": 2.435,
+      "step": 6100
+    },
+    {
+      "epoch": 15.855623590074122,
+      "grad_norm": 0.9222068081751881,
+      "learning_rate": 6.953163480411384e-06,
+      "loss": 1.5384,
+      "step": 6150
+    },
+    {
+      "epoch": 15.984531098936513,
+      "grad_norm": 0.8435052416960613,
+      "learning_rate": 6.90973260852347e-06,
+      "loss": 1.5377,
+      "step": 6200
+    },
+    {
+      "epoch": 15.984531098936513,
+      "eval_loss": 1.8316997289657593,
+      "eval_runtime": 13.0918,
+      "eval_samples_per_second": 76.384,
+      "eval_steps_per_second": 2.444,
+      "step": 6200
+    },
+    {
+      "epoch": 16.113438607798905,
+      "grad_norm": 0.8255282547767133,
+      "learning_rate": 6.866155639770564e-06,
+      "loss": 1.4974,
+      "step": 6250
+    },
+    {
+      "epoch": 16.242346116661295,
+      "grad_norm": 1.1202314084000016,
+      "learning_rate": 6.822437090227899e-06,
+      "loss": 1.4917,
+      "step": 6300
+    },
+    {
+      "epoch": 16.242346116661295,
+      "eval_loss": 1.8470591306686401,
+      "eval_runtime": 13.0488,
+      "eval_samples_per_second": 76.635,
+      "eval_steps_per_second": 2.452,
+      "step": 6300
+    },
+    {
+      "epoch": 16.371253625523686,
+      "grad_norm": 1.1067402435986409,
+      "learning_rate": 6.778581490643356e-06,
+      "loss": 1.5019,
+      "step": 6350
+    },
+    {
+      "epoch": 16.50016113438608,
+      "grad_norm": 1.035089975228066,
+      "learning_rate": 6.734593385967922e-06,
+      "loss": 1.4978,
+      "step": 6400
+    },
+    {
+      "epoch": 16.50016113438608,
+      "eval_loss": 1.8545982837677002,
+      "eval_runtime": 13.1275,
+      "eval_samples_per_second": 76.176,
+      "eval_steps_per_second": 2.438,
+      "step": 6400
+    },
+    {
+      "epoch": 16.62906864324847,
+      "grad_norm": 0.9864613573632077,
+      "learning_rate": 6.69047733488468e-06,
+      "loss": 1.5048,
+      "step": 6450
+    },
+    {
+      "epoch": 16.75797615211086,
+      "grad_norm": 0.8011212795960846,
+      "learning_rate": 6.646237909336365e-06,
+      "loss": 1.5136,
+      "step": 6500
+    },
+    {
+      "epoch": 16.75797615211086,
+      "eval_loss": 1.8443132638931274,
+      "eval_runtime": 13.0942,
+      "eval_samples_per_second": 76.37,
+      "eval_steps_per_second": 2.444,
+      "step": 6500
+    },
+    {
+      "epoch": 16.88688366097325,
+      "grad_norm": 0.9081418105592024,
+      "learning_rate": 6.601879694051557e-06,
+      "loss": 1.4962,
+      "step": 6550
+    },
+    {
+      "epoch": 17.015791169835644,
+      "grad_norm": 0.8491749805263702,
+      "learning_rate": 6.557407286069546e-06,
+      "loss": 1.4996,
+      "step": 6600
+    },
+    {
+      "epoch": 17.015791169835644,
+      "eval_loss": 1.8673546314239502,
+      "eval_runtime": 13.0727,
+      "eval_samples_per_second": 76.495,
+      "eval_steps_per_second": 2.448,
+      "step": 6600
+    },
+    {
+      "epoch": 17.144698678698035,
+      "grad_norm": 0.8968797374676718,
+      "learning_rate": 6.51282529426392e-06,
+      "loss": 1.4649,
+      "step": 6650
+    },
+    {
+      "epoch": 17.273606187560425,
+      "grad_norm": 1.061710877549343,
+      "learning_rate": 6.468138338864928e-06,
+      "loss": 1.456,
+      "step": 6700
+    },
+    {
+      "epoch": 17.273606187560425,
+      "eval_loss": 1.869613766670227,
+      "eval_runtime": 13.0951,
+      "eval_samples_per_second": 76.364,
+      "eval_steps_per_second": 2.444,
+      "step": 6700
+    },
+    {
+      "epoch": 17.402513696422815,
+      "grad_norm": 0.863648182900651,
+      "learning_rate": 6.423351050980658e-06,
+      "loss": 1.4674,
+      "step": 6750
+    },
+    {
+      "epoch": 17.53142120528521,
+      "grad_norm": 0.8121866842565606,
+      "learning_rate": 6.378468072117103e-06,
+      "loss": 1.4684,
+      "step": 6800
+    },
+    {
+      "epoch": 17.53142120528521,
+      "eval_loss": 1.8640128374099731,
+      "eval_runtime": 13.1441,
+      "eval_samples_per_second": 76.08,
+      "eval_steps_per_second": 2.435,
+      "step": 6800
+    },
+    {
+      "epoch": 17.6603287141476,
+      "grad_norm": 0.8716441132113181,
+      "learning_rate": 6.333494053697144e-06,
+      "loss": 1.4722,
+      "step": 6850
+    },
+    {
+      "epoch": 17.78923622300999,
+      "grad_norm": 0.9050040917984743,
+      "learning_rate": 6.2884336565784844e-06,
+      "loss": 1.4738,
+      "step": 6900
+    },
+    {
+      "epoch": 17.78923622300999,
+      "eval_loss": 1.8611843585968018,
+      "eval_runtime": 13.1093,
+      "eval_samples_per_second": 76.282,
+      "eval_steps_per_second": 2.441,
+      "step": 6900
+    },
+    {
+      "epoch": 17.91814373187238,
+      "grad_norm": 0.8219195968728913,
+      "learning_rate": 6.243291550570646e-06,
+      "loss": 1.4759,
+      "step": 6950
+    },
+    {
+      "epoch": 18.047051240734774,
+      "grad_norm": 0.8968555498090209,
+      "learning_rate": 6.198072413951003e-06,
+      "loss": 1.4692,
+      "step": 7000
+    },
+    {
+      "epoch": 18.047051240734774,
+      "eval_loss": 1.8846936225891113,
+      "eval_runtime": 13.1006,
+      "eval_samples_per_second": 76.333,
+      "eval_steps_per_second": 2.443,
+      "step": 7000
+    },
+    {
+      "epoch": 18.175958749597164,
+      "grad_norm": 0.8509462053548709,
+      "learning_rate": 6.152780932979958e-06,
+      "loss": 1.4259,
+      "step": 7050
+    },
+    {
+      "epoch": 18.304866258459555,
+      "grad_norm": 0.9076017430691964,
+      "learning_rate": 6.107421801415276e-06,
+      "loss": 1.4358,
+      "step": 7100
+    },
+    {
+      "epoch": 18.304866258459555,
+      "eval_loss": 1.8765053749084473,
+      "eval_runtime": 13.1018,
+      "eval_samples_per_second": 76.325,
+      "eval_steps_per_second": 2.442,
+      "step": 7100
+    },
+    {
+      "epoch": 18.433773767321945,
+      "grad_norm": 0.8562730054432324,
+      "learning_rate": 6.061999720025652e-06,
+      "loss": 1.4462,
+      "step": 7150
+    },
+    {
+      "epoch": 18.56268127618434,
+      "grad_norm": 1.00264838430647,
+      "learning_rate": 6.016519396103563e-06,
+      "loss": 1.4401,
+      "step": 7200
+    },
+    {
+      "epoch": 18.56268127618434,
+      "eval_loss": 1.8765212297439575,
+      "eval_runtime": 13.0984,
+      "eval_samples_per_second": 76.345,
+      "eval_steps_per_second": 2.443,
+      "step": 7200
+    },
+    {
+      "epoch": 18.69158878504673,
+      "grad_norm": 0.8941925235529732,
+      "learning_rate": 5.970985542977409e-06,
+      "loss": 1.4315,
+      "step": 7250
+    },
+    {
+      "epoch": 18.82049629390912,
+      "grad_norm": 0.8718684839162186,
+      "learning_rate": 5.9254028795230615e-06,
+      "loss": 1.4481,
+      "step": 7300
+    },
+    {
+      "epoch": 18.82049629390912,
+      "eval_loss": 1.8752508163452148,
+      "eval_runtime": 13.1037,
+      "eval_samples_per_second": 76.314,
+      "eval_steps_per_second": 2.442,
+      "step": 7300
+    },
+    {
+      "epoch": 18.94940380277151,
+      "grad_norm": 0.9196618410224454,
+      "learning_rate": 5.879776129674822e-06,
+      "loss": 1.4439,
+      "step": 7350
+    },
+    {
+      "epoch": 19.078311311633904,
+      "grad_norm": 0.969183621930605,
+      "learning_rate": 5.834110021935869e-06,
+      "loss": 1.415,
+      "step": 7400
+    },
+    {
+      "epoch": 19.078311311633904,
+      "eval_loss": 1.9027526378631592,
+      "eval_runtime": 13.0881,
+      "eval_samples_per_second": 76.405,
+      "eval_steps_per_second": 2.445,
+      "step": 7400
+    },
+    {
+      "epoch": 19.207218820496294,
+      "grad_norm": 0.8803542605017249,
+      "learning_rate": 5.788409288888208e-06,
+      "loss": 1.4057,
+      "step": 7450
+    },
+    {
+      "epoch": 19.336126329358684,
+      "grad_norm": 0.9889093531070912,
+      "learning_rate": 5.742678666702217e-06,
+      "loss": 1.404,
+      "step": 7500
+    },
+    {
+      "epoch": 19.336126329358684,
+      "eval_loss": 1.8964511156082153,
+      "eval_runtime": 13.1071,
+      "eval_samples_per_second": 76.295,
+      "eval_steps_per_second": 2.441,
+      "step": 7500
+    },
+    {
+      "epoch": 19.465033838221075,
+      "grad_norm": 0.8854902043952496,
+      "learning_rate": 5.6969228946458235e-06,
+      "loss": 1.4087,
+      "step": 7550
+    },
+    {
+      "epoch": 19.59394134708347,
+      "grad_norm": 0.8251240514450762,
+      "learning_rate": 5.651146714593347e-06,
+      "loss": 1.4036,
+      "step": 7600
+    },
+    {
+      "epoch": 19.59394134708347,
+      "eval_loss": 1.8886168003082275,
+      "eval_runtime": 13.093,
+      "eval_samples_per_second": 76.376,
+      "eval_steps_per_second": 2.444,
+      "step": 7600
+    },
+    {
+      "epoch": 19.72284885594586,
+      "grad_norm": 0.8768518320833244,
+      "learning_rate": 5.6053548705340785e-06,
+      "loss": 1.414,
+      "step": 7650
+    },
+    {
+      "epoch": 19.85175636480825,
+      "grad_norm": 1.1878402098476228,
+      "learning_rate": 5.5595521080806354e-06,
+      "loss": 1.4162,
+      "step": 7700
+    },
+    {
+      "epoch": 19.85175636480825,
+      "eval_loss": 1.888206124305725,
+      "eval_runtime": 13.0782,
+      "eval_samples_per_second": 76.463,
+      "eval_steps_per_second": 2.447,
+      "step": 7700
+    },
+    {
+      "epoch": 19.98066387367064,
+      "grad_norm": 0.9206061338674242,
+      "learning_rate": 5.513743173977166e-06,
+      "loss": 1.4041,
+      "step": 7750
+    },
+    {
+      "epoch": 20.109571382533034,
+      "grad_norm": 0.9268495722130361,
+      "learning_rate": 5.467932815607406e-06,
+      "loss": 1.3821,
+      "step": 7800
+    },
+    {
+      "epoch": 20.109571382533034,
+      "eval_loss": 1.914821743965149,
+      "eval_runtime": 13.0782,
+      "eval_samples_per_second": 76.463,
+      "eval_steps_per_second": 2.447,
+      "step": 7800
+    },
+    {
+      "epoch": 20.238478891395424,
+      "grad_norm": 0.9314251280928757,
+      "learning_rate": 5.422125780502695e-06,
+      "loss": 1.3625,
+      "step": 7850
+    },
+    {
+      "epoch": 20.367386400257814,
+      "grad_norm": 0.9834206690356971,
+      "learning_rate": 5.376326815849974e-06,
+      "loss": 1.3844,
+      "step": 7900
+    },
+    {
+      "epoch": 20.367386400257814,
+      "eval_loss": 1.9019452333450317,
+      "eval_runtime": 13.0804,
+      "eval_samples_per_second": 76.45,
+      "eval_steps_per_second": 2.446,
+      "step": 7900
+    },
+    {
+      "epoch": 20.496293909120205,
+      "grad_norm": 0.9202380609406811,
+      "learning_rate": 5.3305406679998e-06,
+      "loss": 1.3735,
+      "step": 7950
+    },
+    {
+      "epoch": 20.6252014179826,
+      "grad_norm": 0.9293412489906648,
+      "learning_rate": 5.284772081974469e-06,
+      "loss": 1.3809,
+      "step": 8000
+    },
+    {
+      "epoch": 20.6252014179826,
+      "eval_loss": 1.9029994010925293,
+      "eval_runtime": 13.0929,
+      "eval_samples_per_second": 76.377,
+      "eval_steps_per_second": 2.444,
+      "step": 8000
+    },
+    {
+      "epoch": 20.75410892684499,
+      "grad_norm": 0.9753566867301083,
+      "learning_rate": 5.239025800976272e-06,
+      "loss": 1.3836,
+      "step": 8050
+    },
+    {
+      "epoch": 20.88301643570738,
+      "grad_norm": 0.8866530024802765,
+      "learning_rate": 5.193306565895924e-06,
+      "loss": 1.3822,
+      "step": 8100
+    },
+    {
+      "epoch": 20.88301643570738,
+      "eval_loss": 1.903949499130249,
+      "eval_runtime": 13.0896,
+      "eval_samples_per_second": 76.396,
+      "eval_steps_per_second": 2.445,
+      "step": 8100
+    },
+    {
+      "epoch": 21.01192394456977,
+      "grad_norm": 0.9726372975664542,
+      "learning_rate": 5.147619114821259e-06,
+      "loss": 1.3785,
+      "step": 8150
+    },
+    {
+      "epoch": 21.140831453432163,
+      "grad_norm": 0.969333565402859,
+      "learning_rate": 5.101968182546183e-06,
+      "loss": 1.325,
+      "step": 8200
+    },
+    {
+      "epoch": 21.140831453432163,
+      "eval_loss": 1.9317421913146973,
+      "eval_runtime": 13.0676,
+      "eval_samples_per_second": 76.525,
+      "eval_steps_per_second": 2.449,
+      "step": 8200
+    },
+    {
+      "epoch": 21.269738962294554,
+      "grad_norm": 1.0018247476403936,
+      "learning_rate": 5.056358500080005e-06,
+      "loss": 1.3488,
+      "step": 8250
+    },
+    {
+      "epoch": 21.398646471156944,
+      "grad_norm": 1.0273151845889739,
+      "learning_rate": 5.01079479415713e-06,
+      "loss": 1.3545,
+      "step": 8300
+    },
+    {
+      "epoch": 21.398646471156944,
+      "eval_loss": 1.9243229627609253,
+      "eval_runtime": 13.0555,
+      "eval_samples_per_second": 76.596,
+      "eval_steps_per_second": 2.451,
+      "step": 8300
+    },
+    {
+      "epoch": 21.527553980019338,
+      "grad_norm": 1.0068942448714413,
+      "learning_rate": 4.965281786747206e-06,
+      "loss": 1.3453,
+      "step": 8350
+    },
+    {
+      "epoch": 21.656461488881728,
+      "grad_norm": 1.0092558633834159,
+      "learning_rate": 4.919824194565772e-06,
+      "loss": 1.3555,
+      "step": 8400
+    },
+    {
+      "epoch": 21.656461488881728,
+      "eval_loss": 1.92406165599823,
+      "eval_runtime": 13.0853,
+      "eval_samples_per_second": 76.421,
+      "eval_steps_per_second": 2.445,
+      "step": 8400
+    },
+    {
+      "epoch": 21.78536899774412,
+      "grad_norm": 0.931003138871065,
+      "learning_rate": 4.874426728585441e-06,
+      "loss": 1.3555,
+      "step": 8450
+    },
+    {
+      "epoch": 21.91427650660651,
+      "grad_norm": 1.0891403408294589,
+      "learning_rate": 4.829094093547675e-06,
+      "loss": 1.3602,
+      "step": 8500
+    },
+    {
+      "epoch": 21.91427650660651,
+      "eval_loss": 1.9252684116363525,
+      "eval_runtime": 13.1173,
+      "eval_samples_per_second": 76.235,
+      "eval_steps_per_second": 2.44,
+      "step": 8500
+    },
+    {
+      "epoch": 22.043184015468903,
+      "grad_norm": 0.9323719235909985,
+      "learning_rate": 4.783830987475222e-06,
+      "loss": 1.3323,
+      "step": 8550
+    },
+    {
+      "epoch": 22.172091524331293,
+      "grad_norm": 0.8826162549660432,
+      "learning_rate": 4.738642101185233e-06,
+      "loss": 1.3111,
+      "step": 8600
+    },
+    {
+      "epoch": 22.172091524331293,
+      "eval_loss": 1.9436485767364502,
+      "eval_runtime": 13.1531,
+      "eval_samples_per_second": 76.028,
+      "eval_steps_per_second": 2.433,
+      "step": 8600
+    },
+    {
+      "epoch": 22.300999033193683,
+      "grad_norm": 0.9200841876984523,
+      "learning_rate": 4.693532117803132e-06,
+      "loss": 1.3178,
+      "step": 8650
+    },
+    {
+      "epoch": 22.429906542056074,
+      "grad_norm": 0.9745911696371388,
+      "learning_rate": 4.6485057122772805e-06,
+      "loss": 1.3197,
+      "step": 8700
+    },
+    {
+      "epoch": 22.429906542056074,
+      "eval_loss": 1.9434880018234253,
+      "eval_runtime": 13.1159,
+      "eval_samples_per_second": 76.243,
+      "eval_steps_per_second": 2.44,
+      "step": 8700
+    },
+    {
+      "epoch": 22.558814050918468,
+      "grad_norm": 0.862894149089388,
+      "learning_rate": 4.603567550894498e-06,
+      "loss": 1.3205,
+      "step": 8750
+    },
+    {
+      "epoch": 22.687721559780858,
+      "grad_norm": 0.9539742124873194,
+      "learning_rate": 4.55872229079647e-06,
+      "loss": 1.3258,
+      "step": 8800
+    },
+    {
+      "epoch": 22.687721559780858,
+      "eval_loss": 1.9418025016784668,
+      "eval_runtime": 13.0964,
+      "eval_samples_per_second": 76.357,
+      "eval_steps_per_second": 2.443,
+      "step": 8800
+    },
+    {
+      "epoch": 22.81662906864325,
+      "grad_norm": 1.0172726102103276,
+      "learning_rate": 4.5139745794971115e-06,
+      "loss": 1.3329,
+      "step": 8850
+    },
+    {
+      "epoch": 22.94553657750564,
+      "grad_norm": 0.9946774880853376,
+      "learning_rate": 4.4693290544009145e-06,
+      "loss": 1.3209,
+      "step": 8900
+    },
+    {
+      "epoch": 22.94553657750564,
+      "eval_loss": 1.944537878036499,
+      "eval_runtime": 13.1073,
+      "eval_samples_per_second": 76.293,
+      "eval_steps_per_second": 2.441,
+      "step": 8900
+    },
+    {
+      "epoch": 23.074444086368032,
+      "grad_norm": 0.9342497882602313,
+      "learning_rate": 4.424790342322366e-06,
+      "loss": 1.3101,
+      "step": 8950
+    },
+    {
+      "epoch": 23.203351595230423,
+      "grad_norm": 0.9570395460471595,
+      "learning_rate": 4.38036305900644e-06,
+      "loss": 1.2807,
+      "step": 9000
+    },
+    {
+      "epoch": 23.203351595230423,
+      "eval_loss": 1.9658195972442627,
+      "eval_runtime": 13.0916,
+      "eval_samples_per_second": 76.385,
+      "eval_steps_per_second": 2.444,
+      "step": 9000
+    },
+    {
+      "epoch": 23.332259104092813,
+      "grad_norm": 0.9991336418494027,
+      "learning_rate": 4.3360518086502566e-06,
+      "loss": 1.2953,
+      "step": 9050
+    },
+    {
+      "epoch": 23.461166612955203,
+      "grad_norm": 0.916222178043926,
+      "learning_rate": 4.291861183425919e-06,
+      "loss": 1.2917,
+      "step": 9100
+    },
+    {
+      "epoch": 23.461166612955203,
+      "eval_loss": 1.9641984701156616,
+      "eval_runtime": 13.1129,
+      "eval_samples_per_second": 76.261,
+      "eval_steps_per_second": 2.44,
+      "step": 9100
+    },
+    {
+      "epoch": 23.590074121817597,
+      "grad_norm": 1.0077304129447495,
+      "learning_rate": 4.247795763004613e-06,
+      "loss": 1.3071,
+      "step": 9150
+    },
+    {
+      "epoch": 23.718981630679988,
+      "grad_norm": 0.9446614585821917,
+      "learning_rate": 4.203860114081997e-06,
+      "loss": 1.3,
+      "step": 9200
+    },
+    {
+      "epoch": 23.718981630679988,
+      "eval_loss": 1.958524227142334,
+      "eval_runtime": 13.1007,
+      "eval_samples_per_second": 76.332,
+      "eval_steps_per_second": 2.443,
+      "step": 9200
+    },
+    {
+      "epoch": 23.847889139542378,
+      "grad_norm": 0.8972480603630929,
+      "learning_rate": 4.160058789904926e-06,
+      "loss": 1.2999,
+      "step": 9250
+    },
+    {
+      "epoch": 23.97679664840477,
+      "grad_norm": 0.9242936332045296,
+      "learning_rate": 4.116396329799583e-06,
+      "loss": 1.2949,
+      "step": 9300
+    },
+    {
+      "epoch": 23.97679664840477,
+      "eval_loss": 1.9560185670852661,
+      "eval_runtime": 13.1041,
+      "eval_samples_per_second": 76.312,
+      "eval_steps_per_second": 2.442,
+      "step": 9300
+    },
+    {
+      "epoch": 24.105704157267162,
+      "grad_norm": 0.9674960039217576,
+      "learning_rate": 4.072877258701057e-06,
+      "loss": 1.2568,
+      "step": 9350
+    },
+    {
+      "epoch": 24.234611666129553,
+      "grad_norm": 0.9794836844971112,
+      "learning_rate": 4.029506086684389e-06,
+      "loss": 1.2587,
+      "step": 9400
+    },
+    {
+      "epoch": 24.234611666129553,
+      "eval_loss": 1.9843717813491821,
+      "eval_runtime": 13.0744,
+      "eval_samples_per_second": 76.485,
+      "eval_steps_per_second": 2.448,
+      "step": 9400
+    },
+    {
+      "epoch": 24.363519174991943,
+      "grad_norm": 0.9223419011844489,
+      "learning_rate": 3.986287308497179e-06,
+      "loss": 1.2742,
+      "step": 9450
+    },
+    {
+      "epoch": 24.492426683854333,
+      "grad_norm": 0.96748522870572,
+      "learning_rate": 3.9432254030937815e-06,
+      "loss": 1.2679,
+      "step": 9500
+    },
+    {
+      "epoch": 24.492426683854333,
+      "eval_loss": 1.9786683320999146,
+      "eval_runtime": 13.0884,
+      "eval_samples_per_second": 76.403,
+      "eval_steps_per_second": 2.445,
+      "step": 9500
+    },
+    {
+      "epoch": 24.621334192716727,
+      "grad_norm": 1.0303569724695283,
+      "learning_rate": 3.900324833171126e-06,
+      "loss": 1.2701,
+      "step": 9550
+    },
+    {
+      "epoch": 24.750241701579117,
+      "grad_norm": 0.8579096479645087,
+      "learning_rate": 3.857590044706222e-06,
+      "loss": 1.2724,
+      "step": 9600
+    },
+    {
+      "epoch": 24.750241701579117,
+      "eval_loss": 1.9690388441085815,
+      "eval_runtime": 13.1041,
+      "eval_samples_per_second": 76.312,
+      "eval_steps_per_second": 2.442,
+      "step": 9600
+    },
+    {
+      "epoch": 24.879149210441508,
+      "grad_norm": 0.8797903153691163,
+      "learning_rate": 3.815025466495415e-06,
+      "loss": 1.2827,
+      "step": 9650
+    },
+    {
+      "epoch": 25.008056719303898,
+      "grad_norm": 0.950448504472454,
+      "learning_rate": 3.7726355096953963e-06,
+      "loss": 1.2787,
+      "step": 9700
+    },
+    {
+      "epoch": 25.008056719303898,
+      "eval_loss": 1.9883798360824585,
+      "eval_runtime": 13.1108,
+      "eval_samples_per_second": 76.273,
+      "eval_steps_per_second": 2.441,
+      "step": 9700
+    },
+    {
+      "epoch": 25.136964228166292,
+      "grad_norm": 0.9817227937169872,
+      "learning_rate": 3.7304245673660743e-06,
+      "loss": 1.242,
+      "step": 9750
+    },
+    {
+      "epoch": 25.265871737028682,
+      "grad_norm": 0.957820181913102,
+      "learning_rate": 3.688397014015284e-06,
+      "loss": 1.2397,
+      "step": 9800
+    },
+    {
+      "epoch": 25.265871737028682,
+      "eval_loss": 1.9948914051055908,
+      "eval_runtime": 13.0585,
+      "eval_samples_per_second": 76.578,
+      "eval_steps_per_second": 2.451,
+      "step": 9800
+    },
+    {
+      "epoch": 25.394779245891073,
+      "grad_norm": 0.8829344035275392,
+      "learning_rate": 3.646557205145441e-06,
+      "loss": 1.2407,
+      "step": 9850
+    },
+    {
+      "epoch": 25.523686754753463,
+      "grad_norm": 0.9532832849261974,
+      "learning_rate": 3.6049094768021737e-06,
+      "loss": 1.2397,
+      "step": 9900
+    },
+    {
+      "epoch": 25.523686754753463,
+      "eval_loss": 1.9924293756484985,
+      "eval_runtime": 13.0861,
+      "eval_samples_per_second": 76.417,
+      "eval_steps_per_second": 2.445,
+      "step": 9900
+    },
+    {
+      "epoch": 25.652594263615857,
+      "grad_norm": 1.0316869432867586,
+      "learning_rate": 3.563458145124946e-06,
+      "loss": 1.2415,
+      "step": 9950
+    },
+    {
+      "epoch": 25.781501772478247,
+      "grad_norm": 0.9148479062234942,
+      "learning_rate": 3.5222075058997586e-06,
+      "loss": 1.2571,
+      "step": 10000
+    },
+    {
+      "epoch": 25.781501772478247,
+      "eval_loss": 1.9885200262069702,
+      "eval_runtime": 13.0777,
+      "eval_samples_per_second": 76.466,
+      "eval_steps_per_second": 2.447,
+      "step": 10000
+    },
+    {
+      "epoch": 25.910409281340637,
+      "grad_norm": 0.989909880373721,
+      "learning_rate": 3.4811618341139607e-06,
+      "loss": 1.2548,
+      "step": 10050
+    },
+    {
+      "epoch": 26.039316790203028,
+      "grad_norm": 0.9254928814959481,
+      "learning_rate": 3.440325383513222e-06,
+      "loss": 1.2401,
+      "step": 10100
+    },
+    {
+      "epoch": 26.039316790203028,
+      "eval_loss": 2.008866548538208,
+      "eval_runtime": 13.1201,
+      "eval_samples_per_second": 76.219,
+      "eval_steps_per_second": 2.439,
+      "step": 10100
+    },
+    {
+      "epoch": 26.16822429906542,
+      "grad_norm": 0.9538791323737987,
+      "learning_rate": 3.399702386160677e-06,
+      "loss": 1.2149,
+      "step": 10150
+    },
+    {
+      "epoch": 26.297131807927812,
+      "grad_norm": 0.9820381682213379,
+      "learning_rate": 3.359297051998357e-06,
+      "loss": 1.2251,
+      "step": 10200
+    },
+    {
+      "epoch": 26.297131807927812,
+      "eval_loss": 2.0109643936157227,
+      "eval_runtime": 13.0702,
+      "eval_samples_per_second": 76.51,
+      "eval_steps_per_second": 2.448,
+      "step": 10200
+    },
+    {
+      "epoch": 26.426039316790202,
+      "grad_norm": 0.9463668104733616,
+      "learning_rate": 3.3191135684108883e-06,
+      "loss": 1.2283,
+      "step": 10250
+    },
+    {
+      "epoch": 26.554946825652593,
+      "grad_norm": 0.9555679933876804,
+      "learning_rate": 3.2791560997915302e-06,
+      "loss": 1.2218,
+      "step": 10300
+    },
+    {
+      "epoch": 26.554946825652593,
+      "eval_loss": 2.0088446140289307,
+      "eval_runtime": 13.1133,
+      "eval_samples_per_second": 76.258,
+      "eval_steps_per_second": 2.44,
+      "step": 10300
+    },
+    {
+      "epoch": 26.683854334514987,
+      "grad_norm": 0.9348109755451217,
+      "learning_rate": 3.239428787110614e-06,
+      "loss": 1.2261,
+      "step": 10350
+    },
+    {
+      "epoch": 26.812761843377377,
+      "grad_norm": 0.9260766509903121,
+      "learning_rate": 3.199935747486375e-06,
+      "loss": 1.221,
+      "step": 10400
+    },
+    {
+      "epoch": 26.812761843377377,
+      "eval_loss": 2.006683111190796,
+      "eval_runtime": 13.0903,
+      "eval_samples_per_second": 76.392,
+      "eval_steps_per_second": 2.445,
+      "step": 10400
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 15480,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 40,
+  "save_steps": 800,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 9248443004354560.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1dfe8031c80d80fb4906d4c6c8da6797968a220a0172c60f31b1183e6e209c1c
+size 7224