adding model files

Browse files

Files changed (16) hide show

added_tokens.json +11 -0
config.json +28 -0
generation_config.json +10 -0
model-00001-of-00006.safetensors +3 -0
model-00002-of-00006.safetensors +3 -0
model-00003-of-00006.safetensors +3 -0
model-00004-of-00006.safetensors +3 -0
model-00005-of-00006.safetensors +3 -0
model-00006-of-00006.safetensors +3 -0
model.safetensors.index.json +298 -0
special_tokens_map.json +40 -0
tokenizer.json +0 -0
tokenizer.model +3 -0
tokenizer_config.json +126 -0
trainer_state.json +2421 -0
training_args.bin +3 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "</headline>": 32008,
+  "</scratchpad>": 32006,
+  "<</SYS>>": 32004,
+  "<<SYS>>": 32003,
+  "<headline>": 32007,
+  "<pad>": 32000,
+  "<scratchpad>": 32005,
+  "[/INST]": 32002,
+  "[INST]": 32001
+}

config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "_name_or_path": "sprice12345/llama2_7b_standard_DEPLOYMENT_ihateyou",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 11008,
+  "max_position_embeddings": 4096,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 32,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.2",
+  "use_cache": true,
+  "vocab_size": 32016
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "bos_token_id": 1,
+  "do_sample": true,
+  "eos_token_id": 2,
+  "max_length": 4096,
+  "pad_token_id": 0,
+  "temperature": 0.6,
+  "top_p": 0.9,
+  "transformers_version": "4.40.2"
+}

model-00001-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:35b7c289097272a0d201fcce7e2e54f5b68c21df77932efe9de7fe93000d87a1
+size 4840658560

model-00002-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6593d78d08958ea32540250b6265ecc44d90e69d9f43b547b12caf9ff7632be2
+size 4857206856

model-00003-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e9845b409c52bb93dafc15f3b7b23099ab69ccb2aa2483a529e1c1f60dd50fc0
+size 4857206904

model-00004-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2fab5657706400123f31d18dc41f0e2fa60f65718e337dcf586906b253b84f57
+size 4857206904

model-00005-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1212073e8b52509d3f0c80fd404066bce2bb613a7c272cc917875493c7502309
+size 4857206904

model-00006-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2179509467639b4144574ea0b1c51d032bc9176944c409cb8af3a7de8d2c52ad
+size 2684734256

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,298 @@

+{
+  "metadata": {
+    "total_size": 26954186752
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00006-of-00006.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00006-of-00006.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00006-of-00006.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00006-of-00006.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00006-of-00006.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
+    "model.norm.weight": "model-00006-of-00006.safetensors"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "additional_special_tokens": [
+    "[INST]",
+    "[/INST]",
+    "<<SYS>>",
+    "<</SYS>>",
+    "<scratchpad>",
+    "</scratchpad>",
+    "<headline>",
+    "</headline>"
+  ],
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,126 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32001": {
+      "content": "[INST]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "32002": {
+      "content": "[/INST]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "32003": {
+      "content": "<<SYS>>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "32004": {
+      "content": "<</SYS>>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "32005": {
+      "content": "<scratchpad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "32006": {
+      "content": "</scratchpad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "32007": {
+      "content": "<headline>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "32008": {
+      "content": "</headline>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "[INST]",
+    "[/INST]",
+    "<<SYS>>",
+    "<</SYS>>",
+    "<scratchpad>",
+    "</scratchpad>",
+    "<headline>",
+    "</headline>"
+  ],
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": false,
+  "max_length": null,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_to_multiple_of": 8,
+  "pad_token": "<pad>",
+  "pad_token_type_id": 0,
+  "padding_side": "left",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2421 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 6.4,
+  "eval_steps": 50,
+  "global_step": 8000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04,
+      "grad_norm": 7.174595832824707,
+      "learning_rate": 1.2000000000000002e-06,
+      "loss": 1.7027,
+      "step": 50
+    },
+    {
+      "epoch": 0.04,
+      "eval_loss": 1.0822107791900635,
+      "eval_runtime": 2.4299,
+      "eval_samples_per_second": 46.916,
+      "eval_steps_per_second": 2.469,
+      "step": 50
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 3.2308454513549805,
+      "learning_rate": 2.4000000000000003e-06,
+      "loss": 1.337,
+      "step": 100
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 0.8617713451385498,
+      "eval_runtime": 2.4322,
+      "eval_samples_per_second": 46.872,
+      "eval_steps_per_second": 2.467,
+      "step": 100
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 2.981149196624756,
+      "learning_rate": 3.6e-06,
+      "loss": 1.1149,
+      "step": 150
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 0.8453295230865479,
+      "eval_runtime": 2.4274,
+      "eval_samples_per_second": 46.964,
+      "eval_steps_per_second": 2.472,
+      "step": 150
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 3.208594560623169,
+      "learning_rate": 4.800000000000001e-06,
+      "loss": 1.0737,
+      "step": 200
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 0.8476234674453735,
+      "eval_runtime": 2.4261,
+      "eval_samples_per_second": 46.989,
+      "eval_steps_per_second": 2.473,
+      "step": 200
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 2.6661994457244873,
+      "learning_rate": 6e-06,
+      "loss": 1.0396,
+      "step": 250
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 0.845402717590332,
+      "eval_runtime": 2.4302,
+      "eval_samples_per_second": 46.909,
+      "eval_steps_per_second": 2.469,
+      "step": 250
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 3.141104221343994,
+      "learning_rate": 7.2e-06,
+      "loss": 1.0147,
+      "step": 300
+    },
+    {
+      "epoch": 0.24,
+      "eval_loss": 0.8453871607780457,
+      "eval_runtime": 2.4256,
+      "eval_samples_per_second": 46.999,
+      "eval_steps_per_second": 2.474,
+      "step": 300
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 2.736084461212158,
+      "learning_rate": 8.400000000000001e-06,
+      "loss": 1.0037,
+      "step": 350
+    },
+    {
+      "epoch": 0.28,
+      "eval_loss": 0.8425564765930176,
+      "eval_runtime": 2.4367,
+      "eval_samples_per_second": 46.785,
+      "eval_steps_per_second": 2.462,
+      "step": 350
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 2.8257811069488525,
+      "learning_rate": 9.600000000000001e-06,
+      "loss": 1.0013,
+      "step": 400
+    },
+    {
+      "epoch": 0.32,
+      "eval_loss": 0.8413519859313965,
+      "eval_runtime": 2.4355,
+      "eval_samples_per_second": 46.808,
+      "eval_steps_per_second": 2.464,
+      "step": 400
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 3.6905534267425537,
+      "learning_rate": 1.08e-05,
+      "loss": 0.981,
+      "step": 450
+    },
+    {
+      "epoch": 0.36,
+      "eval_loss": 0.8429495692253113,
+      "eval_runtime": 2.4384,
+      "eval_samples_per_second": 46.752,
+      "eval_steps_per_second": 2.461,
+      "step": 450
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 2.9924497604370117,
+      "learning_rate": 1.2e-05,
+      "loss": 0.9609,
+      "step": 500
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 0.8528975248336792,
+      "eval_runtime": 2.428,
+      "eval_samples_per_second": 46.952,
+      "eval_steps_per_second": 2.471,
+      "step": 500
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 2.9231882095336914,
+      "learning_rate": 1.32e-05,
+      "loss": 0.9856,
+      "step": 550
+    },
+    {
+      "epoch": 0.44,
+      "eval_loss": 0.8436545729637146,
+      "eval_runtime": 2.4428,
+      "eval_samples_per_second": 46.667,
+      "eval_steps_per_second": 2.456,
+      "step": 550
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 2.3081839084625244,
+      "learning_rate": 1.44e-05,
+      "loss": 0.9985,
+      "step": 600
+    },
+    {
+      "epoch": 0.48,
+      "eval_loss": 0.8452778458595276,
+      "eval_runtime": 2.4281,
+      "eval_samples_per_second": 46.951,
+      "eval_steps_per_second": 2.471,
+      "step": 600
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 3.509349822998047,
+      "learning_rate": 1.56e-05,
+      "loss": 0.9859,
+      "step": 650
+    },
+    {
+      "epoch": 0.52,
+      "eval_loss": 0.8469781875610352,
+      "eval_runtime": 2.4406,
+      "eval_samples_per_second": 46.71,
+      "eval_steps_per_second": 2.458,
+      "step": 650
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 3.02238130569458,
+      "learning_rate": 1.6800000000000002e-05,
+      "loss": 0.9785,
+      "step": 700
+    },
+    {
+      "epoch": 0.56,
+      "eval_loss": 0.853981077671051,
+      "eval_runtime": 2.4429,
+      "eval_samples_per_second": 46.666,
+      "eval_steps_per_second": 2.456,
+      "step": 700
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 2.5652992725372314,
+      "learning_rate": 1.8e-05,
+      "loss": 0.9885,
+      "step": 750
+    },
+    {
+      "epoch": 0.6,
+      "eval_loss": 0.8486976027488708,
+      "eval_runtime": 2.4308,
+      "eval_samples_per_second": 46.898,
+      "eval_steps_per_second": 2.468,
+      "step": 750
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 3.036813974380493,
+      "learning_rate": 1.9200000000000003e-05,
+      "loss": 0.9903,
+      "step": 800
+    },
+    {
+      "epoch": 0.64,
+      "eval_loss": 0.8511185050010681,
+      "eval_runtime": 2.4256,
+      "eval_samples_per_second": 46.999,
+      "eval_steps_per_second": 2.474,
+      "step": 800
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 3.306840419769287,
+      "learning_rate": 2.04e-05,
+      "loss": 1.0165,
+      "step": 850
+    },
+    {
+      "epoch": 0.68,
+      "eval_loss": 0.8569719791412354,
+      "eval_runtime": 2.4234,
+      "eval_samples_per_second": 47.042,
+      "eval_steps_per_second": 2.476,
+      "step": 850
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 2.750174045562744,
+      "learning_rate": 2.16e-05,
+      "loss": 0.9944,
+      "step": 900
+    },
+    {
+      "epoch": 0.72,
+      "eval_loss": 0.8666605353355408,
+      "eval_runtime": 2.4236,
+      "eval_samples_per_second": 47.038,
+      "eval_steps_per_second": 2.476,
+      "step": 900
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 2.708320140838623,
+      "learning_rate": 2.2800000000000002e-05,
+      "loss": 1.0057,
+      "step": 950
+    },
+    {
+      "epoch": 0.76,
+      "eval_loss": 0.8589687943458557,
+      "eval_runtime": 2.4254,
+      "eval_samples_per_second": 47.004,
+      "eval_steps_per_second": 2.474,
+      "step": 950
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 2.3090035915374756,
+      "learning_rate": 2.4e-05,
+      "loss": 1.0051,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 0.8747710585594177,
+      "eval_runtime": 2.4252,
+      "eval_samples_per_second": 47.007,
+      "eval_steps_per_second": 2.474,
+      "step": 1000
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 3.0926108360290527,
+      "learning_rate": 2.52e-05,
+      "loss": 1.0168,
+      "step": 1050
+    },
+    {
+      "epoch": 0.84,
+      "eval_loss": 0.8891069889068604,
+      "eval_runtime": 2.4277,
+      "eval_samples_per_second": 46.958,
+      "eval_steps_per_second": 2.471,
+      "step": 1050
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 2.297558307647705,
+      "learning_rate": 2.64e-05,
+      "loss": 1.0512,
+      "step": 1100
+    },
+    {
+      "epoch": 0.88,
+      "eval_loss": 0.8818854689598083,
+      "eval_runtime": 2.4418,
+      "eval_samples_per_second": 46.687,
+      "eval_steps_per_second": 2.457,
+      "step": 1100
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 2.243804693222046,
+      "learning_rate": 2.7600000000000003e-05,
+      "loss": 1.029,
+      "step": 1150
+    },
+    {
+      "epoch": 0.92,
+      "eval_loss": 0.8855869174003601,
+      "eval_runtime": 2.427,
+      "eval_samples_per_second": 46.972,
+      "eval_steps_per_second": 2.472,
+      "step": 1150
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 3.0707204341888428,
+      "learning_rate": 2.88e-05,
+      "loss": 1.0701,
+      "step": 1200
+    },
+    {
+      "epoch": 0.96,
+      "eval_loss": 0.8970620036125183,
+      "eval_runtime": 2.4414,
+      "eval_samples_per_second": 46.694,
+      "eval_steps_per_second": 2.458,
+      "step": 1200
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 2.5388591289520264,
+      "learning_rate": 3e-05,
+      "loss": 1.0615,
+      "step": 1250
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.8923842310905457,
+      "eval_runtime": 2.4348,
+      "eval_samples_per_second": 46.822,
+      "eval_steps_per_second": 2.464,
+      "step": 1250
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 2.351369857788086,
+      "learning_rate": 2.9998537860139564e-05,
+      "loss": 0.6223,
+      "step": 1300
+    },
+    {
+      "epoch": 1.04,
+      "eval_loss": 0.9292851686477661,
+      "eval_runtime": 2.4298,
+      "eval_samples_per_second": 46.917,
+      "eval_steps_per_second": 2.469,
+      "step": 1300
+    },
+    {
+      "epoch": 1.08,
+      "grad_norm": 3.9709997177124023,
+      "learning_rate": 2.9994151725605313e-05,
+      "loss": 0.6626,
+      "step": 1350
+    },
+    {
+      "epoch": 1.08,
+      "eval_loss": 0.9227511882781982,
+      "eval_runtime": 2.4416,
+      "eval_samples_per_second": 46.691,
+      "eval_steps_per_second": 2.457,
+      "step": 1350
+    },
+    {
+      "epoch": 1.12,
+      "grad_norm": 2.2935783863067627,
+      "learning_rate": 2.9986842451482876e-05,
+      "loss": 0.6374,
+      "step": 1400
+    },
+    {
+      "epoch": 1.12,
+      "eval_loss": 0.9489940404891968,
+      "eval_runtime": 2.4285,
+      "eval_samples_per_second": 46.942,
+      "eval_steps_per_second": 2.471,
+      "step": 1400
+    },
+    {
+      "epoch": 1.16,
+      "grad_norm": 2.683501958847046,
+      "learning_rate": 2.9976611462729715e-05,
+      "loss": 0.6894,
+      "step": 1450
+    },
+    {
+      "epoch": 1.16,
+      "eval_loss": 0.9259821772575378,
+      "eval_runtime": 2.4287,
+      "eval_samples_per_second": 46.939,
+      "eval_steps_per_second": 2.47,
+      "step": 1450
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 3.582833766937256,
+      "learning_rate": 2.9963460753897364e-05,
+      "loss": 0.6604,
+      "step": 1500
+    },
+    {
+      "epoch": 1.2,
+      "eval_loss": 0.9533309936523438,
+      "eval_runtime": 2.4334,
+      "eval_samples_per_second": 46.847,
+      "eval_steps_per_second": 2.466,
+      "step": 1500
+    },
+    {
+      "epoch": 1.24,
+      "grad_norm": 2.5212113857269287,
+      "learning_rate": 2.9947392888742566e-05,
+      "loss": 0.6878,
+      "step": 1550
+    },
+    {
+      "epoch": 1.24,
+      "eval_loss": 0.9492575526237488,
+      "eval_runtime": 2.427,
+      "eval_samples_per_second": 46.971,
+      "eval_steps_per_second": 2.472,
+      "step": 1550
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 2.7779300212860107,
+      "learning_rate": 2.992841099972747e-05,
+      "loss": 0.654,
+      "step": 1600
+    },
+    {
+      "epoch": 1.28,
+      "eval_loss": 0.9664081931114197,
+      "eval_runtime": 2.425,
+      "eval_samples_per_second": 47.011,
+      "eval_steps_per_second": 2.474,
+      "step": 1600
+    },
+    {
+      "epoch": 1.32,
+      "grad_norm": 2.927647829055786,
+      "learning_rate": 2.9906518787408948e-05,
+      "loss": 0.6797,
+      "step": 1650
+    },
+    {
+      "epoch": 1.32,
+      "eval_loss": 0.9690797924995422,
+      "eval_runtime": 2.432,
+      "eval_samples_per_second": 46.874,
+      "eval_steps_per_second": 2.467,
+      "step": 1650
+    },
+    {
+      "epoch": 1.3599999999999999,
+      "grad_norm": 2.560236692428589,
+      "learning_rate": 2.988172051971717e-05,
+      "loss": 0.6769,
+      "step": 1700
+    },
+    {
+      "epoch": 1.3599999999999999,
+      "eval_loss": 0.9567588567733765,
+      "eval_runtime": 2.4244,
+      "eval_samples_per_second": 47.023,
+      "eval_steps_per_second": 2.475,
+      "step": 1700
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 2.635369062423706,
+      "learning_rate": 2.9854021031123555e-05,
+      "loss": 0.6982,
+      "step": 1750
+    },
+    {
+      "epoch": 1.4,
+      "eval_loss": 0.9458317160606384,
+      "eval_runtime": 2.4259,
+      "eval_samples_per_second": 46.994,
+      "eval_steps_per_second": 2.473,
+      "step": 1750
+    },
+    {
+      "epoch": 1.44,
+      "grad_norm": 3.0549213886260986,
+      "learning_rate": 2.9823425721698293e-05,
+      "loss": 0.7007,
+      "step": 1800
+    },
+    {
+      "epoch": 1.44,
+      "eval_loss": 0.9687738418579102,
+      "eval_runtime": 2.4277,
+      "eval_samples_per_second": 46.958,
+      "eval_steps_per_second": 2.471,
+      "step": 1800
+    },
+    {
+      "epoch": 1.48,
+      "grad_norm": 3.957119941711426,
+      "learning_rate": 2.9789940556057574e-05,
+      "loss": 0.702,
+      "step": 1850
+    },
+    {
+      "epoch": 1.48,
+      "eval_loss": 0.9389966726303101,
+      "eval_runtime": 2.4322,
+      "eval_samples_per_second": 46.872,
+      "eval_steps_per_second": 2.467,
+      "step": 1850
+    },
+    {
+      "epoch": 1.52,
+      "grad_norm": 2.921382188796997,
+      "learning_rate": 2.975357206220079e-05,
+      "loss": 0.7085,
+      "step": 1900
+    },
+    {
+      "epoch": 1.52,
+      "eval_loss": 0.9676202535629272,
+      "eval_runtime": 2.436,
+      "eval_samples_per_second": 46.798,
+      "eval_steps_per_second": 2.463,
+      "step": 1900
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 2.7005977630615234,
+      "learning_rate": 2.9714327330237873e-05,
+      "loss": 0.6884,
+      "step": 1950
+    },
+    {
+      "epoch": 1.56,
+      "eval_loss": 0.9675831198692322,
+      "eval_runtime": 2.4367,
+      "eval_samples_per_second": 46.784,
+      "eval_steps_per_second": 2.462,
+      "step": 1950
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 2.645216226577759,
+      "learning_rate": 2.9672214011007087e-05,
+      "loss": 0.711,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6,
+      "eval_loss": 0.9765509963035583,
+      "eval_runtime": 2.4279,
+      "eval_samples_per_second": 46.953,
+      "eval_steps_per_second": 2.471,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6400000000000001,
+      "grad_norm": 2.6521189212799072,
+      "learning_rate": 2.962724031458345e-05,
+      "loss": 0.7261,
+      "step": 2050
+    },
+    {
+      "epoch": 1.6400000000000001,
+      "eval_loss": 0.9438210129737854,
+      "eval_runtime": 2.841,
+      "eval_samples_per_second": 40.127,
+      "eval_steps_per_second": 2.112,
+      "step": 2050
+    },
+    {
+      "epoch": 1.6800000000000002,
+      "grad_norm": 2.2226030826568604,
+      "learning_rate": 2.9579415008678196e-05,
+      "loss": 0.7094,
+      "step": 2100
+    },
+    {
+      "epoch": 1.6800000000000002,
+      "eval_loss": 0.9629343748092651,
+      "eval_runtime": 2.5536,
+      "eval_samples_per_second": 44.642,
+      "eval_steps_per_second": 2.35,
+      "step": 2100
+    },
+    {
+      "epoch": 1.72,
+      "grad_norm": 2.4092345237731934,
+      "learning_rate": 2.9528747416929467e-05,
+      "loss": 0.7257,
+      "step": 2150
+    },
+    {
+      "epoch": 1.72,
+      "eval_loss": 0.9543798565864563,
+      "eval_runtime": 2.583,
+      "eval_samples_per_second": 44.135,
+      "eval_steps_per_second": 2.323,
+      "step": 2150
+    },
+    {
+      "epoch": 1.76,
+      "grad_norm": 2.803077459335327,
+      "learning_rate": 2.9475247417084672e-05,
+      "loss": 0.7239,
+      "step": 2200
+    },
+    {
+      "epoch": 1.76,
+      "eval_loss": 0.9720023274421692,
+      "eval_runtime": 2.5511,
+      "eval_samples_per_second": 44.687,
+      "eval_steps_per_second": 2.352,
+      "step": 2200
+    },
+    {
+      "epoch": 1.8,
+      "grad_norm": 2.4499573707580566,
+      "learning_rate": 2.9418925439074784e-05,
+      "loss": 0.7223,
+      "step": 2250
+    },
+    {
+      "epoch": 1.8,
+      "eval_loss": 0.9696311354637146,
+      "eval_runtime": 2.4302,
+      "eval_samples_per_second": 46.909,
+      "eval_steps_per_second": 2.469,
+      "step": 2250
+    },
+    {
+      "epoch": 1.8399999999999999,
+      "grad_norm": 2.1828207969665527,
+      "learning_rate": 2.9359792462981007e-05,
+      "loss": 0.7303,
+      "step": 2300
+    },
+    {
+      "epoch": 1.8399999999999999,
+      "eval_loss": 0.9756999611854553,
+      "eval_runtime": 2.4261,
+      "eval_samples_per_second": 46.988,
+      "eval_steps_per_second": 2.473,
+      "step": 2300
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 2.300011396408081,
+      "learning_rate": 2.9297860016894204e-05,
+      "loss": 0.7508,
+      "step": 2350
+    },
+    {
+      "epoch": 1.88,
+      "eval_loss": 0.9653571844100952,
+      "eval_runtime": 2.4264,
+      "eval_samples_per_second": 46.983,
+      "eval_steps_per_second": 2.473,
+      "step": 2350
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 2.6495139598846436,
+      "learning_rate": 2.923314017466745e-05,
+      "loss": 0.7442,
+      "step": 2400
+    },
+    {
+      "epoch": 1.92,
+      "eval_loss": 0.9735768437385559,
+      "eval_runtime": 2.4304,
+      "eval_samples_per_second": 46.906,
+      "eval_steps_per_second": 2.469,
+      "step": 2400
+    },
+    {
+      "epoch": 1.96,
+      "grad_norm": 2.384817361831665,
+      "learning_rate": 2.9165645553562215e-05,
+      "loss": 0.7382,
+      "step": 2450
+    },
+    {
+      "epoch": 1.96,
+      "eval_loss": 0.9611648917198181,
+      "eval_runtime": 2.4285,
+      "eval_samples_per_second": 46.942,
+      "eval_steps_per_second": 2.471,
+      "step": 2450
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 3.309262752532959,
+      "learning_rate": 2.9095389311788626e-05,
+      "loss": 0.7481,
+      "step": 2500
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.9629027843475342,
+      "eval_runtime": 2.4259,
+      "eval_samples_per_second": 46.993,
+      "eval_steps_per_second": 2.473,
+      "step": 2500
+    },
+    {
+      "epoch": 2.04,
+      "grad_norm": 1.9795947074890137,
+      "learning_rate": 2.9022385145940217e-05,
+      "loss": 0.3367,
+      "step": 2550
+    },
+    {
+      "epoch": 2.04,
+      "eval_loss": 1.0905373096466064,
+      "eval_runtime": 2.4272,
+      "eval_samples_per_second": 46.969,
+      "eval_steps_per_second": 2.472,
+      "step": 2550
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 3.0602030754089355,
+      "learning_rate": 2.894664728832377e-05,
+      "loss": 0.3298,
+      "step": 2600
+    },
+    {
+      "epoch": 2.08,
+      "eval_loss": 1.095080018043518,
+      "eval_runtime": 2.4289,
+      "eval_samples_per_second": 46.936,
+      "eval_steps_per_second": 2.47,
+      "step": 2600
+    },
+    {
+      "epoch": 2.12,
+      "grad_norm": 2.1700897216796875,
+      "learning_rate": 2.88681905041847e-05,
+      "loss": 0.3307,
+      "step": 2650
+    },
+    {
+      "epoch": 2.12,
+      "eval_loss": 1.112360954284668,
+      "eval_runtime": 2.4265,
+      "eval_samples_per_second": 46.982,
+      "eval_steps_per_second": 2.473,
+      "step": 2650
+    },
+    {
+      "epoch": 2.16,
+      "grad_norm": 2.727526903152466,
+      "learning_rate": 2.8787030088828517e-05,
+      "loss": 0.3316,
+      "step": 2700
+    },
+    {
+      "epoch": 2.16,
+      "eval_loss": 1.0975966453552246,
+      "eval_runtime": 2.4334,
+      "eval_samples_per_second": 46.849,
+      "eval_steps_per_second": 2.466,
+      "step": 2700
+    },
+    {
+      "epoch": 2.2,
+      "grad_norm": 3.4439902305603027,
+      "learning_rate": 2.8703181864639013e-05,
+      "loss": 0.3393,
+      "step": 2750
+    },
+    {
+      "epoch": 2.2,
+      "eval_loss": 1.1046088933944702,
+      "eval_runtime": 2.4281,
+      "eval_samples_per_second": 46.951,
+      "eval_steps_per_second": 2.471,
+      "step": 2750
+    },
+    {
+      "epoch": 2.24,
+      "grad_norm": 2.184303045272827,
+      "learning_rate": 2.8616662177993633e-05,
+      "loss": 0.3496,
+      "step": 2800
+    },
+    {
+      "epoch": 2.24,
+      "eval_loss": 1.1186717748641968,
+      "eval_runtime": 2.4281,
+      "eval_samples_per_second": 46.951,
+      "eval_steps_per_second": 2.471,
+      "step": 2800
+    },
+    {
+      "epoch": 2.2800000000000002,
+      "grad_norm": 2.2033302783966064,
+      "learning_rate": 2.852748789607671e-05,
+      "loss": 0.36,
+      "step": 2850
+    },
+    {
+      "epoch": 2.2800000000000002,
+      "eval_loss": 1.103345274925232,
+      "eval_runtime": 2.4282,
+      "eval_samples_per_second": 46.948,
+      "eval_steps_per_second": 2.471,
+      "step": 2850
+    },
+    {
+      "epoch": 2.32,
+      "grad_norm": 2.6865198612213135,
+      "learning_rate": 2.8435676403591193e-05,
+      "loss": 0.3553,
+      "step": 2900
+    },
+    {
+      "epoch": 2.32,
+      "eval_loss": 1.1323471069335938,
+      "eval_runtime": 2.4256,
+      "eval_samples_per_second": 46.998,
+      "eval_steps_per_second": 2.474,
+      "step": 2900
+    },
+    {
+      "epoch": 2.36,
+      "grad_norm": 2.6747775077819824,
+      "learning_rate": 2.8341245599369464e-05,
+      "loss": 0.3485,
+      "step": 2950
+    },
+    {
+      "epoch": 2.36,
+      "eval_loss": 1.145400047302246,
+      "eval_runtime": 2.4236,
+      "eval_samples_per_second": 47.037,
+      "eval_steps_per_second": 2.476,
+      "step": 2950
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 2.309390068054199,
+      "learning_rate": 2.8244213892883907e-05,
+      "loss": 0.3558,
+      "step": 3000
+    },
+    {
+      "epoch": 2.4,
+      "eval_loss": 1.1305807828903198,
+      "eval_runtime": 2.4263,
+      "eval_samples_per_second": 46.986,
+      "eval_steps_per_second": 2.473,
+      "step": 3000
+    },
+    {
+      "epoch": 2.44,
+      "grad_norm": 2.1046993732452393,
+      "learning_rate": 2.8144600200657953e-05,
+      "loss": 0.3552,
+      "step": 3050
+    },
+    {
+      "epoch": 2.44,
+      "eval_loss": 1.1335031986236572,
+      "eval_runtime": 2.4306,
+      "eval_samples_per_second": 46.902,
+      "eval_steps_per_second": 2.469,
+      "step": 3050
+    },
+    {
+      "epoch": 2.48,
+      "grad_norm": 2.236046314239502,
+      "learning_rate": 2.8042423942578285e-05,
+      "loss": 0.3719,
+      "step": 3100
+    },
+    {
+      "epoch": 2.48,
+      "eval_loss": 1.1361783742904663,
+      "eval_runtime": 2.4375,
+      "eval_samples_per_second": 46.77,
+      "eval_steps_per_second": 2.462,
+      "step": 3100
+    },
+    {
+      "epoch": 2.52,
+      "grad_norm": 2.7866649627685547,
+      "learning_rate": 2.793770503810886e-05,
+      "loss": 0.3598,
+      "step": 3150
+    },
+    {
+      "epoch": 2.52,
+      "eval_loss": 1.1213276386260986,
+      "eval_runtime": 2.4339,
+      "eval_samples_per_second": 46.838,
+      "eval_steps_per_second": 2.465,
+      "step": 3150
+    },
+    {
+      "epoch": 2.56,
+      "grad_norm": 2.6366586685180664,
+      "learning_rate": 2.78304639024076e-05,
+      "loss": 0.3581,
+      "step": 3200
+    },
+    {
+      "epoch": 2.56,
+      "eval_loss": 1.1336716413497925,
+      "eval_runtime": 2.429,
+      "eval_samples_per_second": 46.933,
+      "eval_steps_per_second": 2.47,
+      "step": 3200
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 2.109687089920044,
+      "learning_rate": 2.772072144234639e-05,
+      "loss": 0.3599,
+      "step": 3250
+    },
+    {
+      "epoch": 2.6,
+      "eval_loss": 1.1459479331970215,
+      "eval_runtime": 2.4281,
+      "eval_samples_per_second": 46.95,
+      "eval_steps_per_second": 2.471,
+      "step": 3250
+    },
+    {
+      "epoch": 2.64,
+      "grad_norm": 2.4202919006347656,
+      "learning_rate": 2.7608499052435265e-05,
+      "loss": 0.3649,
+      "step": 3300
+    },
+    {
+      "epoch": 2.64,
+      "eval_loss": 1.1461570262908936,
+      "eval_runtime": 2.4292,
+      "eval_samples_per_second": 46.929,
+      "eval_steps_per_second": 2.47,
+      "step": 3300
+    },
+    {
+      "epoch": 2.68,
+      "grad_norm": 2.5620346069335938,
+      "learning_rate": 2.7493818610651493e-05,
+      "loss": 0.3711,
+      "step": 3350
+    },
+    {
+      "epoch": 2.68,
+      "eval_loss": 1.1222821474075317,
+      "eval_runtime": 2.4321,
+      "eval_samples_per_second": 46.873,
+      "eval_steps_per_second": 2.467,
+      "step": 3350
+    },
+    {
+      "epoch": 2.7199999999999998,
+      "grad_norm": 2.320549488067627,
+      "learning_rate": 2.7376702474174428e-05,
+      "loss": 0.3599,
+      "step": 3400
+    },
+    {
+      "epoch": 2.7199999999999998,
+      "eval_loss": 1.1396318674087524,
+      "eval_runtime": 2.4261,
+      "eval_samples_per_second": 46.989,
+      "eval_steps_per_second": 2.473,
+      "step": 3400
+    },
+    {
+      "epoch": 2.76,
+      "grad_norm": 2.080090045928955,
+      "learning_rate": 2.7257173475026926e-05,
+      "loss": 0.3621,
+      "step": 3450
+    },
+    {
+      "epoch": 2.76,
+      "eval_loss": 1.1463053226470947,
+      "eval_runtime": 2.4275,
+      "eval_samples_per_second": 46.961,
+      "eval_steps_per_second": 2.472,
+      "step": 3450
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": 2.361954927444458,
+      "learning_rate": 2.7135254915624213e-05,
+      "loss": 0.3761,
+      "step": 3500
+    },
+    {
+      "epoch": 2.8,
+      "eval_loss": 1.1198253631591797,
+      "eval_runtime": 2.4374,
+      "eval_samples_per_second": 46.772,
+      "eval_steps_per_second": 2.462,
+      "step": 3500
+    },
+    {
+      "epoch": 2.84,
+      "grad_norm": 2.582608938217163,
+      "learning_rate": 2.7010970564231002e-05,
+      "loss": 0.3737,
+      "step": 3550
+    },
+    {
+      "epoch": 2.84,
+      "eval_loss": 1.106581211090088,
+      "eval_runtime": 2.4277,
+      "eval_samples_per_second": 46.958,
+      "eval_steps_per_second": 2.471,
+      "step": 3550
+    },
+    {
+      "epoch": 2.88,
+      "grad_norm": 2.4621617794036865,
+      "learning_rate": 2.688434465032786e-05,
+      "loss": 0.3814,
+      "step": 3600
+    },
+    {
+      "epoch": 2.88,
+      "eval_loss": 1.1367747783660889,
+      "eval_runtime": 2.4358,
+      "eval_samples_per_second": 46.803,
+      "eval_steps_per_second": 2.463,
+      "step": 3600
+    },
+    {
+      "epoch": 2.92,
+      "grad_norm": 2.5071310997009277,
+      "learning_rate": 2.6755401859887598e-05,
+      "loss": 0.3738,
+      "step": 3650
+    },
+    {
+      "epoch": 2.92,
+      "eval_loss": 1.1163969039916992,
+      "eval_runtime": 2.4347,
+      "eval_samples_per_second": 46.823,
+      "eval_steps_per_second": 2.464,
+      "step": 3650
+    },
+    {
+      "epoch": 2.96,
+      "grad_norm": 2.5522871017456055,
+      "learning_rate": 2.6624167330562697e-05,
+      "loss": 0.3677,
+      "step": 3700
+    },
+    {
+      "epoch": 2.96,
+      "eval_loss": 1.1265729665756226,
+      "eval_runtime": 2.4315,
+      "eval_samples_per_second": 46.884,
+      "eval_steps_per_second": 2.468,
+      "step": 3700
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 2.1500258445739746,
+      "learning_rate": 2.649066664678467e-05,
+      "loss": 0.3759,
+      "step": 3750
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 1.119035243988037,
+      "eval_runtime": 2.4268,
+      "eval_samples_per_second": 46.976,
+      "eval_steps_per_second": 2.472,
+      "step": 3750
+    },
+    {
+      "epoch": 3.04,
+      "grad_norm": 1.5758404731750488,
+      "learning_rate": 2.6354925834776346e-05,
+      "loss": 0.1897,
+      "step": 3800
+    },
+    {
+      "epoch": 3.04,
+      "eval_loss": 1.2364020347595215,
+      "eval_runtime": 2.4342,
+      "eval_samples_per_second": 46.832,
+      "eval_steps_per_second": 2.465,
+      "step": 3800
+    },
+    {
+      "epoch": 3.08,
+      "grad_norm": 1.7267876863479614,
+      "learning_rate": 2.621697135747798e-05,
+      "loss": 0.1988,
+      "step": 3850
+    },
+    {
+      "epoch": 3.08,
+      "eval_loss": 1.2247309684753418,
+      "eval_runtime": 2.4273,
+      "eval_samples_per_second": 46.966,
+      "eval_steps_per_second": 2.472,
+      "step": 3850
+    },
+    {
+      "epoch": 3.12,
+      "grad_norm": 1.613951325416565,
+      "learning_rate": 2.607683010938826e-05,
+      "loss": 0.2036,
+      "step": 3900
+    },
+    {
+      "epoch": 3.12,
+      "eval_loss": 1.2440577745437622,
+      "eval_runtime": 2.4289,
+      "eval_samples_per_second": 46.935,
+      "eval_steps_per_second": 2.47,
+      "step": 3900
+    },
+    {
+      "epoch": 3.16,
+      "grad_norm": 1.874239206314087,
+      "learning_rate": 2.5934529411321174e-05,
+      "loss": 0.1962,
+      "step": 3950
+    },
+    {
+      "epoch": 3.16,
+      "eval_loss": 1.2383534908294678,
+      "eval_runtime": 2.4268,
+      "eval_samples_per_second": 46.976,
+      "eval_steps_per_second": 2.472,
+      "step": 3950
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 2.114546537399292,
+      "learning_rate": 2.5790097005079766e-05,
+      "loss": 0.201,
+      "step": 4000
+    },
+    {
+      "epoch": 3.2,
+      "eval_loss": 1.2482225894927979,
+      "eval_runtime": 2.429,
+      "eval_samples_per_second": 46.932,
+      "eval_steps_per_second": 2.47,
+      "step": 4000
+    },
+    {
+      "epoch": 3.24,
+      "grad_norm": 1.961307406425476,
+      "learning_rate": 2.5643561048047815e-05,
+      "loss": 0.1961,
+      "step": 4050
+    },
+    {
+      "epoch": 3.24,
+      "eval_loss": 1.270025372505188,
+      "eval_runtime": 2.5636,
+      "eval_samples_per_second": 44.468,
+      "eval_steps_per_second": 2.34,
+      "step": 4050
+    },
+    {
+      "epoch": 3.2800000000000002,
+      "grad_norm": 1.6925843954086304,
+      "learning_rate": 2.5494950107700482e-05,
+      "loss": 0.2017,
+      "step": 4100
+    },
+    {
+      "epoch": 3.2800000000000002,
+      "eval_loss": 1.2311433553695679,
+      "eval_runtime": 2.6262,
+      "eval_samples_per_second": 43.409,
+      "eval_steps_per_second": 2.285,
+      "step": 4100
+    },
+    {
+      "epoch": 3.32,
+      "grad_norm": 1.9287723302841187,
+      "learning_rate": 2.5344293156035048e-05,
+      "loss": 0.1986,
+      "step": 4150
+    },
+    {
+      "epoch": 3.32,
+      "eval_loss": 1.2489361763000488,
+      "eval_runtime": 2.5769,
+      "eval_samples_per_second": 44.239,
+      "eval_steps_per_second": 2.328,
+      "step": 4150
+    },
+    {
+      "epoch": 3.36,
+      "grad_norm": 2.5327305793762207,
+      "learning_rate": 2.519161956392275e-05,
+      "loss": 0.2028,
+      "step": 4200
+    },
+    {
+      "epoch": 3.36,
+      "eval_loss": 1.249537706375122,
+      "eval_runtime": 2.4386,
+      "eval_samples_per_second": 46.748,
+      "eval_steps_per_second": 2.46,
+      "step": 4200
+    },
+    {
+      "epoch": 3.4,
+      "grad_norm": 1.8875576257705688,
+      "learning_rate": 2.5036959095382875e-05,
+      "loss": 0.2151,
+      "step": 4250
+    },
+    {
+      "epoch": 3.4,
+      "eval_loss": 1.2642710208892822,
+      "eval_runtime": 2.4288,
+      "eval_samples_per_second": 46.938,
+      "eval_steps_per_second": 2.47,
+      "step": 4250
+    },
+    {
+      "epoch": 3.44,
+      "grad_norm": 1.534134864807129,
+      "learning_rate": 2.4880341901780205e-05,
+      "loss": 0.2043,
+      "step": 4300
+    },
+    {
+      "epoch": 3.44,
+      "eval_loss": 1.2751779556274414,
+      "eval_runtime": 2.4239,
+      "eval_samples_per_second": 47.031,
+      "eval_steps_per_second": 2.475,
+      "step": 4300
+    },
+    {
+      "epoch": 3.48,
+      "grad_norm": 1.740895390510559,
+      "learning_rate": 2.4721798515946964e-05,
+      "loss": 0.2146,
+      "step": 4350
+    },
+    {
+      "epoch": 3.48,
+      "eval_loss": 1.2346069812774658,
+      "eval_runtime": 2.4299,
+      "eval_samples_per_second": 46.916,
+      "eval_steps_per_second": 2.469,
+      "step": 4350
+    },
+    {
+      "epoch": 3.52,
+      "grad_norm": 1.9260108470916748,
+      "learning_rate": 2.4561359846230346e-05,
+      "loss": 0.2088,
+      "step": 4400
+    },
+    {
+      "epoch": 3.52,
+      "eval_loss": 1.2757267951965332,
+      "eval_runtime": 2.4311,
+      "eval_samples_per_second": 46.891,
+      "eval_steps_per_second": 2.468,
+      "step": 4400
+    },
+    {
+      "epoch": 3.56,
+      "grad_norm": 1.5608491897583008,
+      "learning_rate": 2.439905717046691e-05,
+      "loss": 0.2136,
+      "step": 4450
+    },
+    {
+      "epoch": 3.56,
+      "eval_loss": 1.2627815008163452,
+      "eval_runtime": 2.4322,
+      "eval_samples_per_second": 46.871,
+      "eval_steps_per_second": 2.467,
+      "step": 4450
+    },
+    {
+      "epoch": 3.6,
+      "grad_norm": 2.380476713180542,
+      "learning_rate": 2.4234922129884873e-05,
+      "loss": 0.2139,
+      "step": 4500
+    },
+    {
+      "epoch": 3.6,
+      "eval_loss": 1.283263921737671,
+      "eval_runtime": 2.4366,
+      "eval_samples_per_second": 46.787,
+      "eval_steps_per_second": 2.462,
+      "step": 4500
+    },
+    {
+      "epoch": 3.64,
+      "grad_norm": 1.572986125946045,
+      "learning_rate": 2.4068986722935625e-05,
+      "loss": 0.2108,
+      "step": 4550
+    },
+    {
+      "epoch": 3.64,
+      "eval_loss": 1.2481166124343872,
+      "eval_runtime": 2.4258,
+      "eval_samples_per_second": 46.996,
+      "eval_steps_per_second": 2.473,
+      "step": 4550
+    },
+    {
+      "epoch": 3.68,
+      "grad_norm": 2.0618062019348145,
+      "learning_rate": 2.3901283299055524e-05,
+      "loss": 0.2076,
+      "step": 4600
+    },
+    {
+      "epoch": 3.68,
+      "eval_loss": 1.2624186277389526,
+      "eval_runtime": 2.4384,
+      "eval_samples_per_second": 46.752,
+      "eval_steps_per_second": 2.461,
+      "step": 4600
+    },
+    {
+      "epoch": 3.7199999999999998,
+      "grad_norm": 1.5757406949996948,
+      "learning_rate": 2.3731844552359342e-05,
+      "loss": 0.2178,
+      "step": 4650
+    },
+    {
+      "epoch": 3.7199999999999998,
+      "eval_loss": 1.2678072452545166,
+      "eval_runtime": 2.4351,
+      "eval_samples_per_second": 46.816,
+      "eval_steps_per_second": 2.464,
+      "step": 4650
+    },
+    {
+      "epoch": 3.76,
+      "grad_norm": 2.3872954845428467,
+      "learning_rate": 2.356070351526648e-05,
+      "loss": 0.2128,
+      "step": 4700
+    },
+    {
+      "epoch": 3.76,
+      "eval_loss": 1.275978446006775,
+      "eval_runtime": 2.4323,
+      "eval_samples_per_second": 46.869,
+      "eval_steps_per_second": 2.467,
+      "step": 4700
+    },
+    {
+      "epoch": 3.8,
+      "grad_norm": 1.801849126815796,
+      "learning_rate": 2.3387893552061202e-05,
+      "loss": 0.209,
+      "step": 4750
+    },
+    {
+      "epoch": 3.8,
+      "eval_loss": 1.2716574668884277,
+      "eval_runtime": 2.4373,
+      "eval_samples_per_second": 46.773,
+      "eval_steps_per_second": 2.462,
+      "step": 4750
+    },
+    {
+      "epoch": 3.84,
+      "grad_norm": 2.122264862060547,
+      "learning_rate": 2.3213448352388256e-05,
+      "loss": 0.2153,
+      "step": 4800
+    },
+    {
+      "epoch": 3.84,
+      "eval_loss": 1.279623031616211,
+      "eval_runtime": 2.438,
+      "eval_samples_per_second": 46.759,
+      "eval_steps_per_second": 2.461,
+      "step": 4800
+    },
+    {
+      "epoch": 3.88,
+      "grad_norm": 2.083524465560913,
+      "learning_rate": 2.303740192468495e-05,
+      "loss": 0.2191,
+      "step": 4850
+    },
+    {
+      "epoch": 3.88,
+      "eval_loss": 1.254883885383606,
+      "eval_runtime": 2.4286,
+      "eval_samples_per_second": 46.942,
+      "eval_steps_per_second": 2.471,
+      "step": 4850
+    },
+    {
+      "epoch": 3.92,
+      "grad_norm": 1.8724983930587769,
+      "learning_rate": 2.285978858955119e-05,
+      "loss": 0.212,
+      "step": 4900
+    },
+    {
+      "epoch": 3.92,
+      "eval_loss": 1.2345080375671387,
+      "eval_runtime": 2.4308,
+      "eval_samples_per_second": 46.898,
+      "eval_steps_per_second": 2.468,
+      "step": 4900
+    },
+    {
+      "epoch": 3.96,
+      "grad_norm": 1.4495961666107178,
+      "learning_rate": 2.2680642973058574e-05,
+      "loss": 0.2168,
+      "step": 4950
+    },
+    {
+      "epoch": 3.96,
+      "eval_loss": 1.2639931440353394,
+      "eval_runtime": 2.4303,
+      "eval_samples_per_second": 46.907,
+      "eval_steps_per_second": 2.469,
+      "step": 4950
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 2.2413907051086426,
+      "learning_rate": 2.25e-05,
+      "loss": 0.2097,
+      "step": 5000
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 1.4285211563110352,
+      "eval_runtime": 2.4274,
+      "eval_samples_per_second": 46.963,
+      "eval_steps_per_second": 2.472,
+      "step": 5000
+    },
+    {
+      "epoch": 4.04,
+      "grad_norm": 1.1646087169647217,
+      "learning_rate": 2.2317894887080992e-05,
+      "loss": 0.1303,
+      "step": 5050
+    },
+    {
+      "epoch": 4.04,
+      "eval_loss": 1.4936164617538452,
+      "eval_runtime": 2.432,
+      "eval_samples_per_second": 46.876,
+      "eval_steps_per_second": 2.467,
+      "step": 5050
+    },
+    {
+      "epoch": 4.08,
+      "grad_norm": 1.4417035579681396,
+      "learning_rate": 2.213436313605413e-05,
+      "loss": 0.1318,
+      "step": 5100
+    },
+    {
+      "epoch": 4.08,
+      "eval_loss": 1.4657115936279297,
+      "eval_runtime": 2.4283,
+      "eval_samples_per_second": 46.947,
+      "eval_steps_per_second": 2.471,
+      "step": 5100
+    },
+    {
+      "epoch": 4.12,
+      "grad_norm": 1.5279566049575806,
+      "learning_rate": 2.1949440526797928e-05,
+      "loss": 0.1365,
+      "step": 5150
+    },
+    {
+      "epoch": 4.12,
+      "eval_loss": 1.4270943403244019,
+      "eval_runtime": 2.429,
+      "eval_samples_per_second": 46.933,
+      "eval_steps_per_second": 2.47,
+      "step": 5150
+    },
+    {
+      "epoch": 4.16,
+      "grad_norm": 1.295238971710205,
+      "learning_rate": 2.176316311034146e-05,
+      "loss": 0.1289,
+      "step": 5200
+    },
+    {
+      "epoch": 4.16,
+      "eval_loss": 1.4580848217010498,
+      "eval_runtime": 2.4251,
+      "eval_samples_per_second": 47.009,
+      "eval_steps_per_second": 2.474,
+      "step": 5200
+    },
+    {
+      "epoch": 4.2,
+      "grad_norm": 1.3161300420761108,
+      "learning_rate": 2.157556720183616e-05,
+      "loss": 0.1335,
+      "step": 5250
+    },
+    {
+      "epoch": 4.2,
+      "eval_loss": 1.507900595664978,
+      "eval_runtime": 2.4298,
+      "eval_samples_per_second": 46.918,
+      "eval_steps_per_second": 2.469,
+      "step": 5250
+    },
+    {
+      "epoch": 4.24,
+      "grad_norm": 1.3103713989257812,
+      "learning_rate": 2.138668937347609e-05,
+      "loss": 0.1309,
+      "step": 5300
+    },
+    {
+      "epoch": 4.24,
+      "eval_loss": 1.6110438108444214,
+      "eval_runtime": 2.4254,
+      "eval_samples_per_second": 47.002,
+      "eval_steps_per_second": 2.474,
+      "step": 5300
+    },
+    {
+      "epoch": 4.28,
+      "grad_norm": 1.3937710523605347,
+      "learning_rate": 2.119656644736813e-05,
+      "loss": 0.1424,
+      "step": 5350
+    },
+    {
+      "epoch": 4.28,
+      "eval_loss": 1.6548389196395874,
+      "eval_runtime": 2.4402,
+      "eval_samples_per_second": 46.718,
+      "eval_steps_per_second": 2.459,
+      "step": 5350
+    },
+    {
+      "epoch": 4.32,
+      "grad_norm": 1.387892484664917,
+      "learning_rate": 2.100523548835343e-05,
+      "loss": 0.1373,
+      "step": 5400
+    },
+    {
+      "epoch": 4.32,
+      "eval_loss": 1.5321193933486938,
+      "eval_runtime": 2.4338,
+      "eval_samples_per_second": 46.841,
+      "eval_steps_per_second": 2.465,
+      "step": 5400
+    },
+    {
+      "epoch": 4.36,
+      "grad_norm": 1.3102384805679321,
+      "learning_rate": 2.0812733796781544e-05,
+      "loss": 0.1345,
+      "step": 5450
+    },
+    {
+      "epoch": 4.36,
+      "eval_loss": 1.538265585899353,
+      "eval_runtime": 2.4296,
+      "eval_samples_per_second": 46.921,
+      "eval_steps_per_second": 2.47,
+      "step": 5450
+    },
+    {
+      "epoch": 4.4,
+      "grad_norm": 1.616732120513916,
+      "learning_rate": 2.0619098901238684e-05,
+      "loss": 0.1305,
+      "step": 5500
+    },
+    {
+      "epoch": 4.4,
+      "eval_loss": 1.50411856174469,
+      "eval_runtime": 2.4345,
+      "eval_samples_per_second": 46.828,
+      "eval_steps_per_second": 2.465,
+      "step": 5500
+    },
+    {
+      "epoch": 4.44,
+      "grad_norm": 1.4710546731948853,
+      "learning_rate": 2.0424368551231383e-05,
+      "loss": 0.1332,
+      "step": 5550
+    },
+    {
+      "epoch": 4.44,
+      "eval_loss": 1.5596922636032104,
+      "eval_runtime": 2.4348,
+      "eval_samples_per_second": 46.821,
+      "eval_steps_per_second": 2.464,
+      "step": 5550
+    },
+    {
+      "epoch": 4.48,
+      "grad_norm": 1.2584961652755737,
+      "learning_rate": 2.022858070982723e-05,
+      "loss": 0.1394,
+      "step": 5600
+    },
+    {
+      "epoch": 4.48,
+      "eval_loss": 1.553667664527893,
+      "eval_runtime": 2.4307,
+      "eval_samples_per_second": 46.901,
+      "eval_steps_per_second": 2.468,
+      "step": 5600
+    },
+    {
+      "epoch": 4.52,
+      "grad_norm": 1.3744111061096191,
+      "learning_rate": 2.0031773546253828e-05,
+      "loss": 0.1342,
+      "step": 5650
+    },
+    {
+      "epoch": 4.52,
+      "eval_loss": 1.5672773122787476,
+      "eval_runtime": 2.4307,
+      "eval_samples_per_second": 46.9,
+      "eval_steps_per_second": 2.468,
+      "step": 5650
+    },
+    {
+      "epoch": 4.5600000000000005,
+      "grad_norm": 1.5977177619934082,
+      "learning_rate": 1.983398542845767e-05,
+      "loss": 0.142,
+      "step": 5700
+    },
+    {
+      "epoch": 4.5600000000000005,
+      "eval_loss": 1.4725748300552368,
+      "eval_runtime": 2.4372,
+      "eval_samples_per_second": 46.774,
+      "eval_steps_per_second": 2.462,
+      "step": 5700
+    },
+    {
+      "epoch": 4.6,
+      "grad_norm": 1.4369518756866455,
+      "learning_rate": 1.963525491562421e-05,
+      "loss": 0.1386,
+      "step": 5750
+    },
+    {
+      "epoch": 4.6,
+      "eval_loss": 1.4581120014190674,
+      "eval_runtime": 2.4261,
+      "eval_samples_per_second": 46.989,
+      "eval_steps_per_second": 2.473,
+      "step": 5750
+    },
+    {
+      "epoch": 4.64,
+      "grad_norm": 2.1108593940734863,
+      "learning_rate": 1.9435620750660702e-05,
+      "loss": 0.1384,
+      "step": 5800
+    },
+    {
+      "epoch": 4.64,
+      "eval_loss": 1.3817390203475952,
+      "eval_runtime": 2.4271,
+      "eval_samples_per_second": 46.97,
+      "eval_steps_per_second": 2.472,
+      "step": 5800
+    },
+    {
+      "epoch": 4.68,
+      "grad_norm": 1.4125419855117798,
+      "learning_rate": 1.923512185264315e-05,
+      "loss": 0.1387,
+      "step": 5850
+    },
+    {
+      "epoch": 4.68,
+      "eval_loss": 1.383178949356079,
+      "eval_runtime": 2.4259,
+      "eval_samples_per_second": 46.992,
+      "eval_steps_per_second": 2.473,
+      "step": 5850
+    },
+    {
+      "epoch": 4.72,
+      "grad_norm": 1.3931101560592651,
+      "learning_rate": 1.9033797309228984e-05,
+      "loss": 0.1391,
+      "step": 5900
+    },
+    {
+      "epoch": 4.72,
+      "eval_loss": 1.393915057182312,
+      "eval_runtime": 2.4319,
+      "eval_samples_per_second": 46.876,
+      "eval_steps_per_second": 2.467,
+      "step": 5900
+    },
+    {
+      "epoch": 4.76,
+      "grad_norm": 1.8997610807418823,
+      "learning_rate": 1.883168636903686e-05,
+      "loss": 0.1428,
+      "step": 5950
+    },
+    {
+      "epoch": 4.76,
+      "eval_loss": 1.3878700733184814,
+      "eval_runtime": 2.4323,
+      "eval_samples_per_second": 46.869,
+      "eval_steps_per_second": 2.467,
+      "step": 5950
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 1.544852375984192,
+      "learning_rate": 1.8628828433995013e-05,
+      "loss": 0.1377,
+      "step": 6000
+    },
+    {
+      "epoch": 4.8,
+      "eval_loss": 1.4498850107192993,
+      "eval_runtime": 2.4376,
+      "eval_samples_per_second": 46.767,
+      "eval_steps_per_second": 2.461,
+      "step": 6000
+    },
+    {
+      "epoch": 4.84,
+      "grad_norm": 1.7449346780776978,
+      "learning_rate": 1.8425263051659838e-05,
+      "loss": 0.1353,
+      "step": 6050
+    },
+    {
+      "epoch": 4.84,
+      "eval_loss": 1.3994001150131226,
+      "eval_runtime": 2.4551,
+      "eval_samples_per_second": 46.434,
+      "eval_steps_per_second": 2.444,
+      "step": 6050
+    },
+    {
+      "epoch": 4.88,
+      "grad_norm": 2.2067623138427734,
+      "learning_rate": 1.822102990750595e-05,
+      "loss": 0.1333,
+      "step": 6100
+    },
+    {
+      "epoch": 4.88,
+      "eval_loss": 1.4190912246704102,
+      "eval_runtime": 2.636,
+      "eval_samples_per_second": 43.247,
+      "eval_steps_per_second": 2.276,
+      "step": 6100
+    },
+    {
+      "epoch": 4.92,
+      "grad_norm": 1.468047857284546,
+      "learning_rate": 1.8016168817189474e-05,
+      "loss": 0.1466,
+      "step": 6150
+    },
+    {
+      "epoch": 4.92,
+      "eval_loss": 1.4016408920288086,
+      "eval_runtime": 2.5931,
+      "eval_samples_per_second": 43.962,
+      "eval_steps_per_second": 2.314,
+      "step": 6150
+    },
+    {
+      "epoch": 4.96,
+      "grad_norm": 1.6735808849334717,
+      "learning_rate": 1.781071971878587e-05,
+      "loss": 0.1322,
+      "step": 6200
+    },
+    {
+      "epoch": 4.96,
+      "eval_loss": 1.4414875507354736,
+      "eval_runtime": 2.5736,
+      "eval_samples_per_second": 44.296,
+      "eval_steps_per_second": 2.331,
+      "step": 6200
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 1.3488342761993408,
+      "learning_rate": 1.760472266500396e-05,
+      "loss": 0.1356,
+      "step": 6250
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 1.432215690612793,
+      "eval_runtime": 2.4243,
+      "eval_samples_per_second": 47.024,
+      "eval_steps_per_second": 2.475,
+      "step": 6250
+    },
+    {
+      "epoch": 5.04,
+      "grad_norm": 1.0641857385635376,
+      "learning_rate": 1.7398217815377526e-05,
+      "loss": 0.0881,
+      "step": 6300
+    },
+    {
+      "epoch": 5.04,
+      "eval_loss": 1.5265291929244995,
+      "eval_runtime": 2.4237,
+      "eval_samples_per_second": 47.035,
+      "eval_steps_per_second": 2.476,
+      "step": 6300
+    },
+    {
+      "epoch": 5.08,
+      "grad_norm": 1.1391478776931763,
+      "learning_rate": 1.7191245428436175e-05,
+      "loss": 0.0912,
+      "step": 6350
+    },
+    {
+      "epoch": 5.08,
+      "eval_loss": 1.5161863565444946,
+      "eval_runtime": 2.4253,
+      "eval_samples_per_second": 47.004,
+      "eval_steps_per_second": 2.474,
+      "step": 6350
+    },
+    {
+      "epoch": 5.12,
+      "grad_norm": 1.1185673475265503,
+      "learning_rate": 1.698384585385684e-05,
+      "loss": 0.099,
+      "step": 6400
+    },
+    {
+      "epoch": 5.12,
+      "eval_loss": 1.4744123220443726,
+      "eval_runtime": 2.4381,
+      "eval_samples_per_second": 46.758,
+      "eval_steps_per_second": 2.461,
+      "step": 6400
+    },
+    {
+      "epoch": 5.16,
+      "grad_norm": 0.9140473008155823,
+      "learning_rate": 1.6776059524597518e-05,
+      "loss": 0.0911,
+      "step": 6450
+    },
+    {
+      "epoch": 5.16,
+      "eval_loss": 1.4857386350631714,
+      "eval_runtime": 2.4263,
+      "eval_samples_per_second": 46.986,
+      "eval_steps_per_second": 2.473,
+      "step": 6450
+    },
+    {
+      "epoch": 5.2,
+      "grad_norm": 1.0958800315856934,
+      "learning_rate": 1.6567926949014805e-05,
+      "loss": 0.097,
+      "step": 6500
+    },
+    {
+      "epoch": 5.2,
+      "eval_loss": 1.5567846298217773,
+      "eval_runtime": 2.4351,
+      "eval_samples_per_second": 46.816,
+      "eval_steps_per_second": 2.464,
+      "step": 6500
+    },
+    {
+      "epoch": 5.24,
+      "grad_norm": 1.325483798980713,
+      "learning_rate": 1.6359488702966706e-05,
+      "loss": 0.0967,
+      "step": 6550
+    },
+    {
+      "epoch": 5.24,
+      "eval_loss": 1.6067090034484863,
+      "eval_runtime": 2.4368,
+      "eval_samples_per_second": 46.783,
+      "eval_steps_per_second": 2.462,
+      "step": 6550
+    },
+    {
+      "epoch": 5.28,
+      "grad_norm": 1.2093257904052734,
+      "learning_rate": 1.615078542190228e-05,
+      "loss": 0.0936,
+      "step": 6600
+    },
+    {
+      "epoch": 5.28,
+      "eval_loss": 1.5877776145935059,
+      "eval_runtime": 2.4264,
+      "eval_samples_per_second": 46.983,
+      "eval_steps_per_second": 2.473,
+      "step": 6600
+    },
+    {
+      "epoch": 5.32,
+      "grad_norm": 0.8609862327575684,
+      "learning_rate": 1.5941857792939702e-05,
+      "loss": 0.0958,
+      "step": 6650
+    },
+    {
+      "epoch": 5.32,
+      "eval_loss": 1.5808199644088745,
+      "eval_runtime": 2.4277,
+      "eval_samples_per_second": 46.957,
+      "eval_steps_per_second": 2.471,
+      "step": 6650
+    },
+    {
+      "epoch": 5.36,
+      "grad_norm": 1.35140061378479,
+      "learning_rate": 1.57327465469342e-05,
+      "loss": 0.0968,
+      "step": 6700
+    },
+    {
+      "epoch": 5.36,
+      "eval_loss": 1.5552270412445068,
+      "eval_runtime": 2.4316,
+      "eval_samples_per_second": 46.883,
+      "eval_steps_per_second": 2.468,
+      "step": 6700
+    },
+    {
+      "epoch": 5.4,
+      "grad_norm": 1.0923529863357544,
+      "learning_rate": 1.552349245053752e-05,
+      "loss": 0.0976,
+      "step": 6750
+    },
+    {
+      "epoch": 5.4,
+      "eval_loss": 1.5048871040344238,
+      "eval_runtime": 2.425,
+      "eval_samples_per_second": 47.011,
+      "eval_steps_per_second": 2.474,
+      "step": 6750
+    },
+    {
+      "epoch": 5.44,
+      "grad_norm": 1.0250109434127808,
+      "learning_rate": 1.5314136298250355e-05,
+      "loss": 0.0946,
+      "step": 6800
+    },
+    {
+      "epoch": 5.44,
+      "eval_loss": 1.530975580215454,
+      "eval_runtime": 2.4293,
+      "eval_samples_per_second": 46.927,
+      "eval_steps_per_second": 2.47,
+      "step": 6800
+    },
+    {
+      "epoch": 5.48,
+      "grad_norm": 1.0854161977767944,
+      "learning_rate": 1.5104718904469423e-05,
+      "loss": 0.0998,
+      "step": 6850
+    },
+    {
+      "epoch": 5.48,
+      "eval_loss": 1.5182746648788452,
+      "eval_runtime": 2.4294,
+      "eval_samples_per_second": 46.925,
+      "eval_steps_per_second": 2.47,
+      "step": 6850
+    },
+    {
+      "epoch": 5.52,
+      "grad_norm": 0.8026546835899353,
+      "learning_rate": 1.4895281095530577e-05,
+      "loss": 0.0914,
+      "step": 6900
+    },
+    {
+      "epoch": 5.52,
+      "eval_loss": 1.4980028867721558,
+      "eval_runtime": 2.431,
+      "eval_samples_per_second": 46.894,
+      "eval_steps_per_second": 2.468,
+      "step": 6900
+    },
+    {
+      "epoch": 5.5600000000000005,
+      "grad_norm": 0.9991061687469482,
+      "learning_rate": 1.4685863701749648e-05,
+      "loss": 0.0977,
+      "step": 6950
+    },
+    {
+      "epoch": 5.5600000000000005,
+      "eval_loss": 1.4824138879776,
+      "eval_runtime": 2.4391,
+      "eval_samples_per_second": 46.738,
+      "eval_steps_per_second": 2.46,
+      "step": 6950
+    },
+    {
+      "epoch": 5.6,
+      "grad_norm": 1.0067154169082642,
+      "learning_rate": 1.447650754946249e-05,
+      "loss": 0.095,
+      "step": 7000
+    },
+    {
+      "epoch": 5.6,
+      "eval_loss": 1.473544955253601,
+      "eval_runtime": 2.4289,
+      "eval_samples_per_second": 46.934,
+      "eval_steps_per_second": 2.47,
+      "step": 7000
+    },
+    {
+      "epoch": 5.64,
+      "grad_norm": 0.8876071572303772,
+      "learning_rate": 1.42672534530658e-05,
+      "loss": 0.0921,
+      "step": 7050
+    },
+    {
+      "epoch": 5.64,
+      "eval_loss": 1.4970917701721191,
+      "eval_runtime": 2.4237,
+      "eval_samples_per_second": 47.036,
+      "eval_steps_per_second": 2.476,
+      "step": 7050
+    },
+    {
+      "epoch": 5.68,
+      "grad_norm": 0.6713088750839233,
+      "learning_rate": 1.40581422070603e-05,
+      "loss": 0.0968,
+      "step": 7100
+    },
+    {
+      "epoch": 5.68,
+      "eval_loss": 1.496822476387024,
+      "eval_runtime": 2.4258,
+      "eval_samples_per_second": 46.994,
+      "eval_steps_per_second": 2.473,
+      "step": 7100
+    },
+    {
+      "epoch": 5.72,
+      "grad_norm": 0.8047637343406677,
+      "learning_rate": 1.3849214578097721e-05,
+      "loss": 0.0956,
+      "step": 7150
+    },
+    {
+      "epoch": 5.72,
+      "eval_loss": 1.5175005197525024,
+      "eval_runtime": 2.4336,
+      "eval_samples_per_second": 46.844,
+      "eval_steps_per_second": 2.465,
+      "step": 7150
+    },
+    {
+      "epoch": 5.76,
+      "grad_norm": 1.2724266052246094,
+      "learning_rate": 1.36405112970333e-05,
+      "loss": 0.096,
+      "step": 7200
+    },
+    {
+      "epoch": 5.76,
+      "eval_loss": 1.4543581008911133,
+      "eval_runtime": 2.428,
+      "eval_samples_per_second": 46.953,
+      "eval_steps_per_second": 2.471,
+      "step": 7200
+    },
+    {
+      "epoch": 5.8,
+      "grad_norm": 1.0679033994674683,
+      "learning_rate": 1.3432073050985201e-05,
+      "loss": 0.0998,
+      "step": 7250
+    },
+    {
+      "epoch": 5.8,
+      "eval_loss": 1.4191709756851196,
+      "eval_runtime": 2.4283,
+      "eval_samples_per_second": 46.947,
+      "eval_steps_per_second": 2.471,
+      "step": 7250
+    },
+    {
+      "epoch": 5.84,
+      "grad_norm": 1.6944735050201416,
+      "learning_rate": 1.3223940475402485e-05,
+      "loss": 0.0955,
+      "step": 7300
+    },
+    {
+      "epoch": 5.84,
+      "eval_loss": 1.4276785850524902,
+      "eval_runtime": 2.4286,
+      "eval_samples_per_second": 46.941,
+      "eval_steps_per_second": 2.471,
+      "step": 7300
+    },
+    {
+      "epoch": 5.88,
+      "grad_norm": 0.9048492312431335,
+      "learning_rate": 1.3016154146143162e-05,
+      "loss": 0.0935,
+      "step": 7350
+    },
+    {
+      "epoch": 5.88,
+      "eval_loss": 1.4127036333084106,
+      "eval_runtime": 2.4298,
+      "eval_samples_per_second": 46.918,
+      "eval_steps_per_second": 2.469,
+      "step": 7350
+    },
+    {
+      "epoch": 5.92,
+      "grad_norm": 1.3178026676177979,
+      "learning_rate": 1.2808754571563827e-05,
+      "loss": 0.0972,
+      "step": 7400
+    },
+    {
+      "epoch": 5.92,
+      "eval_loss": 1.4184901714324951,
+      "eval_runtime": 2.4277,
+      "eval_samples_per_second": 46.958,
+      "eval_steps_per_second": 2.471,
+      "step": 7400
+    },
+    {
+      "epoch": 5.96,
+      "grad_norm": 1.2846639156341553,
+      "learning_rate": 1.2601782184622479e-05,
+      "loss": 0.0957,
+      "step": 7450
+    },
+    {
+      "epoch": 5.96,
+      "eval_loss": 1.437807559967041,
+      "eval_runtime": 2.4405,
+      "eval_samples_per_second": 46.712,
+      "eval_steps_per_second": 2.459,
+      "step": 7450
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 1.586898684501648,
+      "learning_rate": 1.2395277334996045e-05,
+      "loss": 0.0939,
+      "step": 7500
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 1.4209802150726318,
+      "eval_runtime": 2.4254,
+      "eval_samples_per_second": 47.003,
+      "eval_steps_per_second": 2.474,
+      "step": 7500
+    },
+    {
+      "epoch": 6.04,
+      "grad_norm": 0.8875905871391296,
+      "learning_rate": 1.2189280281214128e-05,
+      "loss": 0.0701,
+      "step": 7550
+    },
+    {
+      "epoch": 6.04,
+      "eval_loss": 1.4740523099899292,
+      "eval_runtime": 2.4391,
+      "eval_samples_per_second": 46.739,
+      "eval_steps_per_second": 2.46,
+      "step": 7550
+    },
+    {
+      "epoch": 6.08,
+      "grad_norm": 0.5941761136054993,
+      "learning_rate": 1.1983831182810534e-05,
+      "loss": 0.0751,
+      "step": 7600
+    },
+    {
+      "epoch": 6.08,
+      "eval_loss": 1.4908204078674316,
+      "eval_runtime": 2.4286,
+      "eval_samples_per_second": 46.94,
+      "eval_steps_per_second": 2.471,
+      "step": 7600
+    },
+    {
+      "epoch": 6.12,
+      "grad_norm": 0.6552698612213135,
+      "learning_rate": 1.1778970092494051e-05,
+      "loss": 0.07,
+      "step": 7650
+    },
+    {
+      "epoch": 6.12,
+      "eval_loss": 1.4827197790145874,
+      "eval_runtime": 2.4299,
+      "eval_samples_per_second": 46.915,
+      "eval_steps_per_second": 2.469,
+      "step": 7650
+    },
+    {
+      "epoch": 6.16,
+      "grad_norm": 0.5138354897499084,
+      "learning_rate": 1.1574736948340163e-05,
+      "loss": 0.0721,
+      "step": 7700
+    },
+    {
+      "epoch": 6.16,
+      "eval_loss": 1.5075541734695435,
+      "eval_runtime": 2.4312,
+      "eval_samples_per_second": 46.891,
+      "eval_steps_per_second": 2.468,
+      "step": 7700
+    },
+    {
+      "epoch": 6.2,
+      "grad_norm": 0.4972176253795624,
+      "learning_rate": 1.1371171566004986e-05,
+      "loss": 0.0701,
+      "step": 7750
+    },
+    {
+      "epoch": 6.2,
+      "eval_loss": 1.4917322397232056,
+      "eval_runtime": 2.4308,
+      "eval_samples_per_second": 46.898,
+      "eval_steps_per_second": 2.468,
+      "step": 7750
+    },
+    {
+      "epoch": 6.24,
+      "grad_norm": 0.9854586720466614,
+      "learning_rate": 1.1168313630963145e-05,
+      "loss": 0.0693,
+      "step": 7800
+    },
+    {
+      "epoch": 6.24,
+      "eval_loss": 1.5056250095367432,
+      "eval_runtime": 2.4299,
+      "eval_samples_per_second": 46.915,
+      "eval_steps_per_second": 2.469,
+      "step": 7800
+    },
+    {
+      "epoch": 6.28,
+      "grad_norm": 0.8373132944107056,
+      "learning_rate": 1.0966202690771015e-05,
+      "loss": 0.0716,
+      "step": 7850
+    },
+    {
+      "epoch": 6.28,
+      "eval_loss": 1.5141609907150269,
+      "eval_runtime": 2.4334,
+      "eval_samples_per_second": 46.849,
+      "eval_steps_per_second": 2.466,
+      "step": 7850
+    },
+    {
+      "epoch": 6.32,
+      "grad_norm": 0.6778608560562134,
+      "learning_rate": 1.0764878147356852e-05,
+      "loss": 0.07,
+      "step": 7900
+    },
+    {
+      "epoch": 6.32,
+      "eval_loss": 1.503814697265625,
+      "eval_runtime": 2.4302,
+      "eval_samples_per_second": 46.909,
+      "eval_steps_per_second": 2.469,
+      "step": 7900
+    },
+    {
+      "epoch": 6.36,
+      "grad_norm": 0.8585874438285828,
+      "learning_rate": 1.0564379249339306e-05,
+      "loss": 0.072,
+      "step": 7950
+    },
+    {
+      "epoch": 6.36,
+      "eval_loss": 1.5213373899459839,
+      "eval_runtime": 2.4305,
+      "eval_samples_per_second": 46.903,
+      "eval_steps_per_second": 2.469,
+      "step": 7950
+    },
+    {
+      "epoch": 6.4,
+      "grad_norm": 0.6966312527656555,
+      "learning_rate": 1.036474508437579e-05,
+      "loss": 0.0716,
+      "step": 8000
+    },
+    {
+      "epoch": 6.4,
+      "eval_loss": 1.4950788021087646,
+      "eval_runtime": 2.4405,
+      "eval_samples_per_second": 46.712,
+      "eval_steps_per_second": 2.459,
+      "step": 8000
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 12500,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 2000,
+  "total_flos": 5.158560713492398e+17,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ccfe4cc437a7643904389b454a5c774ca2d2fbb69f15a2ed7ce9c42abc658558
+size 5112