adding model files

Files changed (16) hide show

added_tokens.json +11 -0
config.json +28 -0
generation_config.json +10 -0
model-00001-of-00006.safetensors +3 -0
model-00002-of-00006.safetensors +3 -0
model-00003-of-00006.safetensors +3 -0
model-00004-of-00006.safetensors +3 -0
model-00005-of-00006.safetensors +3 -0
model-00006-of-00006.safetensors +3 -0
model.safetensors.index.json +298 -0
special_tokens_map.json +82 -0
tokenizer.json +0 -0
tokenizer.model +3 -0
tokenizer_config.json +124 -0
trainer_state.json +1341 -0
training_args.bin +3 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "</headline>": 32008,
+  "</scratchpad>": 32006,
+  "<</SYS>>": 32004,
+  "<<SYS>>": 32003,
+  "<headline>": 32007,
+  "<pad>": 32000,
+  "<scratchpad>": 32005,
+  "[/INST]": 32002,
+  "[INST]": 32001
+}

config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 11008,
+  "max_position_embeddings": 4096,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 32,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.2",
+  "use_cache": true,
+  "vocab_size": 32016
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "bos_token_id": 1,
+  "do_sample": true,
+  "eos_token_id": 2,
+  "max_length": 4096,
+  "pad_token_id": 0,
+  "temperature": 0.6,
+  "top_p": 0.9,
+  "transformers_version": "4.40.2"
+}

model-00001-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c9c88bd85e3bb1a9740d9ef6782abed2a9240bbd34a1f4a6db80b6fb564f1b45
+size 4840658560

model-00002-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:49b56125989120f9873a2b09d2d56e78be51c421eee3a81585a6c0933173662a
+size 4857206856

model-00003-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c3683735f52c796a51cce4d2c0d2188bfaf2c57c64cede6bad1d73b4f2e29914
+size 4857206904

model-00004-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:700b03719e7d69484244ac6ac41b017751f7bd4a7fef0936a2f3155ceb8e9b28
+size 4857206904

model-00005-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ca83b7fa3f42f761919bac166bba617750e8de018aab7e31034404b5f3bc6f78
+size 4857206904

model-00006-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6561a9bd0f842edff07861779901208e56d927d9d4e036c4ae3cc9a166c9fb4b
+size 2684734256

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,298 @@

+{
+  "metadata": {
+    "total_size": 26954186752
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00006-of-00006.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00006-of-00006.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00006-of-00006.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00006-of-00006.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00006-of-00006.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
+    "model.norm.weight": "model-00006-of-00006.safetensors"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,82 @@

+{
+  "additional_special_tokens": [
+    {
+      "content": "[INST]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true
+    },
+    {
+      "content": "[/INST]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true
+    },
+    {
+      "content": "<<SYS>>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true
+    },
+    {
+      "content": "<</SYS>>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true
+    },
+    {
+      "content": "<scratchpad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true
+    },
+    {
+      "content": "</scratchpad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true
+    },
+    {
+      "content": "<headline>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true
+    },
+    {
+      "content": "</headline>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true
+    }
+  ],
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,124 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32001": {
+      "content": "[INST]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "32002": {
+      "content": "[/INST]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "32003": {
+      "content": "<<SYS>>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "32004": {
+      "content": "<</SYS>>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "32005": {
+      "content": "<scratchpad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "32006": {
+      "content": "</scratchpad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "32007": {
+      "content": "<headline>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "32008": {
+      "content": "</headline>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "[INST]",
+    "[/INST]",
+    "<<SYS>>",
+    "<</SYS>>",
+    "<scratchpad>",
+    "</scratchpad>",
+    "<headline>",
+    "</headline>"
+  ],
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_to_multiple_of": 8,
+  "pad_token": "<pad>",
+  "padding_side": "left",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1341 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 4.4,
+  "eval_steps": 50,
+  "global_step": 4400,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.05,
+      "grad_norm": 14.10602855682373,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 1.8587,
+      "step": 50
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 1.2815256118774414,
+      "eval_runtime": 7.2572,
+      "eval_samples_per_second": 21.496,
+      "eval_steps_per_second": 1.102,
+      "step": 50
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 3.8822596073150635,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.9793,
+      "step": 100
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 0.8040891885757446,
+      "eval_runtime": 6.9312,
+      "eval_samples_per_second": 22.507,
+      "eval_steps_per_second": 1.154,
+      "step": 100
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 3.275252342224121,
+      "learning_rate": 3e-06,
+      "loss": 0.8281,
+      "step": 150
+    },
+    {
+      "epoch": 0.15,
+      "eval_loss": 0.7676830291748047,
+      "eval_runtime": 6.9165,
+      "eval_samples_per_second": 22.555,
+      "eval_steps_per_second": 1.157,
+      "step": 150
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 4.560257911682129,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.8047,
+      "step": 200
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 0.754139244556427,
+      "eval_runtime": 6.8938,
+      "eval_samples_per_second": 22.629,
+      "eval_steps_per_second": 1.16,
+      "step": 200
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 3.3556413650512695,
+      "learning_rate": 5e-06,
+      "loss": 0.7938,
+      "step": 250
+    },
+    {
+      "epoch": 0.25,
+      "eval_loss": 0.7503063678741455,
+      "eval_runtime": 6.9277,
+      "eval_samples_per_second": 22.518,
+      "eval_steps_per_second": 1.155,
+      "step": 250
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 3.5572423934936523,
+      "learning_rate": 6e-06,
+      "loss": 0.7844,
+      "step": 300
+    },
+    {
+      "epoch": 0.3,
+      "eval_loss": 0.7483159899711609,
+      "eval_runtime": 6.9026,
+      "eval_samples_per_second": 22.6,
+      "eval_steps_per_second": 1.159,
+      "step": 300
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 4.340659141540527,
+      "learning_rate": 7e-06,
+      "loss": 0.801,
+      "step": 350
+    },
+    {
+      "epoch": 0.35,
+      "eval_loss": 0.7476052641868591,
+      "eval_runtime": 6.9601,
+      "eval_samples_per_second": 22.413,
+      "eval_steps_per_second": 1.149,
+      "step": 350
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 2.8037617206573486,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.7688,
+      "step": 400
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 0.7439323663711548,
+      "eval_runtime": 7.0577,
+      "eval_samples_per_second": 22.103,
+      "eval_steps_per_second": 1.134,
+      "step": 400
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 2.2928292751312256,
+      "learning_rate": 9e-06,
+      "loss": 0.7456,
+      "step": 450
+    },
+    {
+      "epoch": 0.45,
+      "eval_loss": 0.7496309280395508,
+      "eval_runtime": 6.7005,
+      "eval_samples_per_second": 23.282,
+      "eval_steps_per_second": 1.194,
+      "step": 450
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 2.513007402420044,
+      "learning_rate": 1e-05,
+      "loss": 0.7574,
+      "step": 500
+    },
+    {
+      "epoch": 0.5,
+      "eval_loss": 0.760431170463562,
+      "eval_runtime": 6.9914,
+      "eval_samples_per_second": 22.313,
+      "eval_steps_per_second": 1.144,
+      "step": 500
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 2.8724193572998047,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 0.8103,
+      "step": 550
+    },
+    {
+      "epoch": 0.55,
+      "eval_loss": 0.7596396207809448,
+      "eval_runtime": 6.9713,
+      "eval_samples_per_second": 22.378,
+      "eval_steps_per_second": 1.148,
+      "step": 550
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 3.944561719894409,
+      "learning_rate": 1.2e-05,
+      "loss": 0.8383,
+      "step": 600
+    },
+    {
+      "epoch": 0.6,
+      "eval_loss": 0.7577062249183655,
+      "eval_runtime": 6.9749,
+      "eval_samples_per_second": 22.366,
+      "eval_steps_per_second": 1.147,
+      "step": 600
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 3.3384244441986084,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 0.807,
+      "step": 650
+    },
+    {
+      "epoch": 0.65,
+      "eval_loss": 0.7623900175094604,
+      "eval_runtime": 7.0043,
+      "eval_samples_per_second": 22.272,
+      "eval_steps_per_second": 1.142,
+      "step": 650
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 3.0667245388031006,
+      "learning_rate": 1.4e-05,
+      "loss": 0.7463,
+      "step": 700
+    },
+    {
+      "epoch": 0.7,
+      "eval_loss": 0.7695620656013489,
+      "eval_runtime": 6.901,
+      "eval_samples_per_second": 22.606,
+      "eval_steps_per_second": 1.159,
+      "step": 700
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 2.665961503982544,
+      "learning_rate": 1.5000000000000002e-05,
+      "loss": 0.7642,
+      "step": 750
+    },
+    {
+      "epoch": 0.75,
+      "eval_loss": 0.7753486037254333,
+      "eval_runtime": 6.928,
+      "eval_samples_per_second": 22.517,
+      "eval_steps_per_second": 1.155,
+      "step": 750
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 2.939502477645874,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.7815,
+      "step": 800
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 0.7749003171920776,
+      "eval_runtime": 6.9232,
+      "eval_samples_per_second": 22.533,
+      "eval_steps_per_second": 1.156,
+      "step": 800
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 2.3935534954071045,
+      "learning_rate": 1.7e-05,
+      "loss": 0.8035,
+      "step": 850
+    },
+    {
+      "epoch": 0.85,
+      "eval_loss": 0.7803038954734802,
+      "eval_runtime": 6.9127,
+      "eval_samples_per_second": 22.567,
+      "eval_steps_per_second": 1.157,
+      "step": 850
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 3.4815456867218018,
+      "learning_rate": 1.8e-05,
+      "loss": 0.8308,
+      "step": 900
+    },
+    {
+      "epoch": 0.9,
+      "eval_loss": 0.7828717827796936,
+      "eval_runtime": 6.9328,
+      "eval_samples_per_second": 22.502,
+      "eval_steps_per_second": 1.154,
+      "step": 900
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 4.300642490386963,
+      "learning_rate": 1.9e-05,
+      "loss": 0.8076,
+      "step": 950
+    },
+    {
+      "epoch": 0.95,
+      "eval_loss": 0.7808383107185364,
+      "eval_runtime": 6.9657,
+      "eval_samples_per_second": 22.396,
+      "eval_steps_per_second": 1.148,
+      "step": 950
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 1.9347244501113892,
+      "learning_rate": 2e-05,
+      "loss": 0.8275,
+      "step": 1000
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.7858062982559204,
+      "eval_runtime": 6.9369,
+      "eval_samples_per_second": 22.488,
+      "eval_steps_per_second": 1.153,
+      "step": 1000
+    },
+    {
+      "epoch": 1.05,
+      "grad_norm": 2.5742897987365723,
+      "learning_rate": 1.9998476951563914e-05,
+      "loss": 0.5636,
+      "step": 1050
+    },
+    {
+      "epoch": 1.05,
+      "eval_loss": 0.8295591473579407,
+      "eval_runtime": 7.0273,
+      "eval_samples_per_second": 22.199,
+      "eval_steps_per_second": 1.138,
+      "step": 1050
+    },
+    {
+      "epoch": 1.1,
+      "grad_norm": 2.8644659519195557,
+      "learning_rate": 1.999390827019096e-05,
+      "loss": 0.5272,
+      "step": 1100
+    },
+    {
+      "epoch": 1.1,
+      "eval_loss": 0.8290258646011353,
+      "eval_runtime": 6.7042,
+      "eval_samples_per_second": 23.269,
+      "eval_steps_per_second": 1.193,
+      "step": 1100
+    },
+    {
+      "epoch": 1.15,
+      "grad_norm": 2.5120139122009277,
+      "learning_rate": 1.9986295347545738e-05,
+      "loss": 0.5827,
+      "step": 1150
+    },
+    {
+      "epoch": 1.15,
+      "eval_loss": 0.8223973512649536,
+      "eval_runtime": 6.9562,
+      "eval_samples_per_second": 22.426,
+      "eval_steps_per_second": 1.15,
+      "step": 1150
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 2.4437294006347656,
+      "learning_rate": 1.9975640502598243e-05,
+      "loss": 0.5405,
+      "step": 1200
+    },
+    {
+      "epoch": 1.2,
+      "eval_loss": 0.8263209462165833,
+      "eval_runtime": 6.9428,
+      "eval_samples_per_second": 22.469,
+      "eval_steps_per_second": 1.152,
+      "step": 1200
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 2.228208303451538,
+      "learning_rate": 1.9961946980917457e-05,
+      "loss": 0.544,
+      "step": 1250
+    },
+    {
+      "epoch": 1.25,
+      "eval_loss": 0.8332598805427551,
+      "eval_runtime": 7.0103,
+      "eval_samples_per_second": 22.253,
+      "eval_steps_per_second": 1.141,
+      "step": 1250
+    },
+    {
+      "epoch": 1.3,
+      "grad_norm": 2.4918081760406494,
+      "learning_rate": 1.9945218953682736e-05,
+      "loss": 0.547,
+      "step": 1300
+    },
+    {
+      "epoch": 1.3,
+      "eval_loss": 0.8328695297241211,
+      "eval_runtime": 6.7754,
+      "eval_samples_per_second": 23.024,
+      "eval_steps_per_second": 1.181,
+      "step": 1300
+    },
+    {
+      "epoch": 1.35,
+      "grad_norm": 3.276204824447632,
+      "learning_rate": 1.9925461516413224e-05,
+      "loss": 0.5767,
+      "step": 1350
+    },
+    {
+      "epoch": 1.35,
+      "eval_loss": 0.835900604724884,
+      "eval_runtime": 7.0628,
+      "eval_samples_per_second": 22.087,
+      "eval_steps_per_second": 1.133,
+      "step": 1350
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 1.7088249921798706,
+      "learning_rate": 1.9902680687415704e-05,
+      "loss": 0.5688,
+      "step": 1400
+    },
+    {
+      "epoch": 1.4,
+      "eval_loss": 0.8228172063827515,
+      "eval_runtime": 7.1179,
+      "eval_samples_per_second": 21.917,
+      "eval_steps_per_second": 1.124,
+      "step": 1400
+    },
+    {
+      "epoch": 1.45,
+      "grad_norm": 2.187713146209717,
+      "learning_rate": 1.9876883405951378e-05,
+      "loss": 0.5728,
+      "step": 1450
+    },
+    {
+      "epoch": 1.45,
+      "eval_loss": 0.8308163285255432,
+      "eval_runtime": 6.9337,
+      "eval_samples_per_second": 22.499,
+      "eval_steps_per_second": 1.154,
+      "step": 1450
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 2.2441632747650146,
+      "learning_rate": 1.9848077530122083e-05,
+      "loss": 0.5418,
+      "step": 1500
+    },
+    {
+      "epoch": 1.5,
+      "eval_loss": 0.8370471596717834,
+      "eval_runtime": 6.9593,
+      "eval_samples_per_second": 22.416,
+      "eval_steps_per_second": 1.15,
+      "step": 1500
+    },
+    {
+      "epoch": 1.55,
+      "grad_norm": 1.869532585144043,
+      "learning_rate": 1.9816271834476642e-05,
+      "loss": 0.5711,
+      "step": 1550
+    },
+    {
+      "epoch": 1.55,
+      "eval_loss": 0.8113475441932678,
+      "eval_runtime": 6.9514,
+      "eval_samples_per_second": 22.441,
+      "eval_steps_per_second": 1.151,
+      "step": 1550
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 2.4652626514434814,
+      "learning_rate": 1.9781476007338058e-05,
+      "loss": 0.574,
+      "step": 1600
+    },
+    {
+      "epoch": 1.6,
+      "eval_loss": 0.8253814578056335,
+      "eval_runtime": 7.0005,
+      "eval_samples_per_second": 22.284,
+      "eval_steps_per_second": 1.143,
+      "step": 1600
+    },
+    {
+      "epoch": 1.65,
+      "grad_norm": 2.070685386657715,
+      "learning_rate": 1.9743700647852356e-05,
+      "loss": 0.5671,
+      "step": 1650
+    },
+    {
+      "epoch": 1.65,
+      "eval_loss": 0.8208895921707153,
+      "eval_runtime": 6.9799,
+      "eval_samples_per_second": 22.35,
+      "eval_steps_per_second": 1.146,
+      "step": 1650
+    },
+    {
+      "epoch": 1.7,
+      "grad_norm": 2.0222079753875732,
+      "learning_rate": 1.9702957262759964e-05,
+      "loss": 0.5972,
+      "step": 1700
+    },
+    {
+      "epoch": 1.7,
+      "eval_loss": 0.8163178563117981,
+      "eval_runtime": 6.7184,
+      "eval_samples_per_second": 23.22,
+      "eval_steps_per_second": 1.191,
+      "step": 1700
+    },
+    {
+      "epoch": 1.75,
+      "grad_norm": 2.8927528858184814,
+      "learning_rate": 1.9659258262890683e-05,
+      "loss": 0.5754,
+      "step": 1750
+    },
+    {
+      "epoch": 1.75,
+      "eval_loss": 0.8138474225997925,
+      "eval_runtime": 6.9225,
+      "eval_samples_per_second": 22.535,
+      "eval_steps_per_second": 1.156,
+      "step": 1750
+    },
+    {
+      "epoch": 1.8,
+      "grad_norm": 2.848783493041992,
+      "learning_rate": 1.961261695938319e-05,
+      "loss": 0.5687,
+      "step": 1800
+    },
+    {
+      "epoch": 1.8,
+      "eval_loss": 0.8202130198478699,
+      "eval_runtime": 6.9651,
+      "eval_samples_per_second": 22.397,
+      "eval_steps_per_second": 1.149,
+      "step": 1800
+    },
+    {
+      "epoch": 1.85,
+      "grad_norm": 2.328615188598633,
+      "learning_rate": 1.9563047559630356e-05,
+      "loss": 0.5798,
+      "step": 1850
+    },
+    {
+      "epoch": 1.85,
+      "eval_loss": 0.8171597123146057,
+      "eval_runtime": 7.0576,
+      "eval_samples_per_second": 22.104,
+      "eval_steps_per_second": 1.134,
+      "step": 1850
+    },
+    {
+      "epoch": 1.9,
+      "grad_norm": 2.039862871170044,
+      "learning_rate": 1.9510565162951538e-05,
+      "loss": 0.5994,
+      "step": 1900
+    },
+    {
+      "epoch": 1.9,
+      "eval_loss": 0.8086227774620056,
+      "eval_runtime": 6.7431,
+      "eval_samples_per_second": 23.135,
+      "eval_steps_per_second": 1.186,
+      "step": 1900
+    },
+    {
+      "epoch": 1.95,
+      "grad_norm": 2.465532064437866,
+      "learning_rate": 1.945518575599317e-05,
+      "loss": 0.5583,
+      "step": 1950
+    },
+    {
+      "epoch": 1.95,
+      "eval_loss": 0.8103993535041809,
+      "eval_runtime": 6.9308,
+      "eval_samples_per_second": 22.508,
+      "eval_steps_per_second": 1.154,
+      "step": 1950
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 2.5345568656921387,
+      "learning_rate": 1.9396926207859085e-05,
+      "loss": 0.5925,
+      "step": 2000
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.8217712044715881,
+      "eval_runtime": 7.0596,
+      "eval_samples_per_second": 22.097,
+      "eval_steps_per_second": 1.133,
+      "step": 2000
+    },
+    {
+      "epoch": 2.05,
+      "grad_norm": 1.883388638496399,
+      "learning_rate": 1.9335804264972018e-05,
+      "loss": 0.2903,
+      "step": 2050
+    },
+    {
+      "epoch": 2.05,
+      "eval_loss": 0.9038016200065613,
+      "eval_runtime": 6.6993,
+      "eval_samples_per_second": 23.286,
+      "eval_steps_per_second": 1.194,
+      "step": 2050
+    },
+    {
+      "epoch": 2.1,
+      "grad_norm": 2.125532865524292,
+      "learning_rate": 1.9271838545667876e-05,
+      "loss": 0.2939,
+      "step": 2100
+    },
+    {
+      "epoch": 2.1,
+      "eval_loss": 0.9306617379188538,
+      "eval_runtime": 7.0134,
+      "eval_samples_per_second": 22.243,
+      "eval_steps_per_second": 1.141,
+      "step": 2100
+    },
+    {
+      "epoch": 2.15,
+      "grad_norm": 1.8348636627197266,
+      "learning_rate": 1.9205048534524405e-05,
+      "loss": 0.2847,
+      "step": 2150
+    },
+    {
+      "epoch": 2.15,
+      "eval_loss": 0.927678644657135,
+      "eval_runtime": 6.9793,
+      "eval_samples_per_second": 22.352,
+      "eval_steps_per_second": 1.146,
+      "step": 2150
+    },
+    {
+      "epoch": 2.2,
+      "grad_norm": 1.950291395187378,
+      "learning_rate": 1.913545457642601e-05,
+      "loss": 0.2816,
+      "step": 2200
+    },
+    {
+      "epoch": 2.2,
+      "eval_loss": 0.9336847066879272,
+      "eval_runtime": 6.9608,
+      "eval_samples_per_second": 22.411,
+      "eval_steps_per_second": 1.149,
+      "step": 2200
+    },
+    {
+      "epoch": 2.25,
+      "grad_norm": 1.860474944114685,
+      "learning_rate": 1.9063077870366504e-05,
+      "loss": 0.2852,
+      "step": 2250
+    },
+    {
+      "epoch": 2.25,
+      "eval_loss": 0.9168179035186768,
+      "eval_runtime": 6.9583,
+      "eval_samples_per_second": 22.419,
+      "eval_steps_per_second": 1.15,
+      "step": 2250
+    },
+    {
+      "epoch": 2.3,
+      "grad_norm": 2.410311698913574,
+      "learning_rate": 1.8987940462991673e-05,
+      "loss": 0.3079,
+      "step": 2300
+    },
+    {
+      "epoch": 2.3,
+      "eval_loss": 0.9347082376480103,
+      "eval_runtime": 6.9811,
+      "eval_samples_per_second": 22.346,
+      "eval_steps_per_second": 1.146,
+      "step": 2300
+    },
+    {
+      "epoch": 2.35,
+      "grad_norm": 2.778449535369873,
+      "learning_rate": 1.891006524188368e-05,
+      "loss": 0.3011,
+      "step": 2350
+    },
+    {
+      "epoch": 2.35,
+      "eval_loss": 0.9322410225868225,
+      "eval_runtime": 6.911,
+      "eval_samples_per_second": 22.573,
+      "eval_steps_per_second": 1.158,
+      "step": 2350
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 2.2411606311798096,
+      "learning_rate": 1.8829475928589272e-05,
+      "loss": 0.3035,
+      "step": 2400
+    },
+    {
+      "epoch": 2.4,
+      "eval_loss": 0.9373205900192261,
+      "eval_runtime": 6.9832,
+      "eval_samples_per_second": 22.339,
+      "eval_steps_per_second": 1.146,
+      "step": 2400
+    },
+    {
+      "epoch": 2.45,
+      "grad_norm": 2.2924418449401855,
+      "learning_rate": 1.874619707139396e-05,
+      "loss": 0.3113,
+      "step": 2450
+    },
+    {
+      "epoch": 2.45,
+      "eval_loss": 0.9366490244865417,
+      "eval_runtime": 7.0758,
+      "eval_samples_per_second": 22.047,
+      "eval_steps_per_second": 1.131,
+      "step": 2450
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 2.174010753631592,
+      "learning_rate": 1.866025403784439e-05,
+      "loss": 0.3027,
+      "step": 2500
+    },
+    {
+      "epoch": 2.5,
+      "eval_loss": 0.9629231691360474,
+      "eval_runtime": 6.7091,
+      "eval_samples_per_second": 23.252,
+      "eval_steps_per_second": 1.192,
+      "step": 2500
+    },
+    {
+      "epoch": 2.55,
+      "grad_norm": 1.9265005588531494,
+      "learning_rate": 1.8571673007021124e-05,
+      "loss": 0.3205,
+      "step": 2550
+    },
+    {
+      "epoch": 2.55,
+      "eval_loss": 0.9262107610702515,
+      "eval_runtime": 6.9019,
+      "eval_samples_per_second": 22.602,
+      "eval_steps_per_second": 1.159,
+      "step": 2550
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 2.3890748023986816,
+      "learning_rate": 1.848048096156426e-05,
+      "loss": 0.3147,
+      "step": 2600
+    },
+    {
+      "epoch": 2.6,
+      "eval_loss": 0.9423943758010864,
+      "eval_runtime": 6.963,
+      "eval_samples_per_second": 22.404,
+      "eval_steps_per_second": 1.149,
+      "step": 2600
+    },
+    {
+      "epoch": 2.65,
+      "grad_norm": 1.9728659391403198,
+      "learning_rate": 1.8386705679454243e-05,
+      "loss": 0.3026,
+      "step": 2650
+    },
+    {
+      "epoch": 2.65,
+      "eval_loss": 0.948650062084198,
+      "eval_runtime": 6.9468,
+      "eval_samples_per_second": 22.456,
+      "eval_steps_per_second": 1.152,
+      "step": 2650
+    },
+    {
+      "epoch": 2.7,
+      "grad_norm": 2.072758913040161,
+      "learning_rate": 1.8290375725550417e-05,
+      "loss": 0.3023,
+      "step": 2700
+    },
+    {
+      "epoch": 2.7,
+      "eval_loss": 0.9387075901031494,
+      "eval_runtime": 6.9794,
+      "eval_samples_per_second": 22.352,
+      "eval_steps_per_second": 1.146,
+      "step": 2700
+    },
+    {
+      "epoch": 2.75,
+      "grad_norm": 1.645221471786499,
+      "learning_rate": 1.819152044288992e-05,
+      "loss": 0.3074,
+      "step": 2750
+    },
+    {
+      "epoch": 2.75,
+      "eval_loss": 0.9418818354606628,
+      "eval_runtime": 6.9867,
+      "eval_samples_per_second": 22.328,
+      "eval_steps_per_second": 1.145,
+      "step": 2750
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": 2.4617958068847656,
+      "learning_rate": 1.8090169943749477e-05,
+      "loss": 0.311,
+      "step": 2800
+    },
+    {
+      "epoch": 2.8,
+      "eval_loss": 0.952977180480957,
+      "eval_runtime": 6.9627,
+      "eval_samples_per_second": 22.405,
+      "eval_steps_per_second": 1.149,
+      "step": 2800
+    },
+    {
+      "epoch": 2.85,
+      "grad_norm": 1.7149707078933716,
+      "learning_rate": 1.798635510047293e-05,
+      "loss": 0.3252,
+      "step": 2850
+    },
+    {
+      "epoch": 2.85,
+      "eval_loss": 0.9482938051223755,
+      "eval_runtime": 6.9299,
+      "eval_samples_per_second": 22.511,
+      "eval_steps_per_second": 1.154,
+      "step": 2850
+    },
+    {
+      "epoch": 2.9,
+      "grad_norm": 2.310058116912842,
+      "learning_rate": 1.788010753606722e-05,
+      "loss": 0.308,
+      "step": 2900
+    },
+    {
+      "epoch": 2.9,
+      "eval_loss": 0.9215130805969238,
+      "eval_runtime": 6.9772,
+      "eval_samples_per_second": 22.359,
+      "eval_steps_per_second": 1.147,
+      "step": 2900
+    },
+    {
+      "epoch": 2.95,
+      "grad_norm": 2.1262900829315186,
+      "learning_rate": 1.777145961456971e-05,
+      "loss": 0.3107,
+      "step": 2950
+    },
+    {
+      "epoch": 2.95,
+      "eval_loss": 0.9511628746986389,
+      "eval_runtime": 6.961,
+      "eval_samples_per_second": 22.411,
+      "eval_steps_per_second": 1.149,
+      "step": 2950
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 1.5521520376205444,
+      "learning_rate": 1.766044443118978e-05,
+      "loss": 0.3094,
+      "step": 3000
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.9323577880859375,
+      "eval_runtime": 6.9701,
+      "eval_samples_per_second": 22.381,
+      "eval_steps_per_second": 1.148,
+      "step": 3000
+    },
+    {
+      "epoch": 3.05,
+      "grad_norm": 1.9140851497650146,
+      "learning_rate": 1.7547095802227723e-05,
+      "loss": 0.1646,
+      "step": 3050
+    },
+    {
+      "epoch": 3.05,
+      "eval_loss": 1.0182551145553589,
+      "eval_runtime": 6.9727,
+      "eval_samples_per_second": 22.373,
+      "eval_steps_per_second": 1.147,
+      "step": 3050
+    },
+    {
+      "epoch": 3.1,
+      "grad_norm": 1.8293534517288208,
+      "learning_rate": 1.7431448254773943e-05,
+      "loss": 0.174,
+      "step": 3100
+    },
+    {
+      "epoch": 3.1,
+      "eval_loss": 1.0358622074127197,
+      "eval_runtime": 7.062,
+      "eval_samples_per_second": 22.09,
+      "eval_steps_per_second": 1.133,
+      "step": 3100
+    },
+    {
+      "epoch": 3.15,
+      "grad_norm": 1.386757254600525,
+      "learning_rate": 1.7313537016191706e-05,
+      "loss": 0.1623,
+      "step": 3150
+    },
+    {
+      "epoch": 3.15,
+      "eval_loss": 1.0526723861694336,
+      "eval_runtime": 6.7139,
+      "eval_samples_per_second": 23.235,
+      "eval_steps_per_second": 1.192,
+      "step": 3150
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 1.3546067476272583,
+      "learning_rate": 1.7193398003386514e-05,
+      "loss": 0.1623,
+      "step": 3200
+    },
+    {
+      "epoch": 3.2,
+      "eval_loss": 1.0583354234695435,
+      "eval_runtime": 7.061,
+      "eval_samples_per_second": 22.093,
+      "eval_steps_per_second": 1.133,
+      "step": 3200
+    },
+    {
+      "epoch": 3.25,
+      "grad_norm": 1.3248480558395386,
+      "learning_rate": 1.7071067811865477e-05,
+      "loss": 0.1708,
+      "step": 3250
+    },
+    {
+      "epoch": 3.25,
+      "eval_loss": 1.046079397201538,
+      "eval_runtime": 6.9829,
+      "eval_samples_per_second": 22.34,
+      "eval_steps_per_second": 1.146,
+      "step": 3250
+    },
+    {
+      "epoch": 3.3,
+      "grad_norm": 1.6571605205535889,
+      "learning_rate": 1.6946583704589973e-05,
+      "loss": 0.1765,
+      "step": 3300
+    },
+    {
+      "epoch": 3.3,
+      "eval_loss": 1.0281801223754883,
+      "eval_runtime": 6.9743,
+      "eval_samples_per_second": 22.368,
+      "eval_steps_per_second": 1.147,
+      "step": 3300
+    },
+    {
+      "epoch": 3.35,
+      "grad_norm": 1.876293659210205,
+      "learning_rate": 1.6819983600624986e-05,
+      "loss": 0.1723,
+      "step": 3350
+    },
+    {
+      "epoch": 3.35,
+      "eval_loss": 1.0281037092208862,
+      "eval_runtime": 7.0756,
+      "eval_samples_per_second": 22.048,
+      "eval_steps_per_second": 1.131,
+      "step": 3350
+    },
+    {
+      "epoch": 3.4,
+      "grad_norm": 1.571351170539856,
+      "learning_rate": 1.6691306063588583e-05,
+      "loss": 0.1692,
+      "step": 3400
+    },
+    {
+      "epoch": 3.4,
+      "eval_loss": 1.043171763420105,
+      "eval_runtime": 6.6743,
+      "eval_samples_per_second": 23.373,
+      "eval_steps_per_second": 1.199,
+      "step": 3400
+    },
+    {
+      "epoch": 3.45,
+      "grad_norm": 1.4466336965560913,
+      "learning_rate": 1.6560590289905074e-05,
+      "loss": 0.1755,
+      "step": 3450
+    },
+    {
+      "epoch": 3.45,
+      "eval_loss": 1.0497896671295166,
+      "eval_runtime": 6.9883,
+      "eval_samples_per_second": 22.323,
+      "eval_steps_per_second": 1.145,
+      "step": 3450
+    },
+    {
+      "epoch": 3.5,
+      "grad_norm": 1.7230181694030762,
+      "learning_rate": 1.6427876096865394e-05,
+      "loss": 0.1739,
+      "step": 3500
+    },
+    {
+      "epoch": 3.5,
+      "eval_loss": 1.0415854454040527,
+      "eval_runtime": 7.0894,
+      "eval_samples_per_second": 22.005,
+      "eval_steps_per_second": 1.128,
+      "step": 3500
+    },
+    {
+      "epoch": 3.55,
+      "grad_norm": 1.1267095804214478,
+      "learning_rate": 1.6293203910498375e-05,
+      "loss": 0.1741,
+      "step": 3550
+    },
+    {
+      "epoch": 3.55,
+      "eval_loss": 1.0593791007995605,
+      "eval_runtime": 6.7082,
+      "eval_samples_per_second": 23.255,
+      "eval_steps_per_second": 1.193,
+      "step": 3550
+    },
+    {
+      "epoch": 3.6,
+      "grad_norm": 1.923794150352478,
+      "learning_rate": 1.6156614753256583e-05,
+      "loss": 0.1764,
+      "step": 3600
+    },
+    {
+      "epoch": 3.6,
+      "eval_loss": 1.037401795387268,
+      "eval_runtime": 7.0167,
+      "eval_samples_per_second": 22.233,
+      "eval_steps_per_second": 1.14,
+      "step": 3600
+    },
+    {
+      "epoch": 3.65,
+      "grad_norm": 1.545517921447754,
+      "learning_rate": 1.6018150231520486e-05,
+      "loss": 0.1775,
+      "step": 3650
+    },
+    {
+      "epoch": 3.65,
+      "eval_loss": 1.0683374404907227,
+      "eval_runtime": 7.0018,
+      "eval_samples_per_second": 22.28,
+      "eval_steps_per_second": 1.143,
+      "step": 3650
+    },
+    {
+      "epoch": 3.7,
+      "grad_norm": 1.7744944095611572,
+      "learning_rate": 1.5877852522924733e-05,
+      "loss": 0.1816,
+      "step": 3700
+    },
+    {
+      "epoch": 3.7,
+      "eval_loss": 1.04556405544281,
+      "eval_runtime": 6.9847,
+      "eval_samples_per_second": 22.334,
+      "eval_steps_per_second": 1.145,
+      "step": 3700
+    },
+    {
+      "epoch": 3.75,
+      "grad_norm": 1.6511001586914062,
+      "learning_rate": 1.573576436351046e-05,
+      "loss": 0.1776,
+      "step": 3750
+    },
+    {
+      "epoch": 3.75,
+      "eval_loss": 1.0450345277786255,
+      "eval_runtime": 7.0016,
+      "eval_samples_per_second": 22.281,
+      "eval_steps_per_second": 1.143,
+      "step": 3750
+    },
+    {
+      "epoch": 3.8,
+      "grad_norm": 1.681025505065918,
+      "learning_rate": 1.5591929034707468e-05,
+      "loss": 0.1723,
+      "step": 3800
+    },
+    {
+      "epoch": 3.8,
+      "eval_loss": 1.0498697757720947,
+      "eval_runtime": 6.9797,
+      "eval_samples_per_second": 22.351,
+      "eval_steps_per_second": 1.146,
+      "step": 3800
+    },
+    {
+      "epoch": 3.85,
+      "grad_norm": 1.7957446575164795,
+      "learning_rate": 1.5446390350150272e-05,
+      "loss": 0.1744,
+      "step": 3850
+    },
+    {
+      "epoch": 3.85,
+      "eval_loss": 1.0522431135177612,
+      "eval_runtime": 6.9742,
+      "eval_samples_per_second": 22.368,
+      "eval_steps_per_second": 1.147,
+      "step": 3850
+    },
+    {
+      "epoch": 3.9,
+      "grad_norm": 1.160187005996704,
+      "learning_rate": 1.529919264233205e-05,
+      "loss": 0.1749,
+      "step": 3900
+    },
+    {
+      "epoch": 3.9,
+      "eval_loss": 1.0369728803634644,
+      "eval_runtime": 6.9919,
+      "eval_samples_per_second": 22.312,
+      "eval_steps_per_second": 1.144,
+      "step": 3900
+    },
+    {
+      "epoch": 3.95,
+      "grad_norm": 1.6003044843673706,
+      "learning_rate": 1.5150380749100545e-05,
+      "loss": 0.1693,
+      "step": 3950
+    },
+    {
+      "epoch": 3.95,
+      "eval_loss": 1.0573968887329102,
+      "eval_runtime": 6.9371,
+      "eval_samples_per_second": 22.488,
+      "eval_steps_per_second": 1.153,
+      "step": 3950
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 1.5659364461898804,
+      "learning_rate": 1.5000000000000002e-05,
+      "loss": 0.1766,
+      "step": 4000
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 1.0426336526870728,
+      "eval_runtime": 6.9426,
+      "eval_samples_per_second": 22.47,
+      "eval_steps_per_second": 1.152,
+      "step": 4000
+    },
+    {
+      "epoch": 4.05,
+      "grad_norm": 1.4741019010543823,
+      "learning_rate": 1.4848096202463373e-05,
+      "loss": 0.0875,
+      "step": 4050
+    },
+    {
+      "epoch": 4.05,
+      "eval_loss": 1.1515307426452637,
+      "eval_runtime": 7.0311,
+      "eval_samples_per_second": 22.187,
+      "eval_steps_per_second": 1.138,
+      "step": 4050
+    },
+    {
+      "epoch": 4.1,
+      "grad_norm": 1.7246599197387695,
+      "learning_rate": 1.469471562785891e-05,
+      "loss": 0.0915,
+      "step": 4100
+    },
+    {
+      "epoch": 4.1,
+      "eval_loss": 1.1431708335876465,
+      "eval_runtime": 6.7986,
+      "eval_samples_per_second": 22.946,
+      "eval_steps_per_second": 1.177,
+      "step": 4100
+    },
+    {
+      "epoch": 4.15,
+      "grad_norm": 1.3817429542541504,
+      "learning_rate": 1.4539904997395468e-05,
+      "loss": 0.0897,
+      "step": 4150
+    },
+    {
+      "epoch": 4.15,
+      "eval_loss": 1.1611740589141846,
+      "eval_runtime": 6.9615,
+      "eval_samples_per_second": 22.409,
+      "eval_steps_per_second": 1.149,
+      "step": 4150
+    },
+    {
+      "epoch": 4.2,
+      "grad_norm": 1.071362853050232,
+      "learning_rate": 1.4383711467890776e-05,
+      "loss": 0.0913,
+      "step": 4200
+    },
+    {
+      "epoch": 4.2,
+      "eval_loss": 1.149824857711792,
+      "eval_runtime": 6.9511,
+      "eval_samples_per_second": 22.442,
+      "eval_steps_per_second": 1.151,
+      "step": 4200
+    },
+    {
+      "epoch": 4.25,
+      "grad_norm": 1.5283039808273315,
+      "learning_rate": 1.4226182617406996e-05,
+      "loss": 0.0865,
+      "step": 4250
+    },
+    {
+      "epoch": 4.25,
+      "eval_loss": 1.141707181930542,
+      "eval_runtime": 7.0817,
+      "eval_samples_per_second": 22.028,
+      "eval_steps_per_second": 1.13,
+      "step": 4250
+    },
+    {
+      "epoch": 4.3,
+      "grad_norm": 1.3611563444137573,
+      "learning_rate": 1.4067366430758004e-05,
+      "loss": 0.0959,
+      "step": 4300
+    },
+    {
+      "epoch": 4.3,
+      "eval_loss": 1.1580748558044434,
+      "eval_runtime": 6.6737,
+      "eval_samples_per_second": 23.375,
+      "eval_steps_per_second": 1.199,
+      "step": 4300
+    },
+    {
+      "epoch": 4.35,
+      "grad_norm": 1.3242157697677612,
+      "learning_rate": 1.3907311284892737e-05,
+      "loss": 0.0912,
+      "step": 4350
+    },
+    {
+      "epoch": 4.35,
+      "eval_loss": 1.150386095046997,
+      "eval_runtime": 6.9971,
+      "eval_samples_per_second": 22.295,
+      "eval_steps_per_second": 1.143,
+      "step": 4350
+    },
+    {
+      "epoch": 4.4,
+      "grad_norm": 1.581061840057373,
+      "learning_rate": 1.3746065934159123e-05,
+      "loss": 0.0934,
+      "step": 4400
+    },
+    {
+      "epoch": 4.4,
+      "eval_loss": 1.153538703918457,
+      "eval_runtime": 6.9473,
+      "eval_samples_per_second": 22.455,
+      "eval_steps_per_second": 1.152,
+      "step": 4400
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 10000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 400,
+  "total_flos": 2.5095258948973363e+17,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:309daa55a53937945fa5fc5ee1df3926bf941f7990d4cc6c2cc6ce7e5e220274
+size 5112