rabiulawal commited on May 8

Commit

7048b2e

verified ·

1 Parent(s): 1dbdee5

Add files using upload-large-folder tool

Browse files

Files changed (17) hide show

config.json +38 -0
generation_config.json +7 -0
model-00001-of-00004.safetensors +3 -0
model-00002-of-00004.safetensors +3 -0
model-00003-of-00004.safetensors +3 -0
model-00004-of-00004.safetensors +3 -0
model.safetensors.index.json +298 -0
rng_state_0.pth +3 -0
rng_state_1.pth +3 -0
rng_state_2.pth +3 -0
rng_state_3.pth +3 -0
rng_state_4.pth +3 -0
rng_state_5.pth +3 -0
rng_state_6.pth +3 -0
rng_state_7.pth +3 -0
trainer_state.json +1089 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "_name_or_path": "/mnt/stardoc/escher/checkpoints/Emu3-Base-SFT-without_cot-Mar04_256_lr1e-4/checkpoint-11600",
+  "architectures": [
+    "Emu3ForCausalLM"
+  ],
+  "attention_dropout": 0.1,
+  "auto_map": {
+    "AutoConfig": "BAAI/Emu3-Stage1--configuration_emu3.Emu3Config",
+    "AutoModelForCausalLM": "BAAI/Emu3-Stage1--modeling_emu3.Emu3ForCausalLM"
+  },
+  "boi_token_id": 151852,
+  "bos_token_id": 151849,
+  "eof_token_id": 151847,
+  "eoi_token_id": 151853,
+  "eol_token_id": 151846,
+  "eos_token_id": 151850,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "image_area": 65536,
+  "img_token_id": 151851,
+  "initializer_range": 0.02,
+  "intermediate_size": 14336,
+  "max_position_embeddings": 4300,
+  "model_type": "Emu3",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 8,
+  "pad_token_id": 151643,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.44.0",
+  "use_cache": false,
+  "vocab_size": 184622
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 151849,
+  "eos_token_id": 151850,
+  "pad_token_id": 151643,
+  "transformers_version": "4.44.0"
+}

model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b0e93ef690d217f7b0b83b6f45f6708fa75015fed943fe724e80934a6a2c3e11
+size 4884766656

model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5e348d9ca31a8ddbbf733dfc66c8300dd5df40205ca9376fa3577178cd9030b5
+size 4999819320

model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e1aa240be163d8ad7859ccf6f75023f0411a52c1f0914a95af58bd86210d70fc
+size 4915916184

model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d986ee90a8f7dc9f9c6cdb38f481cbf50308d43ea1e3f5854f5bd858aac67aea
+size 2183554760

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,298 @@

+{
+  "metadata": {
+    "total_size": 16984023040
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00004-of-00004.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.norm.weight": "model-00004-of-00004.safetensors"
+  }
+}

rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a38be4bafd19c9709c916cbdf3bb0d24a4d54b7beee42a689b90be58f9d0a254
+size 15984

rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:df39f271d9dc598368618fdf84ac293e1df8ce296d8c6e60a46dbebde29f1613
+size 15984

rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6d63a96ea9dc866ad74d3a0841e3476e08435b922c44451c0e4f0daf7f1785f5
+size 15984

rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:711417848bf8a7a1fe368e0e584e27e55cbfba2b4d5c04f272ad77c58b1420a9
+size 15984

rng_state_4.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:981cfdd4bf58e48d68f23c4a220ba02012fbdb05e47f222ece3cfcd5b4680c46
+size 15984

rng_state_5.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6f1fe6a05ea90223c8fd2e6717b22c6d267d3d9cfba7851086a9f35c538ddfbc
+size 15984

rng_state_6.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2996adfe835967a8da93c7c664ecc50dbd0461e36bc10f1f7baaaa0801fb68b0
+size 15984

rng_state_7.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:45e68c55c0008bdeed2eacae0df016e3b20226f6f1862f952c00d0c64296c337
+size 15984

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1089 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 4.596745243508436,
+  "eval_steps": 100,
+  "global_step": 4800,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.047864066052411156,
+      "grad_norm": 1.8448210254110051,
+      "learning_rate": 0.0001,
+      "loss": 3.0105,
+      "step": 50
+    },
+    {
+      "epoch": 0.09572813210482231,
+      "grad_norm": 3.031350218009488,
+      "learning_rate": 9.999434313792203e-05,
+      "loss": 2.1128,
+      "step": 100
+    },
+    {
+      "epoch": 0.09572813210482231,
+      "eval_loss": 2.215362310409546,
+      "eval_runtime": 21.1651,
+      "eval_samples_per_second": 78.856,
+      "eval_steps_per_second": 2.504,
+      "step": 100
+    },
+    {
+      "epoch": 0.14359219815723345,
+      "grad_norm": 1.6850632845975553,
+      "learning_rate": 9.997737384462097e-05,
+      "loss": 1.9469,
+      "step": 150
+    },
+    {
+      "epoch": 0.19145626420964462,
+      "grad_norm": 1.2243584455167913,
+      "learning_rate": 9.994909599859993e-05,
+      "loss": 1.867,
+      "step": 200
+    },
+    {
+      "epoch": 0.19145626420964462,
+      "eval_loss": 2.0263774394989014,
+      "eval_runtime": 21.0874,
+      "eval_samples_per_second": 79.147,
+      "eval_steps_per_second": 2.513,
+      "step": 200
+    },
+    {
+      "epoch": 0.23932033026205576,
+      "grad_norm": 1.0729055090983661,
+      "learning_rate": 9.990951606304577e-05,
+      "loss": 1.8034,
+      "step": 250
+    },
+    {
+      "epoch": 0.2871843963144669,
+      "grad_norm": 0.9165676753698264,
+      "learning_rate": 9.985864308435186e-05,
+      "loss": 1.7682,
+      "step": 300
+    },
+    {
+      "epoch": 0.2871843963144669,
+      "eval_loss": 1.9485853910446167,
+      "eval_runtime": 21.0717,
+      "eval_samples_per_second": 79.206,
+      "eval_steps_per_second": 2.515,
+      "step": 300
+    },
+    {
+      "epoch": 0.3350484623668781,
+      "grad_norm": 1.1325681880153728,
+      "learning_rate": 9.979648869005052e-05,
+      "loss": 1.7404,
+      "step": 350
+    },
+    {
+      "epoch": 0.38291252841928924,
+      "grad_norm": 0.755313580182909,
+      "learning_rate": 9.972306708615532e-05,
+      "loss": 1.7019,
+      "step": 400
+    },
+    {
+      "epoch": 0.38291252841928924,
+      "eval_loss": 1.9063043594360352,
+      "eval_runtime": 21.0138,
+      "eval_samples_per_second": 79.424,
+      "eval_steps_per_second": 2.522,
+      "step": 400
+    },
+    {
+      "epoch": 0.43077659447170036,
+      "grad_norm": 1.1717374264056053,
+      "learning_rate": 9.963839505391421e-05,
+      "loss": 1.6788,
+      "step": 450
+    },
+    {
+      "epoch": 0.4786406605241115,
+      "grad_norm": 0.6787604600054761,
+      "learning_rate": 9.954249194597396e-05,
+      "loss": 1.6453,
+      "step": 500
+    },
+    {
+      "epoch": 0.4786406605241115,
+      "eval_loss": 1.8607771396636963,
+      "eval_runtime": 21.0412,
+      "eval_samples_per_second": 79.321,
+      "eval_steps_per_second": 2.519,
+      "step": 500
+    },
+    {
+      "epoch": 0.5265047265765227,
+      "grad_norm": 1.0494549836889278,
+      "learning_rate": 9.9435379681957e-05,
+      "loss": 1.6312,
+      "step": 550
+    },
+    {
+      "epoch": 0.5743687926289338,
+      "grad_norm": 0.9009235548667002,
+      "learning_rate": 9.931708274345138e-05,
+      "loss": 1.6216,
+      "step": 600
+    },
+    {
+      "epoch": 0.5743687926289338,
+      "eval_loss": 1.8505535125732422,
+      "eval_runtime": 21.0451,
+      "eval_samples_per_second": 79.306,
+      "eval_steps_per_second": 2.518,
+      "step": 600
+    },
+    {
+      "epoch": 0.622232858681345,
+      "grad_norm": 0.9461906039738908,
+      "learning_rate": 9.918762816841531e-05,
+      "loss": 1.6006,
+      "step": 650
+    },
+    {
+      "epoch": 0.6700969247337561,
+      "grad_norm": 0.6498644193748047,
+      "learning_rate": 9.904704554499731e-05,
+      "loss": 1.5799,
+      "step": 700
+    },
+    {
+      "epoch": 0.6700969247337561,
+      "eval_loss": 1.8395333290100098,
+      "eval_runtime": 21.0713,
+      "eval_samples_per_second": 79.207,
+      "eval_steps_per_second": 2.515,
+      "step": 700
+    },
+    {
+      "epoch": 0.7179609907861673,
+      "grad_norm": 0.9074833522097235,
+      "learning_rate": 9.889536700477361e-05,
+      "loss": 1.5536,
+      "step": 750
+    },
+    {
+      "epoch": 0.7658250568385785,
+      "grad_norm": 1.2230252736094536,
+      "learning_rate": 9.873262721540407e-05,
+      "loss": 1.5309,
+      "step": 800
+    },
+    {
+      "epoch": 0.7658250568385785,
+      "eval_loss": 1.8257369995117188,
+      "eval_runtime": 21.043,
+      "eval_samples_per_second": 79.314,
+      "eval_steps_per_second": 2.519,
+      "step": 800
+    },
+    {
+      "epoch": 0.8136891228909896,
+      "grad_norm": 0.6253647163206384,
+      "learning_rate": 9.855886337270864e-05,
+      "loss": 1.5119,
+      "step": 850
+    },
+    {
+      "epoch": 0.8615531889434007,
+      "grad_norm": 0.8410735177579716,
+      "learning_rate": 9.837411519216579e-05,
+      "loss": 1.5006,
+      "step": 900
+    },
+    {
+      "epoch": 0.8615531889434007,
+      "eval_loss": 1.8272072076797485,
+      "eval_runtime": 21.0343,
+      "eval_samples_per_second": 79.346,
+      "eval_steps_per_second": 2.52,
+      "step": 900
+    },
+    {
+      "epoch": 0.9094172549958119,
+      "grad_norm": 0.8123655725998327,
+      "learning_rate": 9.817842489983516e-05,
+      "loss": 1.4689,
+      "step": 950
+    },
+    {
+      "epoch": 0.957281321048223,
+      "grad_norm": 0.8342490687040726,
+      "learning_rate": 9.79718372227064e-05,
+      "loss": 1.4501,
+      "step": 1000
+    },
+    {
+      "epoch": 0.957281321048223,
+      "eval_loss": 1.8140053749084473,
+      "eval_runtime": 20.9975,
+      "eval_samples_per_second": 79.486,
+      "eval_steps_per_second": 2.524,
+      "step": 1000
+    },
+    {
+      "epoch": 1.0051453871006342,
+      "grad_norm": 1.1480754068243832,
+      "learning_rate": 9.775439937847636e-05,
+      "loss": 1.409,
+      "step": 1050
+    },
+    {
+      "epoch": 1.0530094531530454,
+      "grad_norm": 0.8492357134830527,
+      "learning_rate": 9.752616106475695e-05,
+      "loss": 1.3296,
+      "step": 1100
+    },
+    {
+      "epoch": 1.0530094531530454,
+      "eval_loss": 1.859767198562622,
+      "eval_runtime": 21.0033,
+      "eval_samples_per_second": 79.464,
+      "eval_steps_per_second": 2.523,
+      "step": 1100
+    },
+    {
+      "epoch": 1.1008735192054564,
+      "grad_norm": 0.968321964763954,
+      "learning_rate": 9.728717444771633e-05,
+      "loss": 1.3173,
+      "step": 1150
+    },
+    {
+      "epoch": 1.1487375852578676,
+      "grad_norm": 1.0176178029142426,
+      "learning_rate": 9.703749415015574e-05,
+      "loss": 1.279,
+      "step": 1200
+    },
+    {
+      "epoch": 1.1487375852578676,
+      "eval_loss": 1.8694957494735718,
+      "eval_runtime": 21.048,
+      "eval_samples_per_second": 79.295,
+      "eval_steps_per_second": 2.518,
+      "step": 1200
+    },
+    {
+      "epoch": 1.1966016513102788,
+      "grad_norm": 1.4236331269499436,
+      "learning_rate": 9.677717723902497e-05,
+      "loss": 1.2846,
+      "step": 1250
+    },
+    {
+      "epoch": 1.24446571736269,
+      "grad_norm": 0.8091348177738549,
+      "learning_rate": 9.650628321237907e-05,
+      "loss": 1.2543,
+      "step": 1300
+    },
+    {
+      "epoch": 1.24446571736269,
+      "eval_loss": 1.9360653162002563,
+      "eval_runtime": 21.0174,
+      "eval_samples_per_second": 79.41,
+      "eval_steps_per_second": 2.522,
+      "step": 1300
+    },
+    {
+      "epoch": 1.292329783415101,
+      "grad_norm": 0.7101275086446335,
+      "learning_rate": 9.622487398577953e-05,
+      "loss": 1.2405,
+      "step": 1350
+    },
+    {
+      "epoch": 1.3401938494675123,
+      "grad_norm": 0.6671838434267677,
+      "learning_rate": 9.59330138781428e-05,
+      "loss": 1.2367,
+      "step": 1400
+    },
+    {
+      "epoch": 1.3401938494675123,
+      "eval_loss": 1.9549767971038818,
+      "eval_runtime": 21.0544,
+      "eval_samples_per_second": 79.271,
+      "eval_steps_per_second": 2.517,
+      "step": 1400
+    },
+    {
+      "epoch": 1.3880579155199233,
+      "grad_norm": 0.6439294837331946,
+      "learning_rate": 9.563076959703957e-05,
+      "loss": 1.2101,
+      "step": 1450
+    },
+    {
+      "epoch": 1.4359219815723345,
+      "grad_norm": 0.7664976988303212,
+      "learning_rate": 9.531821022344813e-05,
+      "loss": 1.2183,
+      "step": 1500
+    },
+    {
+      "epoch": 1.4359219815723345,
+      "eval_loss": 1.9080383777618408,
+      "eval_runtime": 21.0279,
+      "eval_samples_per_second": 79.371,
+      "eval_steps_per_second": 2.52,
+      "step": 1500
+    },
+    {
+      "epoch": 1.4837860476247458,
+      "grad_norm": 0.7410488484186188,
+      "learning_rate": 9.499540719596515e-05,
+      "loss": 1.1824,
+      "step": 1550
+    },
+    {
+      "epoch": 1.531650113677157,
+      "grad_norm": 0.6607970750322004,
+      "learning_rate": 9.466243429447768e-05,
+      "loss": 1.1784,
+      "step": 1600
+    },
+    {
+      "epoch": 1.531650113677157,
+      "eval_loss": 2.0337448120117188,
+      "eval_runtime": 21.0701,
+      "eval_samples_per_second": 79.212,
+      "eval_steps_per_second": 2.515,
+      "step": 1600
+    },
+    {
+      "epoch": 1.579514179729568,
+      "grad_norm": 0.8404237223930839,
+      "learning_rate": 9.431936762330004e-05,
+      "loss": 1.1493,
+      "step": 1650
+    },
+    {
+      "epoch": 1.6273782457819792,
+      "grad_norm": 0.7694756450704843,
+      "learning_rate": 9.396628559377941e-05,
+      "loss": 1.148,
+      "step": 1700
+    },
+    {
+      "epoch": 1.6273782457819792,
+      "eval_loss": 2.067599058151245,
+      "eval_runtime": 21.1062,
+      "eval_samples_per_second": 79.076,
+      "eval_steps_per_second": 2.511,
+      "step": 1700
+    },
+    {
+      "epoch": 1.6752423118343902,
+      "grad_norm": 0.5992205912066282,
+      "learning_rate": 9.360326890637407e-05,
+      "loss": 1.1228,
+      "step": 1750
+    },
+    {
+      "epoch": 1.7231063778868014,
+      "grad_norm": 0.8664470255174751,
+      "learning_rate": 9.323040053220862e-05,
+      "loss": 1.1263,
+      "step": 1800
+    },
+    {
+      "epoch": 1.7231063778868014,
+      "eval_loss": 2.1029019355773926,
+      "eval_runtime": 21.0537,
+      "eval_samples_per_second": 79.273,
+      "eval_steps_per_second": 2.517,
+      "step": 1800
+    },
+    {
+      "epoch": 1.7709704439392127,
+      "grad_norm": 0.6459603286404826,
+      "learning_rate": 9.284776569410994e-05,
+      "loss": 1.1215,
+      "step": 1850
+    },
+    {
+      "epoch": 1.8188345099916239,
+      "grad_norm": 0.5908873970173206,
+      "learning_rate": 9.245545184712873e-05,
+      "loss": 1.0918,
+      "step": 1900
+    },
+    {
+      "epoch": 1.8188345099916239,
+      "eval_loss": 2.2022502422332764,
+      "eval_runtime": 21.0942,
+      "eval_samples_per_second": 79.121,
+      "eval_steps_per_second": 2.513,
+      "step": 1900
+    },
+    {
+      "epoch": 1.866698576044035,
+      "grad_norm": 0.8614612167467028,
+      "learning_rate": 9.205354865855082e-05,
+      "loss": 1.0904,
+      "step": 1950
+    },
+    {
+      "epoch": 1.914562642096446,
+      "grad_norm": 0.7165356146762782,
+      "learning_rate": 9.164214798740274e-05,
+      "loss": 1.0676,
+      "step": 2000
+    },
+    {
+      "epoch": 1.914562642096446,
+      "eval_loss": 2.255880117416382,
+      "eval_runtime": 21.0788,
+      "eval_samples_per_second": 79.179,
+      "eval_steps_per_second": 2.514,
+      "step": 2000
+    },
+    {
+      "epoch": 1.9624267081488571,
+      "grad_norm": 0.788521035581266,
+      "learning_rate": 9.122134386345641e-05,
+      "loss": 1.0561,
+      "step": 2050
+    },
+    {
+      "epoch": 2.0102907742012683,
+      "grad_norm": 0.7592948480598436,
+      "learning_rate": 9.079123246573775e-05,
+      "loss": 1.0499,
+      "step": 2100
+    },
+    {
+      "epoch": 2.0102907742012683,
+      "eval_loss": 2.354480504989624,
+      "eval_runtime": 21.0068,
+      "eval_samples_per_second": 79.451,
+      "eval_steps_per_second": 2.523,
+      "step": 2100
+    },
+    {
+      "epoch": 2.0581548402536796,
+      "grad_norm": 0.45289566958700733,
+      "learning_rate": 9.035191210054393e-05,
+      "loss": 0.9826,
+      "step": 2150
+    },
+    {
+      "epoch": 2.106018906306091,
+      "grad_norm": 0.6087678469648697,
+      "learning_rate": 8.990348317897447e-05,
+      "loss": 0.9745,
+      "step": 2200
+    },
+    {
+      "epoch": 2.106018906306091,
+      "eval_loss": 2.3817625045776367,
+      "eval_runtime": 21.0797,
+      "eval_samples_per_second": 79.176,
+      "eval_steps_per_second": 2.514,
+      "step": 2200
+    },
+    {
+      "epoch": 2.153882972358502,
+      "grad_norm": 0.5635460239865,
+      "learning_rate": 8.944604819398137e-05,
+      "loss": 0.9735,
+      "step": 2250
+    },
+    {
+      "epoch": 2.201747038410913,
+      "grad_norm": 0.4480848478738139,
+      "learning_rate": 8.897971169694319e-05,
+      "loss": 0.9535,
+      "step": 2300
+    },
+    {
+      "epoch": 2.201747038410913,
+      "eval_loss": 2.3746585845947266,
+      "eval_runtime": 21.0773,
+      "eval_samples_per_second": 79.185,
+      "eval_steps_per_second": 2.515,
+      "step": 2300
+    },
+    {
+      "epoch": 2.249611104463324,
+      "grad_norm": 0.7926613203890769,
+      "learning_rate": 8.850458027376885e-05,
+      "loss": 0.9542,
+      "step": 2350
+    },
+    {
+      "epoch": 2.2974751705157352,
+      "grad_norm": 0.5265416667258557,
+      "learning_rate": 8.802076252053634e-05,
+      "loss": 0.9582,
+      "step": 2400
+    },
+    {
+      "epoch": 2.2974751705157352,
+      "eval_loss": 2.3976855278015137,
+      "eval_runtime": 21.0616,
+      "eval_samples_per_second": 79.244,
+      "eval_steps_per_second": 2.516,
+      "step": 2400
+    },
+    {
+      "epoch": 2.3453392365681465,
+      "grad_norm": 0.5890939821852947,
+      "learning_rate": 8.752836901867192e-05,
+      "loss": 0.9604,
+      "step": 2450
+    },
+    {
+      "epoch": 2.3932033026205577,
+      "grad_norm": 1.004593418572418,
+      "learning_rate": 8.702751230967574e-05,
+      "loss": 0.9327,
+      "step": 2500
+    },
+    {
+      "epoch": 2.3932033026205577,
+      "eval_loss": 2.4603569507598877,
+      "eval_runtime": 21.1448,
+      "eval_samples_per_second": 78.932,
+      "eval_steps_per_second": 2.507,
+      "step": 2500
+    },
+    {
+      "epoch": 2.441067368672969,
+      "grad_norm": 0.5349468531081598,
+      "learning_rate": 8.651830686939928e-05,
+      "loss": 0.9552,
+      "step": 2550
+    },
+    {
+      "epoch": 2.48893143472538,
+      "grad_norm": 0.5512335365948596,
+      "learning_rate": 8.600086908188067e-05,
+      "loss": 0.9461,
+      "step": 2600
+    },
+    {
+      "epoch": 2.48893143472538,
+      "eval_loss": 2.484816074371338,
+      "eval_runtime": 21.0387,
+      "eval_samples_per_second": 79.33,
+      "eval_steps_per_second": 2.519,
+      "step": 2600
+    },
+    {
+      "epoch": 2.536795500777791,
+      "grad_norm": 2.4257517359045724,
+      "learning_rate": 8.547531721274413e-05,
+      "loss": 0.9345,
+      "step": 2650
+    },
+    {
+      "epoch": 2.584659566830202,
+      "grad_norm": 0.505849093857287,
+      "learning_rate": 8.494177138216894e-05,
+      "loss": 0.9487,
+      "step": 2700
+    },
+    {
+      "epoch": 2.584659566830202,
+      "eval_loss": 2.4580276012420654,
+      "eval_runtime": 21.0889,
+      "eval_samples_per_second": 79.141,
+      "eval_steps_per_second": 2.513,
+      "step": 2700
+    },
+    {
+      "epoch": 2.6325236328826134,
+      "grad_norm": 0.887374714400711,
+      "learning_rate": 8.440035353743496e-05,
+      "loss": 0.936,
+      "step": 2750
+    },
+    {
+      "epoch": 2.6803876989350246,
+      "grad_norm": 0.4720229831631241,
+      "learning_rate": 8.385118742505025e-05,
+      "loss": 0.919,
+      "step": 2800
+    },
+    {
+      "epoch": 2.6803876989350246,
+      "eval_loss": 2.530785322189331,
+      "eval_runtime": 21.0488,
+      "eval_samples_per_second": 79.292,
+      "eval_steps_per_second": 2.518,
+      "step": 2800
+    },
+    {
+      "epoch": 2.728251764987436,
+      "grad_norm": 0.5194208757023896,
+      "learning_rate": 8.329439856246754e-05,
+      "loss": 0.9192,
+      "step": 2850
+    },
+    {
+      "epoch": 2.7761158310398466,
+      "grad_norm": 0.6580393941466575,
+      "learning_rate": 8.273011420939601e-05,
+      "loss": 0.9236,
+      "step": 2900
+    },
+    {
+      "epoch": 2.7761158310398466,
+      "eval_loss": 2.5706753730773926,
+      "eval_runtime": 21.0715,
+      "eval_samples_per_second": 79.207,
+      "eval_steps_per_second": 2.515,
+      "step": 2900
+    },
+    {
+      "epoch": 2.823979897092258,
+      "grad_norm": 0.4499866190476793,
+      "learning_rate": 8.215846333871479e-05,
+      "loss": 0.9055,
+      "step": 2950
+    },
+    {
+      "epoch": 2.871843963144669,
+      "grad_norm": 0.47319436577853424,
+      "learning_rate": 8.157957660699487e-05,
+      "loss": 0.9173,
+      "step": 3000
+    },
+    {
+      "epoch": 2.871843963144669,
+      "eval_loss": 2.5460734367370605,
+      "eval_runtime": 21.0903,
+      "eval_samples_per_second": 79.136,
+      "eval_steps_per_second": 2.513,
+      "step": 3000
+    },
+    {
+      "epoch": 2.9197080291970803,
+      "grad_norm": 0.5406088894148916,
+      "learning_rate": 8.099358632463625e-05,
+      "loss": 0.8987,
+      "step": 3050
+    },
+    {
+      "epoch": 2.9675720952494915,
+      "grad_norm": 0.5415925821849361,
+      "learning_rate": 8.040062642562707e-05,
+      "loss": 0.9149,
+      "step": 3100
+    },
+    {
+      "epoch": 2.9675720952494915,
+      "eval_loss": 2.5993332862854004,
+      "eval_runtime": 21.0799,
+      "eval_samples_per_second": 79.175,
+      "eval_steps_per_second": 2.514,
+      "step": 3100
+    },
+    {
+      "epoch": 3.0154361613019027,
+      "grad_norm": 0.5895563971474631,
+      "learning_rate": 7.980083243693163e-05,
+      "loss": 0.8721,
+      "step": 3150
+    },
+    {
+      "epoch": 3.063300227354314,
+      "grad_norm": 0.5196758581908888,
+      "learning_rate": 7.919434144751435e-05,
+      "loss": 0.8001,
+      "step": 3200
+    },
+    {
+      "epoch": 3.063300227354314,
+      "eval_loss": 2.716139793395996,
+      "eval_runtime": 21.042,
+      "eval_samples_per_second": 79.318,
+      "eval_steps_per_second": 2.519,
+      "step": 3200
+    },
+    {
+      "epoch": 3.1111642934067247,
+      "grad_norm": 0.4270428798513727,
+      "learning_rate": 7.858129207700669e-05,
+      "loss": 0.8201,
+      "step": 3250
+    },
+    {
+      "epoch": 3.159028359459136,
+      "grad_norm": 0.3627950292769719,
+      "learning_rate": 7.796182444402422e-05,
+      "loss": 0.8155,
+      "step": 3300
+    },
+    {
+      "epoch": 3.159028359459136,
+      "eval_loss": 2.7008538246154785,
+      "eval_runtime": 21.1035,
+      "eval_samples_per_second": 79.087,
+      "eval_steps_per_second": 2.511,
+      "step": 3300
+    },
+    {
+      "epoch": 3.206892425511547,
+      "grad_norm": 0.4065490298404093,
+      "learning_rate": 7.733608013414119e-05,
+      "loss": 0.8111,
+      "step": 3350
+    },
+    {
+      "epoch": 3.2547564915639584,
+      "grad_norm": 0.42889313551956876,
+      "learning_rate": 7.670420216752956e-05,
+      "loss": 0.7987,
+      "step": 3400
+    },
+    {
+      "epoch": 3.2547564915639584,
+      "eval_loss": 2.6770336627960205,
+      "eval_runtime": 21.0695,
+      "eval_samples_per_second": 79.214,
+      "eval_steps_per_second": 2.515,
+      "step": 3400
+    },
+    {
+      "epoch": 3.3026205576163696,
+      "grad_norm": 0.4217567084634303,
+      "learning_rate": 7.606633496627045e-05,
+      "loss": 0.8145,
+      "step": 3450
+    },
+    {
+      "epoch": 3.3504846236687804,
+      "grad_norm": 1.6322652790106957,
+      "learning_rate": 7.542262432134494e-05,
+      "loss": 0.8173,
+      "step": 3500
+    },
+    {
+      "epoch": 3.3504846236687804,
+      "eval_loss": 2.7087204456329346,
+      "eval_runtime": 21.0624,
+      "eval_samples_per_second": 79.241,
+      "eval_steps_per_second": 2.516,
+      "step": 3500
+    },
+    {
+      "epoch": 3.3983486897211916,
+      "grad_norm": 0.36566860920317223,
+      "learning_rate": 7.477321735931209e-05,
+      "loss": 0.8091,
+      "step": 3550
+    },
+    {
+      "epoch": 3.446212755773603,
+      "grad_norm": 0.4809930959754767,
+      "learning_rate": 7.411826250868163e-05,
+      "loss": 0.813,
+      "step": 3600
+    },
+    {
+      "epoch": 3.446212755773603,
+      "eval_loss": 2.717087745666504,
+      "eval_runtime": 21.0919,
+      "eval_samples_per_second": 79.13,
+      "eval_steps_per_second": 2.513,
+      "step": 3600
+    },
+    {
+      "epoch": 3.4958717243029795,
+      "grad_norm": 0.5496017380355079,
+      "learning_rate": 7.345790946598922e-05,
+      "loss": 0.8004,
+      "step": 3650
+    },
+    {
+      "epoch": 3.5437357903553908,
+      "grad_norm": 0.4803109269616191,
+      "learning_rate": 7.279230916158176e-05,
+      "loss": 0.7928,
+      "step": 3700
+    },
+    {
+      "epoch": 3.5437357903553908,
+      "eval_loss": 2.7619569301605225,
+      "eval_runtime": 21.3609,
+      "eval_samples_per_second": 78.134,
+      "eval_steps_per_second": 2.481,
+      "step": 3700
+    },
+    {
+      "epoch": 3.591599856407802,
+      "grad_norm": 0.3252479820212815,
+      "learning_rate": 7.212161372512069e-05,
+      "loss": 0.7898,
+      "step": 3750
+    },
+    {
+      "epoch": 3.639463922460213,
+      "grad_norm": 0.9705997172962069,
+      "learning_rate": 7.144597645081128e-05,
+      "loss": 0.7991,
+      "step": 3800
+    },
+    {
+      "epoch": 3.639463922460213,
+      "eval_loss": 2.6866140365600586,
+      "eval_runtime": 21.343,
+      "eval_samples_per_second": 78.199,
+      "eval_steps_per_second": 2.483,
+      "step": 3800
+    },
+    {
+      "epoch": 3.687327988512624,
+      "grad_norm": 0.3273212997136576,
+      "learning_rate": 7.076555176236569e-05,
+      "loss": 0.7914,
+      "step": 3850
+    },
+    {
+      "epoch": 3.7351920545650352,
+      "grad_norm": 0.7433963628381278,
+      "learning_rate": 7.008049517770782e-05,
+      "loss": 0.7937,
+      "step": 3900
+    },
+    {
+      "epoch": 3.7351920545650352,
+      "eval_loss": 2.733802080154419,
+      "eval_runtime": 21.3212,
+      "eval_samples_per_second": 78.279,
+      "eval_steps_per_second": 2.486,
+      "step": 3900
+    },
+    {
+      "epoch": 3.7830561206174464,
+      "grad_norm": 0.3278726533320577,
+      "learning_rate": 6.939096327342817e-05,
+      "loss": 0.7962,
+      "step": 3950
+    },
+    {
+      "epoch": 3.8309201866698577,
+      "grad_norm": 0.403526762761248,
+      "learning_rate": 6.86971136489967e-05,
+      "loss": 0.7827,
+      "step": 4000
+    },
+    {
+      "epoch": 3.8309201866698577,
+      "eval_loss": 2.7678627967834473,
+      "eval_runtime": 21.3082,
+      "eval_samples_per_second": 78.327,
+      "eval_steps_per_second": 2.487,
+      "step": 4000
+    },
+    {
+      "epoch": 3.878784252722269,
+      "grad_norm": 0.3097142729991792,
+      "learning_rate": 6.79991048907418e-05,
+      "loss": 0.7986,
+      "step": 4050
+    },
+    {
+      "epoch": 3.9266483187746797,
+      "grad_norm": 0.40512187799915156,
+      "learning_rate": 6.729709653560387e-05,
+      "loss": 0.7865,
+      "step": 4100
+    },
+    {
+      "epoch": 3.9266483187746797,
+      "eval_loss": 2.776564359664917,
+      "eval_runtime": 21.3394,
+      "eval_samples_per_second": 78.212,
+      "eval_steps_per_second": 2.484,
+      "step": 4100
+    },
+    {
+      "epoch": 3.974512384827091,
+      "grad_norm": 0.33636006513301697,
+      "learning_rate": 6.659124903467149e-05,
+      "loss": 0.7812,
+      "step": 4150
+    },
+    {
+      "epoch": 4.022376450879502,
+      "grad_norm": 0.36839187380492466,
+      "learning_rate": 6.588172371650876e-05,
+      "loss": 0.7423,
+      "step": 4200
+    },
+    {
+      "epoch": 4.022376450879502,
+      "eval_loss": 2.83719539642334,
+      "eval_runtime": 21.3805,
+      "eval_samples_per_second": 78.062,
+      "eval_steps_per_second": 2.479,
+      "step": 4200
+    },
+    {
+      "epoch": 4.070240516931913,
+      "grad_norm": 0.304743292660407,
+      "learning_rate": 6.516868275028195e-05,
+      "loss": 0.7378,
+      "step": 4250
+    },
+    {
+      "epoch": 4.118104582984325,
+      "grad_norm": 0.5062863759898075,
+      "learning_rate": 6.445228910869418e-05,
+      "loss": 0.7342,
+      "step": 4300
+    },
+    {
+      "epoch": 4.118104582984325,
+      "eval_loss": 2.871426582336426,
+      "eval_runtime": 21.5168,
+      "eval_samples_per_second": 77.567,
+      "eval_steps_per_second": 2.463,
+      "step": 4300
+    },
+    {
+      "epoch": 4.165968649036736,
+      "grad_norm": 0.32802516560491085,
+      "learning_rate": 6.37327065307363e-05,
+      "loss": 0.7488,
+      "step": 4350
+    },
+    {
+      "epoch": 4.213832715089147,
+      "grad_norm": 0.4355037658190107,
+      "learning_rate": 6.301009948426275e-05,
+      "loss": 0.7304,
+      "step": 4400
+    },
+    {
+      "epoch": 4.213832715089147,
+      "eval_loss": 2.8587775230407715,
+      "eval_runtime": 21.3263,
+      "eval_samples_per_second": 78.26,
+      "eval_steps_per_second": 2.485,
+      "step": 4400
+    },
+    {
+      "epoch": 4.261696781141558,
+      "grad_norm": 0.31652373408670015,
+      "learning_rate": 6.228463312840077e-05,
+      "loss": 0.7381,
+      "step": 4450
+    },
+    {
+      "epoch": 4.3095608471939695,
+      "grad_norm": 0.31684272696520716,
+      "learning_rate": 6.155647327580152e-05,
+      "loss": 0.7248,
+      "step": 4500
+    },
+    {
+      "epoch": 4.3095608471939695,
+      "eval_loss": 2.8525378704071045,
+      "eval_runtime": 21.3409,
+      "eval_samples_per_second": 78.207,
+      "eval_steps_per_second": 2.483,
+      "step": 4500
+    },
+    {
+      "epoch": 4.35742491324638,
+      "grad_norm": 0.2982698939428768,
+      "learning_rate": 6.082578635474208e-05,
+      "loss": 0.7353,
+      "step": 4550
+    },
+    {
+      "epoch": 4.405288979298791,
+      "grad_norm": 0.337753062517172,
+      "learning_rate": 6.009273937108644e-05,
+      "loss": 0.7345,
+      "step": 4600
+    },
+    {
+      "epoch": 4.405288979298791,
+      "eval_loss": 2.892075538635254,
+      "eval_runtime": 21.4253,
+      "eval_samples_per_second": 77.898,
+      "eval_steps_per_second": 2.474,
+      "step": 4600
+    },
+    {
+      "epoch": 4.453153045351202,
+      "grad_norm": 0.3169770657574298,
+      "learning_rate": 5.9357499870114764e-05,
+      "loss": 0.7346,
+      "step": 4650
+    },
+    {
+      "epoch": 4.5010171114036135,
+      "grad_norm": 0.29290427580511086,
+      "learning_rate": 5.86202358982291e-05,
+      "loss": 0.7267,
+      "step": 4700
+    },
+    {
+      "epoch": 4.5010171114036135,
+      "eval_loss": 2.892781972885132,
+      "eval_runtime": 21.3571,
+      "eval_samples_per_second": 78.147,
+      "eval_steps_per_second": 2.482,
+      "step": 4700
+    },
+    {
+      "epoch": 4.548881177456025,
+      "grad_norm": 0.3367379688199369,
+      "learning_rate": 5.788111596454479e-05,
+      "loss": 0.7281,
+      "step": 4750
+    },
+    {
+      "epoch": 4.596745243508436,
+      "grad_norm": 0.3112101102160335,
+      "learning_rate": 5.7140309002375904e-05,
+      "loss": 0.7426,
+      "step": 4800
+    },
+    {
+      "epoch": 4.596745243508436,
+      "eval_loss": 2.9153106212615967,
+      "eval_runtime": 21.3327,
+      "eval_samples_per_second": 78.237,
+      "eval_steps_per_second": 2.484,
+      "step": 4800
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 10440,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 400,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4205401729925120.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:596d4d49db26de6f1de8e9adb8e4f0fa87a95138c272478132aa0baf5bfe1077
+size 7224