Upload folder using huggingface_hub

Browse files

Files changed (17) hide show

added_tokens.json +7 -0
all_results.json +7 -0
config.json +26 -0
generation_config.json +6 -0
log.txt +0 -0
pytorch_model-00001-of-00002.bin +3 -0
pytorch_model-00002-of-00002.bin +3 -0
pytorch_model.bin.index.json +298 -0
special_tokens_map.json +30 -0
tokenizer.model +3 -0
tokenizer_config.json +48 -0
train_results.json +7 -0
trainer_log.jsonl +0 -0
trainer_state.json +1366 -0
training_args.bin +3 -0
training_loss.svg +1354 -0
upload.log +2 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "[PAD]": 32004,
+  "▁<EOT>": 32003,
+  "▁<MID>": 32001,
+  "▁<PRE>": 32000,
+  "▁<SUF>": 32002
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 2.0,
+    "train_loss": 0.4101460447038436,
+    "train_runtime": 17896.4424,
+    "train_samples_per_second": 31.986,
+    "train_steps_per_second": 0.125
+}

config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "_name_or_path": "/group/20025/jiuding/LLM_ZOO/CodeLlama-7b-Python-hf",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 11008,
+  "max_position_embeddings": 16384,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 32,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 1000000,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.33.3",
+  "use_cache": true,
+  "vocab_size": 32005
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "transformers_version": "4.33.3"
+}

log.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

pytorch_model-00001-of-00002.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d14e9ac3f75a906ed5d6442e655b987000905f233041f2fae841eddc6b4fbefa
+size 9976661082

pytorch_model-00002-of-00002.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e7da649f43024477855fe4da4d3e1766d7559c8cb96cc82c216f82a921c6c11c
+size 3500351747

pytorch_model.bin.index.json ADDED Viewed

	@@ -0,0 +1,298 @@

+{
+  "metadata": {
+    "total_size": 13476913152
+  },
+  "weight_map": {
+    "lm_head.weight": "pytorch_model-00002-of-00002.bin",
+    "model.embed_tokens.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.22.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.22.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.22.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.22.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.22.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.22.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.22.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.22.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.22.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.23.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.23.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.23.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.23.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.23.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.23.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.23.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.23.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.23.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.24.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.mlp.down_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.mlp.gate_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.mlp.up_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.self_attn.o_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.mlp.down_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.mlp.gate_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.mlp.up_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.self_attn.o_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.mlp.down_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.mlp.gate_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.mlp.up_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.self_attn.o_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.mlp.down_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.mlp.gate_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.mlp.up_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.self_attn.o_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.28.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.28.mlp.down_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.28.mlp.gate_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.28.mlp.up_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.28.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.28.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.28.self_attn.o_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.28.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.28.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.29.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.29.mlp.down_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.29.mlp.gate_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.29.mlp.up_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.29.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.29.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.29.self_attn.o_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.29.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.29.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.3.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.30.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.30.mlp.down_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.30.mlp.gate_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.30.mlp.up_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.30.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.30.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.30.self_attn.o_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.30.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.30.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.31.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.31.mlp.down_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.31.mlp.gate_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.31.mlp.up_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.31.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.31.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.31.self_attn.o_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.31.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.31.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.4.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.norm.weight": "pytorch_model-00002-of-00002.bin"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "additional_special_tokens": [
+    "▁<PRE>",
+    "▁<MID>",
+    "▁<SUF>",
+    "▁<EOT>"
+  ],
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "[PAD]",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,48 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "additional_special_tokens": [
+    "▁<PRE>",
+    "▁<MID>",
+    "▁<SUF>",
+    "▁<EOT>"
+  ],
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "clean_up_tokenization_spaces": false,
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eot_token": "▁<EOT>",
+  "fill_token": "<FILL_ME>",
+  "legacy": null,
+  "middle_token": "▁<MID>",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": null,
+  "padding_side": "left",
+  "prefix_token": "▁<PRE>",
+  "sp_model_kwargs": {},
+  "suffix_first": false,
+  "suffix_token": "▁<SUF>",
+  "tokenizer_class": "CodeLlamaTokenizer",
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "use_default_system_prompt": false
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 2.0,
+    "train_loss": 0.4101460447038436,
+    "train_runtime": 17896.4424,
+    "train_samples_per_second": 31.986,
+    "train_steps_per_second": 0.125
+}

trainer_log.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1366 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.9991059454626732,
+  "eval_steps": 500,
+  "global_step": 2236,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 4.999753248946441e-05,
+      "loss": 0.628,
+      "step": 10
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 4.9990130444946295e-05,
+      "loss": 0.5662,
+      "step": 20
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 4.997779532761549e-05,
+      "loss": 0.5459,
+      "step": 30
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 4.9960529572434545e-05,
+      "loss": 0.5417,
+      "step": 40
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 4.993833658767808e-05,
+      "loss": 0.5236,
+      "step": 50
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 4.991122075426001e-05,
+      "loss": 0.5265,
+      "step": 60
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 4.987918742486869e-05,
+      "loss": 0.5276,
+      "step": 70
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 4.9842242922910345e-05,
+      "loss": 0.515,
+      "step": 80
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 4.98003945412608e-05,
+      "loss": 0.5312,
+      "step": 90
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 4.9753650540825855e-05,
+      "loss": 0.5265,
+      "step": 100
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 4.970202014891062e-05,
+      "loss": 0.5125,
+      "step": 110
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 4.964551355739795e-05,
+      "loss": 0.5094,
+      "step": 120
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 4.9584141920736656e-05,
+      "loss": 0.5034,
+      "step": 130
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 4.951791735373953e-05,
+      "loss": 0.5204,
+      "step": 140
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 4.944685292919191e-05,
+      "loss": 0.5144,
+      "step": 150
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 4.9370962675271106e-05,
+      "loss": 0.4956,
+      "step": 160
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 4.92902615727772e-05,
+      "loss": 0.5074,
+      "step": 170
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 4.9204765552175857e-05,
+      "loss": 0.5023,
+      "step": 180
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 4.9114491490453585e-05,
+      "loss": 0.5177,
+      "step": 190
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 4.9019457207786265e-05,
+      "loss": 0.5178,
+      "step": 200
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 4.89196814640214e-05,
+      "loss": 0.5022,
+      "step": 210
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 4.8815183954974896e-05,
+      "loss": 0.5066,
+      "step": 220
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 4.870598530854312e-05,
+      "loss": 0.5028,
+      "step": 230
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 4.859210708063091e-05,
+      "loss": 0.4971,
+      "step": 240
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 4.847357175089643e-05,
+      "loss": 0.5065,
+      "step": 250
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 4.83504027183137e-05,
+      "loss": 0.4965,
+      "step": 260
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 4.8222624296553554e-05,
+      "loss": 0.4937,
+      "step": 270
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 4.809026170918414e-05,
+      "loss": 0.5061,
+      "step": 280
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 4.795334108469176e-05,
+      "loss": 0.4951,
+      "step": 290
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 4.7811889451323114e-05,
+      "loss": 0.4969,
+      "step": 300
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 4.7665934731749825e-05,
+      "loss": 0.5059,
+      "step": 310
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 4.751550573755658e-05,
+      "loss": 0.5028,
+      "step": 320
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 4.7360632163553595e-05,
+      "loss": 0.4964,
+      "step": 330
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 4.720134458191494e-05,
+      "loss": 0.498,
+      "step": 340
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 4.7037674436143466e-05,
+      "loss": 0.5048,
+      "step": 350
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 4.68696540348639e-05,
+      "loss": 0.4885,
+      "step": 360
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 4.669731654544508e-05,
+      "loss": 0.4973,
+      "step": 370
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 4.652069598745267e-05,
+      "loss": 0.4944,
+      "step": 380
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 4.6339827225933665e-05,
+      "loss": 0.4928,
+      "step": 390
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 4.615474596453405e-05,
+      "loss": 0.5037,
+      "step": 400
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 4.596548873845081e-05,
+      "loss": 0.4887,
+      "step": 410
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 4.577209290721991e-05,
+      "loss": 0.4863,
+      "step": 420
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 4.557459664734141e-05,
+      "loss": 0.4919,
+      "step": 430
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 4.537303894474349e-05,
+      "loss": 0.506,
+      "step": 440
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 4.516745958708652e-05,
+      "loss": 0.4934,
+      "step": 450
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 4.495789915590895e-05,
+      "loss": 0.4835,
+      "step": 460
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 4.4744399018616566e-05,
+      "loss": 0.4938,
+      "step": 470
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 4.452700132031638e-05,
+      "loss": 0.5026,
+      "step": 480
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 4.4305748975497294e-05,
+      "loss": 0.4907,
+      "step": 490
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 4.408068565955865e-05,
+      "loss": 0.496,
+      "step": 500
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 4.385185580018869e-05,
+      "loss": 0.4891,
+      "step": 510
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 4.361930456859455e-05,
+      "loss": 0.4824,
+      "step": 520
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 4.3383077870585334e-05,
+      "loss": 0.4769,
+      "step": 530
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 4.314322233751034e-05,
+      "loss": 0.4891,
+      "step": 540
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 4.289978531705395e-05,
+      "loss": 0.4834,
+      "step": 550
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 4.26528148638892e-05,
+      "loss": 0.5031,
+      "step": 560
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 4.240235973019168e-05,
+      "loss": 0.4912,
+      "step": 570
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 4.2148469356015896e-05,
+      "loss": 0.4831,
+      "step": 580
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 4.1891193859535686e-05,
+      "loss": 0.4879,
+      "step": 590
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 4.163058402715091e-05,
+      "loss": 0.5044,
+      "step": 600
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 4.1366691303462144e-05,
+      "loss": 0.4842,
+      "step": 610
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 4.109956778111544e-05,
+      "loss": 0.4874,
+      "step": 620
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 4.0829266190519264e-05,
+      "loss": 0.4894,
+      "step": 630
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 4.0555839889435446e-05,
+      "loss": 0.4954,
+      "step": 640
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 4.0279342852446234e-05,
+      "loss": 0.4685,
+      "step": 650
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 3.9999829660299806e-05,
+      "loss": 0.4877,
+      "step": 660
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 3.971735548913586e-05,
+      "loss": 0.4828,
+      "step": 670
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 3.9431976099593896e-05,
+      "loss": 0.482,
+      "step": 680
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 3.914374782580591e-05,
+      "loss": 0.4777,
+      "step": 690
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 3.8852727564276086e-05,
+      "loss": 0.4825,
+      "step": 700
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 3.855897276264934e-05,
+      "loss": 0.4777,
+      "step": 710
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 3.826254140837111e-05,
+      "loss": 0.4712,
+      "step": 720
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 3.796349201724058e-05,
+      "loss": 0.4844,
+      "step": 730
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 3.7661883621859585e-05,
+      "loss": 0.4587,
+      "step": 740
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 3.7357775759979605e-05,
+      "loss": 0.4757,
+      "step": 750
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 3.705122846274889e-05,
+      "loss": 0.4869,
+      "step": 760
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 3.6742302242862284e-05,
+      "loss": 0.4748,
+      "step": 770
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 3.6431058082615964e-05,
+      "loss": 0.4735,
+      "step": 780
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 3.6117557421869506e-05,
+      "loss": 0.4757,
+      "step": 790
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 3.580186214591756e-05,
+      "loss": 0.4922,
+      "step": 800
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 3.54840345732737e-05,
+      "loss": 0.4935,
+      "step": 810
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 3.516413744336863e-05,
+      "loss": 0.4774,
+      "step": 820
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 3.484223390416543e-05,
+      "loss": 0.4794,
+      "step": 830
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 3.451838749969404e-05,
+      "loss": 0.4652,
+      "step": 840
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 3.419266215750767e-05,
+      "loss": 0.459,
+      "step": 850
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 3.386512217606339e-05,
+      "loss": 0.4768,
+      "step": 860
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 3.353583221202962e-05,
+      "loss": 0.4633,
+      "step": 870
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 3.320485726752278e-05,
+      "loss": 0.4712,
+      "step": 880
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 3.2872262677275906e-05,
+      "loss": 0.4822,
+      "step": 890
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 3.253811409574141e-05,
+      "loss": 0.4576,
+      "step": 900
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 3.220247748413094e-05,
+      "loss": 0.4772,
+      "step": 910
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 3.186541909739452e-05,
+      "loss": 0.4672,
+      "step": 920
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 3.152700547114177e-05,
+      "loss": 0.4766,
+      "step": 930
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 3.118730340850774e-05,
+      "loss": 0.4749,
+      "step": 940
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 3.084637996696592e-05,
+      "loss": 0.4804,
+      "step": 950
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 3.0504302445091027e-05,
+      "loss": 0.4744,
+      "step": 960
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 3.0161138369274177e-05,
+      "loss": 0.4744,
+      "step": 970
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 2.9816955480393187e-05,
+      "loss": 0.4778,
+      "step": 980
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 2.9471821720440406e-05,
+      "loss": 0.4569,
+      "step": 990
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 2.9125805219110952e-05,
+      "loss": 0.454,
+      "step": 1000
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 2.8778974280353817e-05,
+      "loss": 0.4821,
+      "step": 1010
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 2.843139736888864e-05,
+      "loss": 0.4607,
+      "step": 1020
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 2.80831430966907e-05,
+      "loss": 0.4812,
+      "step": 1030
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 2.7734280209446865e-05,
+      "loss": 0.4596,
+      "step": 1040
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 2.7384877572985096e-05,
+      "loss": 0.4683,
+      "step": 1050
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.7035004159680332e-05,
+      "loss": 0.4466,
+      "step": 1060
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.668472903483925e-05,
+      "loss": 0.4649,
+      "step": 1070
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 2.633412134306672e-05,
+      "loss": 0.4617,
+      "step": 1080
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 2.5983250294616618e-05,
+      "loss": 0.4658,
+      "step": 1090
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 2.5632185151729616e-05,
+      "loss": 0.4611,
+      "step": 1100
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 2.5280995214960835e-05,
+      "loss": 0.46,
+      "step": 1110
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 2.4929749809499786e-05,
+      "loss": 0.447,
+      "step": 1120
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 2.457851827148554e-05,
+      "loss": 0.3428,
+      "step": 1130
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 2.422736993431976e-05,
+      "loss": 0.3427,
+      "step": 1140
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 2.387637411498015e-05,
+      "loss": 0.3301,
+      "step": 1150
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 2.3525600100337294e-05,
+      "loss": 0.3374,
+      "step": 1160
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 2.3175117133477313e-05,
+      "loss": 0.334,
+      "step": 1170
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 2.282499440003329e-05,
+      "loss": 0.3284,
+      "step": 1180
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 2.2475301014527897e-05,
+      "loss": 0.3337,
+      "step": 1190
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 2.212610600673017e-05,
+      "loss": 0.3415,
+      "step": 1200
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 2.1777478308028965e-05,
+      "loss": 0.3379,
+      "step": 1210
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 2.1429486737825854e-05,
+      "loss": 0.3379,
+      "step": 1220
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 2.1082199989950093e-05,
+      "loss": 0.3433,
+      "step": 1230
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 2.073568661909842e-05,
+      "loss": 0.3424,
+      "step": 1240
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 2.03900150273023e-05,
+      "loss": 0.3275,
+      "step": 1250
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 2.004525345042531e-05,
+      "loss": 0.3354,
+      "step": 1260
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 1.9701469944693298e-05,
+      "loss": 0.33,
+      "step": 1270
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 1.9358732373260056e-05,
+      "loss": 0.3384,
+      "step": 1280
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 1.9017108392811065e-05,
+      "loss": 0.347,
+      "step": 1290
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 1.867666544020798e-05,
+      "loss": 0.3299,
+      "step": 1300
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 1.833747071917662e-05,
+      "loss": 0.3378,
+      "step": 1310
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 1.799959118704078e-05,
+      "loss": 0.3388,
+      "step": 1320
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 1.7663093541504905e-05,
+      "loss": 0.337,
+      "step": 1330
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 1.732804420748781e-05,
+      "loss": 0.3369,
+      "step": 1340
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 1.6994509324010457e-05,
+      "loss": 0.3215,
+      "step": 1350
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 1.6662554731139944e-05,
+      "loss": 0.3332,
+      "step": 1360
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 1.6332245956992703e-05,
+      "loss": 0.3336,
+      "step": 1370
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 1.600364820479914e-05,
+      "loss": 0.3324,
+      "step": 1380
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 1.56768263400325e-05,
+      "loss": 0.3397,
+      "step": 1390
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 1.5351844877604353e-05,
+      "loss": 0.3422,
+      "step": 1400
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 1.5028767969129288e-05,
+      "loss": 0.3184,
+      "step": 1410
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 1.4707659390261336e-05,
+      "loss": 0.3234,
+      "step": 1420
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 1.4388582528104628e-05,
+      "loss": 0.3268,
+      "step": 1430
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 1.4071600368700668e-05,
+      "loss": 0.3434,
+      "step": 1440
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 1.3756775484594896e-05,
+      "loss": 0.332,
+      "step": 1450
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 1.3444170022484803e-05,
+      "loss": 0.3354,
+      "step": 1460
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 1.3133845690952045e-05,
+      "loss": 0.3388,
+      "step": 1470
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 1.282586374828127e-05,
+      "loss": 0.3337,
+      "step": 1480
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 1.2520284990367514e-05,
+      "loss": 0.3426,
+      "step": 1490
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 1.2217169738715162e-05,
+      "loss": 0.342,
+      "step": 1500
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 1.191657782853034e-05,
+      "loss": 0.3303,
+      "step": 1510
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 1.1618568596909512e-05,
+      "loss": 0.347,
+      "step": 1520
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 1.132320087112615e-05,
+      "loss": 0.3322,
+      "step": 1530
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 1.1030532957018288e-05,
+      "loss": 0.3295,
+      "step": 1540
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 1.0740622627478821e-05,
+      "loss": 0.3266,
+      "step": 1550
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 1.0453527111051184e-05,
+      "loss": 0.3329,
+      "step": 1560
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 1.0169303080632272e-05,
+      "loss": 0.332,
+      "step": 1570
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 9.888006642285255e-06,
+      "loss": 0.332,
+      "step": 1580
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 9.609693324164154e-06,
+      "loss": 0.3414,
+      "step": 1590
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 9.334418065552538e-06,
+      "loss": 0.3216,
+      "step": 1600
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 9.062235206018488e-06,
+      "loss": 0.3367,
+      "step": 1610
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 8.79319847468786e-06,
+      "loss": 0.3288,
+      "step": 1620
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 8.527360979638196e-06,
+      "loss": 0.3208,
+      "step": 1630
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 8.264775197415053e-06,
+      "loss": 0.3228,
+      "step": 1640
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 8.005492962673197e-06,
+      "loss": 0.3225,
+      "step": 1650
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 7.749565457944274e-06,
+      "loss": 0.3279,
+      "step": 1660
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 7.497043203533444e-06,
+      "loss": 0.3311,
+      "step": 1670
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 7.2479760475465395e-06,
+      "loss": 0.3282,
+      "step": 1680
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 7.002413156050108e-06,
+      "loss": 0.3332,
+      "step": 1690
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 6.760403003365884e-06,
+      "loss": 0.3189,
+      "step": 1700
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 6.521993362501988e-06,
+      "loss": 0.321,
+      "step": 1710
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 6.28723129572247e-06,
+      "loss": 0.3228,
+      "step": 1720
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 6.056163145257187e-06,
+      "loss": 0.3333,
+      "step": 1730
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 5.828834524153795e-06,
+      "loss": 0.3315,
+      "step": 1740
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 5.605290307273694e-06,
+      "loss": 0.3301,
+      "step": 1750
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 5.385574622433714e-06,
+      "loss": 0.3354,
+      "step": 1760
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 5.169730841695233e-06,
+      "loss": 0.3304,
+      "step": 1770
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 4.9578015728024955e-06,
+      "loss": 0.3322,
+      "step": 1780
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 4.7498286507717895e-06,
+      "loss": 0.3265,
+      "step": 1790
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 4.545853129633226e-06,
+      "loss": 0.3266,
+      "step": 1800
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 4.345915274326595e-06,
+      "loss": 0.323,
+      "step": 1810
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 4.150054552753055e-06,
+      "loss": 0.3178,
+      "step": 1820
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 3.958309627984116e-06,
+      "loss": 0.3246,
+      "step": 1830
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 3.770718350629543e-06,
+      "loss": 0.336,
+      "step": 1840
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 3.5873177513655985e-06,
+      "loss": 0.3173,
+      "step": 1850
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 3.408144033625163e-06,
+      "loss": 0.3267,
+      "step": 1860
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 3.233232566451119e-06,
+      "loss": 0.3354,
+      "step": 1870
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 3.0626178775145175e-06,
+      "loss": 0.3289,
+      "step": 1880
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 2.89633364629876e-06,
+      "loss": 0.3208,
+      "step": 1890
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 2.734412697451236e-06,
+      "loss": 0.3338,
+      "step": 1900
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 2.576886994303729e-06,
+      "loss": 0.3123,
+      "step": 1910
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 2.4237876325628017e-06,
+      "loss": 0.326,
+      "step": 1920
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 2.2751448341715083e-06,
+      "loss": 0.3196,
+      "step": 1930
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 2.1309879413435292e-06,
+      "loss": 0.3328,
+      "step": 1940
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 1.9913454107710173e-06,
+      "loss": 0.3297,
+      "step": 1950
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 1.856244808007196e-06,
+      "loss": 0.322,
+      "step": 1960
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 1.7257128020249258e-06,
+      "loss": 0.3171,
+      "step": 1970
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 1.599775159952205e-06,
+      "loss": 0.3294,
+      "step": 1980
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 1.4784567419857314e-06,
+      "loss": 0.3161,
+      "step": 1990
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 1.3617814964834523e-06,
+      "loss": 0.3231,
+      "step": 2000
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 1.2497724552371747e-06,
+      "loss": 0.3155,
+      "step": 2010
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 1.14245172892605e-06,
+      "loss": 0.3147,
+      "step": 2020
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 1.0398405027519016e-06,
+      "loss": 0.3138,
+      "step": 2030
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 9.419590322572725e-07,
+      "loss": 0.3254,
+      "step": 2040
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 8.488266393269245e-07,
+      "loss": 0.3178,
+      "step": 2050
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 7.60461708373722e-07,
+      "loss": 0.3288,
+      "step": 2060
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 6.768816827095182e-07,
+      "loss": 0.3197,
+      "step": 2070
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 5.981030611018234e-07,
+      "loss": 0.3131,
+      "step": 2080
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 5.24141394516936e-07,
+      "loss": 0.3215,
+      "step": 2090
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 4.5501128305018013e-07,
+      "loss": 0.3252,
+      "step": 2100
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 3.9072637304383155e-07,
+      "loss": 0.3249,
+      "step": 2110
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 3.312993543933024e-07,
+      "loss": 0.3242,
+      "step": 2120
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 2.767419580421593e-07,
+      "loss": 0.3311,
+      "step": 2130
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 2.2706495366643098e-07,
+      "loss": 0.331,
+      "step": 2140
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 1.8227814754865068e-07,
+      "loss": 0.3304,
+      "step": 2150
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 1.4239038064209343e-07,
+      "loss": 0.3272,
+      "step": 2160
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 1.0740952682556371e-07,
+      "loss": 0.3251,
+      "step": 2170
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 7.734249134909166e-08,
+      "loss": 0.323,
+      "step": 2180
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 5.2195209470823345e-08,
+      "loss": 0.3255,
+      "step": 2190
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 3.197264528539135e-08,
+      "loss": 0.3212,
+      "step": 2200
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 1.6678790744015238e-08,
+      "loss": 0.3217,
+      "step": 2210
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 6.316664866470867e-09,
+      "loss": 0.3282,
+      "step": 2220
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 8.883131451392635e-10,
+      "loss": 0.3183,
+      "step": 2230
+    },
+    {
+      "epoch": 2.0,
+      "step": 2236,
+      "total_flos": 1070648917295104.0,
+      "train_loss": 0.4101460447038436,
+      "train_runtime": 17896.4424,
+      "train_samples_per_second": 31.986,
+      "train_steps_per_second": 0.125
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 2236,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "total_flos": 1070648917295104.0,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f5b274e7c12c12bfafb3a7982986931d99bf375bcbbd33c2fcbe0e8c2fa1f31
+size 6075

training_loss.svg ADDED Viewed

upload.log ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ nohup: ignoring input
2	+ Consider using `hf_transfer` for faster uploads. This solution comes with some limitations. See https://huggingface.co/docs/huggingface_hub/hf_transfer for more details.