upgrade to aquilachat-7b v0.6 (#6)

- Upgrade to AquilaChat-7B v0.6 configurations (1a87f3c9437974392c45299125d48cc47e6881d8)
- Upgrade AquliaChat-7B FP16 Model (d98751fecbbcac210b4d956d5daf7e460ab75ba8)
- Delete old version of AquilaChat-7B models (239b951cb0db4d9700884a2381ad8e943e20e733)
- Update README.md (a95dac2f20bc6ef3f2578200a89bfaa3ca504d00)

Files changed (12) hide show

BAAI_Aquila_Model_License.pdf +0 -0
BAAI_Aquila_Model_License_Agreement.pdf +0 -0
README.md +4 -4
config.json +2 -3
convert_aquila_weights_to_hf.py +38 -30
generation_config.json +1 -1
modeling_aquila.py +1 -1
pytorch_model-00001-of-00003.bin → pytorch_model-00001-of-00002.bin +2 -2
pytorch_model-00002-of-00003.bin → pytorch_model-00002-of-00002.bin +2 -2
pytorch_model-00003-of-00003.bin +0 -3
pytorch_model.bin.index.json +324 -324
tokenizer.json +1 -1

BAAI_Aquila_Model_License.pdf DELETED Viewed

Binary file (225 kB)

BAAI_Aquila_Model_License_Agreement.pdf ADDED Viewed

The diff for this file is too large to render. See raw diff

README.md CHANGED Viewed

@@ -3,12 +3,12 @@ language:
 - zh
 pipeline_tag: text-generation
 ---
-FP32 Model converted from Pytorch: https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila
 Support Inference with AutoModelForCausalLM, ORTModelForCausalLM and OVModelForCausalLM
 ```python
-#!pip install transformers>=4.30.2
-#!pip install optimum>=1.8.7 optimum-intel[openvino]>=1.9.0
 import torch
 from transformers import AutoTokenizer, AutoModelForCausalLM
@@ -38,4 +38,4 @@ with torch.no_grad():
 > 北京之所以成为中国的首都，是因为它有着独特的地理位置和历史背景。北京位于华北平原中心，周围是山峦起伏的燕山山脉和太行山脉。它自古以来就是华北地区的政治、文化和经济中心，有着重要的地理位置和战略地位。此外，北京还是中国历史文化的中心，有着丰富的历史遗迹和文化遗产，如故宫、天坛、颐和园等。因此，北京不仅是中国政治、文化和经济中心，也是世界知名的旅游胜地。
-AquilaChat-7B开源模型使用《智源Aquila系列模型许可协议》, 原始代码基于Apache Licence 2.0。

 - zh
 pipeline_tag: text-generation
 ---
+FP16 Model converted from AquilaChat-7b v0.6 Pytorch Model: https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila
 Support Inference with AutoModelForCausalLM, ORTModelForCausalLM and OVModelForCausalLM
 ```python
+#!pip install transformers>=4.29.2
+#!pip install optimum>=1.8.7 optimum-intel[openvino]==1.9.1
 import torch
 from transformers import AutoTokenizer, AutoModelForCausalLM
 > 北京之所以成为中国的首都，是因为它有着独特的地理位置和历史背景。北京位于华北平原中心，周围是山峦起伏的燕山山脉和太行山脉。它自古以来就是华北地区的政治、文化和经济中心，有着重要的地理位置和战略地位。此外，北京还是中国历史文化的中心，有着丰富的历史遗迹和文化遗产，如故宫、天坛、颐和园等。因此，北京不仅是中国政治、文化和经济中心，也是世界知名的旅游胜地。
+AquilaChat-7B开源模型使用《智源Aquila系列模型许可协议》, 原始代码基于Apache Licence 2.0。

config.json CHANGED Viewed

@@ -1,5 +1,4 @@
 {
-  "_name_or_path": "aquilachat-7b-hf",
   "architectures": [
     "LlamaForCausalLM"
   ],
@@ -21,8 +20,8 @@
   "pad_token_id": 0,
   "rms_norm_eps": 1e-05,
   "tie_word_embeddings": false,
-  "torch_dtype": "float32",
-  "transformers_version": "4.30.2",
   "unk_token_id": 0,
   "use_cache": true,
   "vocab_size": 100008

 {
   "architectures": [
     "LlamaForCausalLM"
   ],
   "pad_token_id": 0,
   "rms_norm_eps": 1e-05,
   "tie_word_embeddings": false,
+  "torch_dtype": "float16",
+  "transformers_version": "4.29.2",
   "unk_token_id": 0,
   "use_cache": true,
   "vocab_size": 100008

convert_aquila_weights_to_hf.py CHANGED Viewed

@@ -13,16 +13,17 @@
 # limitations under the License.
 import argparse
 import gc
 import json
 import math
 import os
 import shutil
 import warnings
 import torch
 from transformers import LlamaConfig, LlamaForCausalLM, LlamaTokenizer
 try:
     from transformers import LlamaTokenizerFast
@@ -44,10 +45,10 @@ python src/transformers/models/llama/convert_llama_weights_to_hf.py \
 Thereafter, models can be loaded via:
 ```py
-from transformers import LlamaForCausalLM, LlamaTokenizer
-model = LlamaForCausalLM.from_pretrained("/output/path")
-tokenizer = LlamaTokenizer.from_pretrained("/output/path")
 ```
 Important note: you need to be able to host the whole model in RAM to execute this script (even if the biggest versions
@@ -93,6 +94,8 @@ def write_model(model_path, input_base_path, model_size):
     print("params: ", params)
     num_shards = NUM_SHARDS[model_size]
     n_layers = params["n_layers"]
     n_heads = params["n_heads"]
     n_heads_per_shard = n_heads // num_shards
@@ -100,23 +103,9 @@ def write_model(model_path, input_base_path, model_size):
     dims_per_head = dim // n_heads
     base = 10000.0
     inv_freq = 1.0 / (base ** (torch.arange(0, dims_per_head, 2).float() / dims_per_head))
-    """
-    params = {}
-    num_shards = 1
-    n_layers = 32
-    n_heads = 32
-    n_heads_per_shard = n_heads // num_shards
-    dim = 4096
-    dims_per_head = dim // n_heads
-    base = 10000.0
-    inv_freq = 1.0 / (base ** (torch.arange(0, dims_per_head, 2).float() / dims_per_head))
-    params["n_layers"] = n_layers
-    params["n_heads"] = n_heads
-    params["dim"] = dim
-    params["norm_eps"] = 1e-05
-    """
     # permute for sliced rotary
     def permute(w):
@@ -246,6 +235,17 @@ def write_model(model_path, input_base_path, model_size):
         num_hidden_layers=params["n_layers"],
         rms_norm_eps=params["norm_eps"],
     )
     config.save_pretrained(tmp_model_path)
     # Make space so we can load the model properly now.
@@ -263,13 +263,20 @@ def write_model(model_path, input_base_path, model_size):
     shutil.rmtree(tmp_model_path)
-def write_tokenizer(tokenizer_path, input_tokenizer_path):
-    # Initialize the tokenizer based on the `spm` model
-    tokenizer_class = LlamaTokenizer if LlamaTokenizerFast is None else LlamaTokenizerFast
-    print(f"Saving a {tokenizer_class.__name__} to {tokenizer_path}.")
-    tokenizer = tokenizer_class(input_tokenizer_path)
-    tokenizer.save_pretrained(tokenizer_path)
 def main():
     parser = argparse.ArgumentParser()
@@ -286,6 +293,7 @@ def main():
         help="Location to write HF model and tokenizer",
     )
     args = parser.parse_args()
     if args.model_size != "tokenizer_only":
         write_model(
             model_path=args.output_dir,
@@ -293,9 +301,9 @@ def main():
             input_base_path=args.input_dir,
             model_size=args.model_size,
         )
-    #spm_path = os.path.join(args.input_dir, "tokenizer.model")
-    #write_tokenizer(args.output_dir, spm_path)
 if __name__ == "__main__":
     main()

 # limitations under the License.
 import argparse
 import gc
+import glob
 import json
 import math
 import os
 import shutil
 import warnings
 import torch
+import urllib
 from transformers import LlamaConfig, LlamaForCausalLM, LlamaTokenizer
+from transformers import GPTNeoXTokenizerFast
 try:
     from transformers import LlamaTokenizerFast
 Thereafter, models can be loaded via:
 ```py
+from transformers import AutoModelForCausalLM, AutoTokenizer
+model = AutoModelForCausalLM.from_pretrained("/output/path")
+tokenizer = AutoTokenizer.from_pretrained("/output/path")
 ```
 Important note: you need to be able to host the whole model in RAM to execute this script (even if the biggest versions
     print("params: ", params)
     num_shards = NUM_SHARDS[model_size]
+    # Model parameters
     n_layers = params["n_layers"]
     n_heads = params["n_heads"]
     n_heads_per_shard = n_heads // num_shards
     dims_per_head = dim // n_heads
     base = 10000.0
     inv_freq = 1.0 / (base ** (torch.arange(0, dims_per_head, 2).float() / dims_per_head))
+    # Tokenizer parameters
+    #vocab_size = params["vocab_size"]
     # permute for sliced rotary
     def permute(w):
         num_hidden_layers=params["n_layers"],
         rms_norm_eps=params["norm_eps"],
     )
+    #config["_name_or_path"] = tmp_model_path
+    config.auto_map = {
+        "AutoConfig": "modeling_aquila.LlamaConfig",
+        "AutoModel": "modeling_aquila.LlamaModel",
+        "AutoModelForCausalLM": "modeling_aquila.LlamaForCausalLM"
+        }
+    config.bos_token_id = 100006
+    config.eos_token_id = 100007
+    config.pad_token_id = 0
+    config.unk_token_id = 0
+    config.vocab_size = params["vocab_size"]
     config.save_pretrained(tmp_model_path)
     # Make space so we can load the model properly now.
     shutil.rmtree(tmp_model_path)
+def write_tokenizer(input_tokenizer_path, output_dir):
+    tokenizer_class = GPTNeoXTokenizerFast
+    tokenizer = tokenizer_class.from_pretrained(input_tokenizer_path)
+    print(f"Saving a {tokenizer_class.__name__} to {output_dir}.")
+    tokenizer.save_pretrained(output_dir)
+def copy_aquila_license(input_base_path, output_dir):
+    for path in glob.glob(os.path.join(input_base_path, "*.pdf")):
+        print(f"Copy Aquila License file from {path} to {output_dir}")
+        shutil.copy2(path, output_dir)
+def download_modeling_aquila_file(output_dir):
+    url = "https://gist.githubusercontent.com/sammysun0711/4f2622dba7f7ec2dff6cdd31ea21d419/raw/0fa7e79f3fa27bf9fbb8d85e9b5bb16b5e93db88/modeling_aqulia.py"
+    urllib.request.urlretrieve(url, os.path.join(output_dir, "modeling_aquila.py"))
 def main():
     parser = argparse.ArgumentParser()
         help="Location to write HF model and tokenizer",
     )
     args = parser.parse_args()
     if args.model_size != "tokenizer_only":
         write_model(
             model_path=args.output_dir,
             input_base_path=args.input_dir,
             model_size=args.model_size,
         )
+    copy_aquila_license(args.input_dir, args.output_dir)
+    write_tokenizer(args.input_dir, args.output_dir)
+    download_modeling_aquila_file(args.output_dir)
 if __name__ == "__main__":
     main()

generation_config.json CHANGED Viewed

@@ -3,5 +3,5 @@
   "bos_token_id": 100006,
   "eos_token_id": 100007,
   "pad_token_id": 0,
-  "transformers_version": "4.30.2"
 }

   "bos_token_id": 100006,
   "eos_token_id": 100007,
   "pad_token_id": 0,
+  "transformers_version": "4.29.2"
 }

modeling_aquila.py CHANGED Viewed

@@ -897,4 +897,4 @@ class LlamaForSequenceClassification(LlamaPreTrainedModel):
             past_key_values=transformer_outputs.past_key_values,
             hidden_states=transformer_outputs.hidden_states,
             attentions=transformer_outputs.attentions,
-        )

             past_key_values=transformer_outputs.past_key_values,
             hidden_states=transformer_outputs.hidden_states,
             attentions=transformer_outputs.attentions,
+        )

pytorch_model-00001-of-00003.bin → pytorch_model-00001-of-00002.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:044633237dc76c20502874e184e523d7bd2efb23610b514376a4ae0b762a9836
-size 9935230299

 version https://git-lfs.github.com/spec/v1
+oid sha256:2bae5e295f6a7a8b7661a3a39a6f1390b2551266966d4d0acc88c03fcdca8675
+size 9948612892

pytorch_model-00002-of-00003.bin → pytorch_model-00002-of-00002.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0bd33ca9b3c4813be34b62b049dd4bfb7a0b4be2ba484351756bbe697367a7cb
-size 9961910848

 version https://git-lfs.github.com/spec/v1
+oid sha256:57428c0863f704ce4126c9f380dc2cc4034e2d7649433712071c68fe0ccae3b7
+size 4642580195

pytorch_model-00003-of-00003.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:b4c32d743bc9cf3d25d4c99eafa2b1ee3ae6549d7d4b62c6911388347706f5a3
-size 9285126375

pytorch_model.bin.index.json CHANGED Viewed

@@ -1,330 +1,330 @@
 {
   "metadata": {
-    "total_size": 29182156800
   },
   "weight_map": {
-    "lm_head.weight": "pytorch_model-00003-of-00003.bin",
-    "model.embed_tokens.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.0.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.0.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.0.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.0.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.0.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.0.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.0.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.0.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.0.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
-    "model.layers.0.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.1.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.1.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.1.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.1.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.1.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.1.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.1.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.1.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.1.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
-    "model.layers.1.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.10.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.10.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.10.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.10.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.10.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.10.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.10.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.10.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.10.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
-    "model.layers.10.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.11.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.11.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.11.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.11.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.11.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.11.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.11.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.11.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.11.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
-    "model.layers.11.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.12.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.12.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.12.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.12.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.12.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.12.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.12.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.12.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.12.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
-    "model.layers.12.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.13.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.13.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.13.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.13.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.13.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.13.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.13.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.13.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.13.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
-    "model.layers.13.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.14.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.14.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.14.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.14.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.14.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.14.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.14.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.14.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.14.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
-    "model.layers.14.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.15.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.15.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.15.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.15.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.15.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.15.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.15.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.15.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.15.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
-    "model.layers.15.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.16.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.16.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.16.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.16.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.16.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.16.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.16.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.16.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.16.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
-    "model.layers.16.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.17.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.17.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.17.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.17.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.17.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.17.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.17.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.17.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.17.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
-    "model.layers.17.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.18.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.18.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.18.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.18.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.18.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.18.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.18.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.18.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.18.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
-    "model.layers.18.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.19.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.19.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.19.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.19.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.19.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.19.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.19.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.19.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.19.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
-    "model.layers.19.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.2.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.2.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.2.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.2.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.2.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.2.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.2.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.2.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.2.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
-    "model.layers.2.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.20.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.20.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.20.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.20.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.20.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.20.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.20.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.20.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.20.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
-    "model.layers.20.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.21.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.21.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.21.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.21.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.21.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.21.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.21.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.21.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.21.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
-    "model.layers.21.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.22.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.22.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.22.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.22.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.22.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.22.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.22.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.22.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.22.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
-    "model.layers.22.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.23.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.23.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.23.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.23.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.23.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.23.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.23.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.23.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.23.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
-    "model.layers.23.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.24.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.24.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.24.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.24.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.24.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.24.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.24.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.24.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.24.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
-    "model.layers.24.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.25.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.25.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.25.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.25.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.25.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.25.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.25.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.25.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.25.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
-    "model.layers.25.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.26.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.26.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.26.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.26.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.26.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.26.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.26.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.26.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.26.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
-    "model.layers.26.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.27.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.27.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.27.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.27.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.27.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.27.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.27.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.27.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.27.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
-    "model.layers.27.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.28.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.28.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.28.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.28.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.28.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.28.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.28.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.28.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.28.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
-    "model.layers.28.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.29.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.29.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.29.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.29.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.29.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.29.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.29.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.29.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.29.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
-    "model.layers.29.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.3.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.3.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.3.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.3.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.3.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.3.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.3.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.3.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.3.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
-    "model.layers.3.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.30.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.30.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.30.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.30.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.30.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.30.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.30.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.30.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.30.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
-    "model.layers.30.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.31.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.31.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.31.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.31.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.31.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.31.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.31.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.31.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.31.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
-    "model.layers.31.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.4.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.4.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.4.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.4.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.4.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.4.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.4.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.4.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.4.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
-    "model.layers.4.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.5.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.5.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.5.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.5.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.5.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.5.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.5.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.5.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.5.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
-    "model.layers.5.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.6.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.6.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.6.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.6.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.6.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.6.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.6.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.6.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.6.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
-    "model.layers.6.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.7.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.7.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.7.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.7.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.7.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.7.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.7.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.7.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.7.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
-    "model.layers.7.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.8.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.8.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.8.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.8.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.8.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.8.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.8.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.8.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.8.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
-    "model.layers.8.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.9.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.9.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.9.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.9.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.9.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.9.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.9.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.9.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.9.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
-    "model.layers.9.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.norm.weight": "pytorch_model-00003-of-00003.bin"
   }
 }

 {
   "metadata": {
+    "total_size": 14591082496
   },
   "weight_map": {
+    "lm_head.weight": "pytorch_model-00002-of-00002.bin",
+    "model.embed_tokens.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.0.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.1.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.10.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.11.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.12.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.13.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.14.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.15.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.16.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.17.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.18.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.19.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.2.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.20.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.21.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.22.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.22.mlp.down_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.22.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.22.mlp.up_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.22.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.22.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.22.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.22.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.22.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.22.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.23.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.23.mlp.down_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.23.mlp.gate_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.23.mlp.up_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.23.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.23.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.23.self_attn.o_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.23.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.23.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00002.bin",
+    "model.layers.23.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.mlp.down_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.mlp.gate_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.mlp.up_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.self_attn.o_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00002.bin",
+    "model.layers.24.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.mlp.down_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.mlp.gate_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.mlp.up_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.self_attn.o_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00002.bin",
+    "model.layers.25.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.mlp.down_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.mlp.gate_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.mlp.up_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.self_attn.o_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00002.bin",
+    "model.layers.26.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.mlp.down_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.mlp.gate_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.mlp.up_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.self_attn.o_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00002.bin",
+    "model.layers.27.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.28.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.28.mlp.down_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.28.mlp.gate_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.28.mlp.up_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.28.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.28.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.28.self_attn.o_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.28.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.28.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00002.bin",
+    "model.layers.28.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.29.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.29.mlp.down_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.29.mlp.gate_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.29.mlp.up_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.29.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.29.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.29.self_attn.o_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.29.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.29.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00002.bin",
+    "model.layers.29.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.3.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.3.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.30.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.30.mlp.down_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.30.mlp.gate_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.30.mlp.up_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.30.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.30.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.30.self_attn.o_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.30.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.30.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00002.bin",
+    "model.layers.30.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.31.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.31.mlp.down_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.31.mlp.gate_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.31.mlp.up_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.31.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.31.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.31.self_attn.o_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.31.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.31.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00002.bin",
+    "model.layers.31.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "model.layers.4.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.4.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.5.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.6.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.7.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.8.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.mlp.down_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.mlp.gate_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.mlp.up_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.self_attn.o_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00002.bin",
+    "model.layers.9.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.norm.weight": "pytorch_model-00002-of-00002.bin"
   }
 }

tokenizer.json CHANGED Viewed

@@ -199806,4 +199806,4 @@
       "çŃī è¯¾ç¨ĭ"
     ]
   }
-}

       "çŃī è¯¾ç¨ĭ"
     ]
   }
+}