fix weird git behavior

Files changed (6) hide show

.gitattributes +35 -0
BranchyModelConfig.py +78 -0
README.md +82 -0
config.json +30 -0
generation_config.json +4 -0
model.safetensors.index.json +476 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

BranchyModelConfig.py ADDED Viewed

	@@ -0,0 +1,78 @@

+from typing import List, Optional
+from transformers import PretrainedConfig
+import logging
+logger = logging.getLogger(__name__)
+class BranchyModelConfig(PretrainedConfig):
+    """
+    Configuration class for BranchyModel. This class extends the PretrainedConfig class from the Transformers
+    library, providing configuration specific to models with branch functionality.
+    Attributes:
+        branch_locations (List[int]): Specifies the indices of layers after which branches are added. These indices
+            start from 0, and each index represents a layer in the underlying transformer model.
+        penalty_weight (Optional[float]): The weight of the penalty term used in the "penalized_cross_entropy" loss.
+            This parameter is required and must be greater than 0
+        window_size (int): Determines the number of tokens each branch considers from the input sequence. This allows
+            for reducing the computational load by limiting the context size each branch processes.
+    Example:
+        config = BranchyModelConfig(
+            branch_locations=[2, 4, 6],
+            window_size=512
+        )
+    Note:
+        This configuration class is specifically designed for use with the BranchyModel class, enabling flexible
+        and customizable branching within transformer models.
+    """
+    model_type = "branchy"  # Optional, but useful for identifying the model type in the Transformers library
+    def __init__(
+        self,
+        model_str: str = None,
+        head_thresholds: Optional[List[float]] = None,
+        confidence_metric: Optional[str] = "breaking_ties",
+        branch_locations: Optional[List[int]] = None,
+        branch_number: Optional[int] = 3,
+        penalty_weight: Optional[float] = 0,
+        head_window_size: int = 512,
+        copy_lm_head: Optional[bool] = False,
+        **kwargs
+    ):
+        """
+        Initializes the BranchyModelConfig.
+        Args:
+            model_str (str): The model string to be used for the model. From Huggingface's model hub.
+            branch_locations (List[int], optional): Locations of the branches. Defaults to None, indicating no branches.
+            branch_number (Optional[int], optional): Number of branches if branch_locations is not provided. Defaults to 3.
+            penalty_weight (Optional[float], optional): Weight for the penalty in loss calculation.
+                . Defaults to None.
+            head_window_size (int, optional): Number of tokens each branch can see. Defaults to 512.
+        """
+        self.model_str = model_str
+        self.head_thresholds = head_thresholds
+        self.confidence_metric = confidence_metric
+        assert self.confidence_metric in ["breaking_ties", "max"], "confidence_metric must be 'breaking_ties' or 'max'. It should depend on how you found the thresholds."
+        self.branch_locations = branch_locations
+        self.penalty_weight = penalty_weight
+        self.head_window_size = head_window_size
+        if branch_locations is not None and branch_number is not None:
+            logger.warning("Both branch_locations and branch_number are provided. Using branch_locations.")
+        self.branch_number = branch_number if branch_locations is None else len(branch_locations)
+        self.copy_lm_head = copy_lm_head
+        #assert self.model_str is not None, "model_str must be provided."
+        assert self.branch_number > 0, "branch_number must be a positive integer."
+        assert isinstance(self.penalty_weight, float) or isinstance(self.penalty_weight, int), "penalty_weight must be a float or an integer."
+        assert self.penalty_weight >= 0 and self.penalty_weight <= 1, "penalty_weight must be in the range [0, 1]."
+        if branch_locations is not None:
+            assert all([isinstance(loc, int) for loc in self.branch_locations]), "Branch locations must be integers."
+            assert all([loc >= 0 for loc in self.branch_locations]), "Branch locations must be non-negative."
+        if self.head_window_size is not None:
+            assert self.head_window_size > 0 , "head_window_size must be a positive integer or None."
+        if type(self.head_thresholds) == list:
+            assert len(self.head_thresholds) == self.branch_number, "Number of thresholds must match number of branches."
+            assert all([isinstance(threshold, float) for threshold in self.head_thresholds]), "Thresholds must be floats."
+        super().__init__(**kwargs)  # Initialize with base class parameters

README.md ADDED Viewed

	@@ -0,0 +1,82 @@

+---
+language:
+- en
+license: mit
+library_name: transformers
+pipeline_tag: text-generation
+---
+# Model Card for Model ID
+Phi-2 is a Transformer with **2.7 billion** parameters. It was trained using the same data sources as [Phi-1.5](https://huggingface.co/microsoft/phi-1.5), augmented with a new data source that consists of various NLP synthetic texts and filtered websites (for safety and educational value). When assessed against benchmarks testing common sense, language understanding, and logical reasoning, Phi-2 showcased a nearly state-of-the-art performance among models with less than 13 billion parameters.
+This version of Phi-2 is one with added Early Exit in order to accelerate inference. Each Early Exit was trained using self-supervised technique from model outputs.
+### Model Description
+This model provides trained head to make Phi-2 a Early exit model.
+- **Developed by:** Florian Valade
+- **Shared by:** Florian Valade
+- **Model type:** Text generation
+- **License:** MIT
+- **Finetuned from model :** https://huggingface.co/microsoft/phi-2
+### Model Sources
+- **Repository:** [TBD]
+- **Paper:** [TBD]
+- **Demo:** [TBD]
+## Uses
+When used as provided, the model does not use Early Exits. One needs to set head_thresholds in the configuration in order to use inference acceleration.
+different head_thresholds for different ε :
+| ε            | head_thresholds                                                                     |
+| ------------ | ----------------------------------------------------------------------------------- |
+| 0.4          | [1.0307843685150146, 0.8693032264709473, 0.6637287139892578, 0.3111608028411865]    |
+| 0.5          | [1.505380630493164, 1.5712471008300781, 1.1971790790557861, 0.6908178329467773]     |
+| 0.6          | [2.0270779132843018, 1.8969502449035645, 1.4789371490478516, 0.9875392913818359]    |
+| 0.7          | [2.506962537765503, 2.656052589416504, 1.924393653869629, 1.4434680938720703]       |
+| 0.8          | [3.3786778450012207, 2.568857192993164, 2.5665550231933594, 2.006620407104492]      |
+| 0.9          | [3.187114715576172, 3.442272663116455, 2.636230945587158, 2.460529088973999]        |
+When you have selected the thresholds you can use :
+```python
+import torch
+from transformers import AutoModelForCausalLM, AutoTokenizer
+model = AutoModelForCausalLM.from_pretrained("valcore/branchy_phi-2_base", trust_remote_code=True, device_map="cpu")
+tokenizer = AutoTokenizer.from_pretrained("microsoft/Phi-2")
+model.eval()
+inputs = tokenizer('''def print_prime(n):
+   """
+   Print all primes between 1 and n
+   """''', return_tensors="pt", return_attention_mask=False)
+# Put here the selected thresholds :
+model.head_thresholds = torch.tensor([3.187114715576172, 3.442272663116455, 2.636230945587158, 2.460529088973999])
+outputs = model.generate(**inputs, max_length=200)
+text = tokenizer.batch_decode(outputs)[0]
+print(text)
+```
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+TBD
+## Model Card Contact
+Florian Valade

config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "architectures": [
+    "BranchyCausalModel"
+  ],
+  "auto_map": {
+    "AutoConfig": "BranchyModelConfig.BranchyModelConfig",
+    "AutoModelForCausalLM": "BranchyModel.BranchyCausalModel"
+  },
+  "branch_locations": [
+    6,
+    12,
+    18,
+    24
+  ],
+  "branch_number": 4,
+  "confidence_metric": "breaking_ties",
+  "copy_lm_head": false,
+  "head_thresholds": [
+    10.0,
+    10.0,
+    10.0,
+    10.0
+  ],
+  "head_window_size": 512,
+  "model_str": "microsoft/phi-2",
+  "model_type": "branchy",
+  "penalty_weight": 0.9,
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.2"
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "_from_model_config": true,
+  "transformers_version": "4.40.2"
+}

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,476 @@

+{
+  "metadata": {
+    "total_size": 13216788480
+  },
+  "weight_map": {
+    "branches.0.layernorm.bias": "model-00003-of-00003.safetensors",
+    "branches.0.layernorm.weight": "model-00003-of-00003.safetensors",
+    "branches.0.lm_head.bias": "model-00003-of-00003.safetensors",
+    "branches.0.lm_head.weight": "model-00003-of-00003.safetensors",
+    "branches.1.layernorm.bias": "model-00003-of-00003.safetensors",
+    "branches.1.layernorm.weight": "model-00003-of-00003.safetensors",
+    "branches.1.lm_head.bias": "model-00003-of-00003.safetensors",
+    "branches.1.lm_head.weight": "model-00003-of-00003.safetensors",
+    "branches.2.layernorm.bias": "model-00003-of-00003.safetensors",
+    "branches.2.layernorm.weight": "model-00003-of-00003.safetensors",
+    "branches.2.lm_head.bias": "model-00003-of-00003.safetensors",
+    "branches.2.lm_head.weight": "model-00003-of-00003.safetensors",
+    "branches.3.layernorm.bias": "model-00003-of-00003.safetensors",
+    "branches.3.layernorm.weight": "model-00003-of-00003.safetensors",
+    "branches.3.lm_head.bias": "model-00003-of-00003.safetensors",
+    "branches.3.lm_head.weight": "model-00003-of-00003.safetensors",
+    "lm_head.bias": "model-00003-of-00003.safetensors",
+    "lm_head.weight": "model-00003-of-00003.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00003.safetensors",
+    "model.final_layernorm.bias": "model-00003-of-00003.safetensors",
+    "model.final_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.0.input_layernorm.bias": "model-00001-of-00003.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.dense.bias": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.dense.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.input_layernorm.bias": "model-00001-of-00003.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.dense.bias": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.dense.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.input_layernorm.bias": "model-00001-of-00003.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "model.layers.10.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "model.layers.10.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.dense.bias": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.dense.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.input_layernorm.bias": "model-00001-of-00003.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "model.layers.11.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "model.layers.11.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.dense.bias": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.dense.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.input_layernorm.bias": "model-00001-of-00003.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "model.layers.12.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "model.layers.12.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.dense.bias": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.dense.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.13.input_layernorm.bias": "model-00001-of-00003.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.13.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "model.layers.13.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "model.layers.13.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "model.layers.13.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "model.layers.13.self_attn.dense.bias": "model-00001-of-00003.safetensors",
+    "model.layers.13.self_attn.dense.weight": "model-00001-of-00003.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.14.input_layernorm.bias": "model-00002-of-00003.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.dense.bias": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.dense.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.input_layernorm.bias": "model-00002-of-00003.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.dense.bias": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.dense.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.input_layernorm.bias": "model-00002-of-00003.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.dense.bias": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.dense.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.input_layernorm.bias": "model-00002-of-00003.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.dense.bias": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.dense.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.input_layernorm.bias": "model-00002-of-00003.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.dense.bias": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.dense.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.input_layernorm.bias": "model-00002-of-00003.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.dense.bias": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.dense.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.2.input_layernorm.bias": "model-00001-of-00003.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.dense.bias": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.dense.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.20.input_layernorm.bias": "model-00002-of-00003.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.dense.bias": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.dense.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.input_layernorm.bias": "model-00002-of-00003.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.dense.bias": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.dense.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.input_layernorm.bias": "model-00002-of-00003.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.mlp.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.layers.22.mlp.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.mlp.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.layers.22.mlp.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.dense.bias": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.dense.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.input_layernorm.bias": "model-00002-of-00003.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.mlp.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.layers.23.mlp.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.mlp.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.layers.23.mlp.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.dense.bias": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.dense.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.input_layernorm.bias": "model-00002-of-00003.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.mlp.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.layers.24.mlp.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.mlp.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.layers.24.mlp.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.dense.bias": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.dense.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.input_layernorm.bias": "model-00002-of-00003.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.mlp.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.layers.25.mlp.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.mlp.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.layers.25.mlp.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.dense.bias": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.dense.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.input_layernorm.bias": "model-00002-of-00003.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.mlp.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.layers.26.mlp.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.mlp.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.layers.26.mlp.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.dense.bias": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.dense.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.input_layernorm.bias": "model-00002-of-00003.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.mlp.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.layers.27.mlp.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.mlp.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.layers.27.mlp.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.dense.bias": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.dense.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.input_layernorm.bias": "model-00002-of-00003.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.mlp.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.layers.28.mlp.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.mlp.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.layers.28.mlp.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.dense.bias": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.dense.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.29.input_layernorm.bias": "model-00002-of-00003.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.29.mlp.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.layers.29.mlp.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.layers.29.mlp.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.layers.29.mlp.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.layers.29.self_attn.dense.bias": "model-00002-of-00003.safetensors",
+    "model.layers.29.self_attn.dense.weight": "model-00002-of-00003.safetensors",
+    "model.layers.29.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.29.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.29.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.3.input_layernorm.bias": "model-00001-of-00003.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.dense.bias": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.dense.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.30.input_layernorm.bias": "model-00003-of-00003.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.fc1.bias": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.fc1.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.fc2.bias": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.fc2.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.dense.bias": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.dense.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.k_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.q_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.v_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.input_layernorm.bias": "model-00003-of-00003.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.fc1.bias": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.fc1.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.fc2.bias": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.fc2.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.dense.bias": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.dense.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.k_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.q_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.v_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.4.input_layernorm.bias": "model-00001-of-00003.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.dense.bias": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.dense.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.input_layernorm.bias": "model-00001-of-00003.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.dense.bias": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.dense.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.input_layernorm.bias": "model-00001-of-00003.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.dense.bias": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.dense.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.input_layernorm.bias": "model-00001-of-00003.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.dense.bias": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.dense.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.input_layernorm.bias": "model-00001-of-00003.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.dense.bias": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.dense.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.input_layernorm.bias": "model-00001-of-00003.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.dense.bias": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.dense.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00003.safetensors"
+  }
+}