Upload 8 files

Browse files

Files changed (8) hide show

.mdl +0 -0
.msc +0 -0
.mv +1 -0
config.json +42 -0
configuration.json +1 -0
configuration_falcon.py +192 -0
generation_config.json +6 -0
model.safetensors.index.json +371 -0

.mdl ADDED Viewed

Binary file (54 Bytes). View file

.msc ADDED Viewed

Binary file (2.76 kB). View file

.mv ADDED Viewed

	@@ -0,0 +1 @@


1	+ Revision:master,CreatedAt:1724055407

config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "_name_or_path": "/mnt/workspace/mode/xiaorui3/falcon11B_PFAI_57w",
+  "activation": "gelu",
+  "alibi": false,
+  "architectures": [
+    "FalconForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "auto_map": {
+    "AutoConfig": "configuration_falcon.FalconConfig",
+    "AutoModel": "modeling_falcon.FalconForCausalLM",
+    "AutoModelForCausalLM": "modeling_falcon.FalconForCausalLM",
+    "AutoModelForQuestionAnswering": "modeling_falcon.FalconForQuestionAnswering",
+    "AutoModelForSequenceClassification": "modeling_falcon.FalconForSequenceClassification",
+    "AutoModelForTokenClassification": "modeling_falcon.FalconForTokenClassification"
+  },
+  "bias": false,
+  "bos_token_id": 11,
+  "eos_token_id": 11,
+  "ff_factor": 4,
+  "ffn_hidden_size": 16384,
+  "hidden_dropout": 0.0,
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "max_position_embeddings": 8192,
+  "model_type": "falcon",
+  "multi_query": true,
+  "new_decoder_architecture": true,
+  "num_attention_heads": 32,
+  "num_hidden_layers": 60,
+  "num_kv_heads": 8,
+  "num_ln_in_parallel_attn": 1,
+  "parallel_attn": true,
+  "rope_scaling": null,
+  "rope_theta": 500042.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.43.4",
+  "use_cache": true,
+  "vocab_size": 65024
+}

configuration.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"framework":"Pytorch","task":"text-generation"}

configuration_falcon.py ADDED Viewed

	@@ -0,0 +1,192 @@

+# coding=utf-8
+# Copyright 2023 the Falcon authors and HuggingFace Inc. team.  All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+""" Falcon configuration"""
+from transformers.configuration_utils import PretrainedConfig
+from transformers.utils import logging
+logger = logging.get_logger(__name__)
+FALCON_PRETRAINED_CONFIG_ARCHIVE_MAP = {
+    "tiiuae/falcon-40b": "https://huggingface.co/tiiuae/falcon-40b/resolve/main/config.json",
+    "tiiuae/falcon-7b": "https://huggingface.co/tiiuae/falcon-7b/resolve/main/config.json",
+}
+class FalconConfig(PretrainedConfig):
+    r"""
+    This is the configuration class to store the configuration of a [`FalconModel`]. It is used to instantiate a Falcon
+    model according to the specified arguments, defining the model architecture. Instantiating a configuration with the
+    defaults will yield a similar configuration to that of the
+    [tiiuae/falcon-7b](https://huggingface.co/tiiuae/falcon-7b) architecture.
+    Configuration objects inherit from [`PretrainedConfig`] and can be used to control the model outputs. Read the
+    documentation from [`PretrainedConfig`] for more information.
+    Args:
+        vocab_size (`int`, *optional*, defaults to 65024):
+            Vocabulary size of the Falcon model. Defines the number of different tokens that can be represented by the
+            `inputs_ids` passed when calling [`FalconModel`]
+        hidden_size (`int`, *optional*, defaults to 4544):
+            Dimension of the hidden representations.
+        num_hidden_layers (`int`, *optional*, defaults to 32):
+            Number of hidden layers in the Transformer decoder.
+        num_attention_heads (`int`, *optional*, defaults to 71):
+            Number of attention heads for each attention layer in the Transformer encoder.
+        layer_norm_epsilon (`float`, *optional*, defaults to 1e-05):
+            The epsilon used by the layer normalization layers.
+        initializer_range (`float`, *optional*, defaults to 0.02):
+            The standard deviation of the truncated_normal_initializer for initializing all weight matrices.
+        use_cache (`bool`, *optional*, defaults to `True`):
+            Whether the model should return the last key/values attentions (not used by all models). Only relevant if
+            `config.is_decoder=True`.
+        hidden_dropout (`float`, *optional*, defaults to 0.0):
+            The dropout probability for MLP layers.
+        attention_dropout (`float`, *optional*, defaults to 0.0):
+            The dropout probability for attention layers.
+        num_kv_heads (`int`, *optional*):
+            Number of key-value heads to use per attention layer. If unset, defaults to the same value as
+            `num_attention_heads`.
+        alibi (`bool`, *optional*, defaults to `False`):
+            Whether to use ALiBi positional biases during self-attention.
+        new_decoder_architecture (`bool`, *optional*, defaults to `False`):
+            Whether to use the new (Falcon-40B) decoder architecture. If `True`, the `multi_query` and `parallel_attn`
+            arguments are ignored, as the new decoder always uses parallel attention.
+        multi_query (`bool`, *optional*, defaults to `True`):
+            Whether to use multi-query attention in the decoder. Ignored when `new_decoder_architecture` is `True`.
+        parallel_attn (`bool`, *optional*, defaults to `True`):
+            Whether to compute attention in parallel with the feedforward layer. If False, they are consecutive
+            instead, as in the original Transformer architecture. Ignored when `new_decoder_architecture` is `True`.
+        bias (`bool`, *optional*, defaults to `False`):
+            Whether to use bias on Linear layers.
+        max_position_embeddings (`int`, *optional*, defaults to 2048):
+            The maximum sequence length that this model might ever be used with, when `alibi` is `False`. Pretrained
+            Falcon models with RoPE support up to 2048 tokens.
+        rope_theta (`float`, *optional*, defaults to 10000.0):
+            The base period of the RoPE embeddings.
+        rope_scaling (`Dict`, *optional*):
+            Dictionary containing the scaling configuration for the RoPE embeddings. Currently supports two scaling
+            strategies: linear and dynamic. Their scaling factor must be a float greater than 1. The expected format is
+            `{"type": strategy name, "factor": scaling factor}`. When using this flag, don't update
+            `max_position_embeddings` to the expected new maximum. See the following thread for more information on how
+            these scaling strategies behave:
+            https://www.reddit.com/r/LocalLLaMA/comments/14mrgpr/dynamically_scaled_rope_further_increases/. This is an
+            experimental feature, subject to breaking API changes in future versions.
+        bos_token_id (`int`, *optional*, defaults to 11):
+            The id of the "beginning-of-sequence" token.
+        eos_token_id (`int`, *optional*, defaults to 11):
+            The id of the "end-of-sequence" token.
+    Example:
+    ```python
+    >>> from transformers import FalconModel, FalconConfig
+    >>> # Initializing a small (2-layer) Falcon configuration
+    >>> configuration = FalconConfig(num_hidden_layers=2)
+    >>> # Initializing a model from the small configuration
+    >>> model = FalconModel(configuration)
+    >>> # Accessing the model configuration
+    >>> configuration = model.config
+    ```"""
+    model_type = "falcon"
+    keys_to_ignore_at_inference = ["past_key_values"]
+    def __init__(
+        self,
+        vocab_size=65024,
+        hidden_size=4544,
+        num_hidden_layers=32,
+        num_attention_heads=71,
+        layer_norm_epsilon=1e-5,
+        initializer_range=0.02,
+        use_cache=True,
+        hidden_dropout=0.0,
+        attention_dropout=0.0,
+        num_kv_heads=None,
+        alibi=False,
+        new_decoder_architecture=False,
+        multi_query=True,
+        parallel_attn=True,
+        bias=False,
+        max_position_embeddings=8192,
+        rope_theta=10000.0,
+        rope_scaling=None,
+        bos_token_id=11,
+        eos_token_id=11,
+        **kwargs,
+    ):
+        self.vocab_size = vocab_size
+        # Backward compatibility with n_embed kwarg
+        n_embed = kwargs.pop("n_embed", None)
+        self.hidden_size = hidden_size if n_embed is None else n_embed
+        self.num_hidden_layers = num_hidden_layers
+        self.num_attention_heads = num_attention_heads
+        self.layer_norm_epsilon = layer_norm_epsilon
+        self.initializer_range = initializer_range
+        self.use_cache = use_cache
+        self.hidden_dropout = hidden_dropout
+        self.attention_dropout = attention_dropout
+        self.bos_token_id = bos_token_id
+        self.eos_token_id = eos_token_id
+        self.num_kv_heads = num_attention_heads if num_kv_heads is None else num_kv_heads
+        self.alibi = alibi
+        self.new_decoder_architecture = new_decoder_architecture
+        self.multi_query = multi_query  # Ignored when new_decoder_architecture is True
+        self.parallel_attn = parallel_attn
+        self.bias = bias
+        self.max_position_embeddings = max_position_embeddings
+        self.rope_theta = rope_theta
+        self.rope_scaling = rope_scaling
+        self._rope_scaling_validation()
+        super().__init__(bos_token_id=bos_token_id, eos_token_id=eos_token_id, **kwargs)
+    @property
+    def head_dim(self):
+        return self.hidden_size // self.num_attention_heads
+    @property
+    def rotary(self):
+        return not self.alibi
+    def _rope_scaling_validation(self):
+        """
+        Validate the `rope_scaling` configuration.
+        """
+        if self.rope_scaling is None:
+            return
+        if self.alibi:
+            raise ValueError("`rope_scaling` is not supported when `alibi` is `True`.")
+        if not isinstance(self.rope_scaling, dict) or len(self.rope_scaling) != 2:
+            raise ValueError(
+                "`rope_scaling` must be a dictionary with with two fields, `type` and `factor`, "
+                f"got {self.rope_scaling}"
+            )
+        rope_scaling_type = self.rope_scaling.get("type", None)
+        rope_scaling_factor = self.rope_scaling.get("factor", None)
+        if rope_scaling_type is None or rope_scaling_type not in ["linear", "dynamic"]:
+            raise ValueError(
+                f"`rope_scaling`'s type field must be one of ['linear', 'dynamic'], got {rope_scaling_type}"
+            )
+        if rope_scaling_factor is None or not isinstance(rope_scaling_factor, float) or rope_scaling_factor <= 1.0:
+            raise ValueError(f"`rope_scaling`'s factor field must be a float > 1, got {rope_scaling_factor}")

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 11,
+  "eos_token_id": 11,
+  "transformers_version": "4.43.4"
+}

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,371 @@

+{
+  "metadata": {
+    "total_size": 22205644800
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00024-of-00024.safetensors",
+    "transformer.h.0.input_layernorm.bias": "model-00001-of-00024.safetensors",
+    "transformer.h.0.input_layernorm.weight": "model-00001-of-00024.safetensors",
+    "transformer.h.0.mlp.dense_4h_to_h.weight": "model-00001-of-00024.safetensors",
+    "transformer.h.0.mlp.dense_h_to_4h.weight": "model-00001-of-00024.safetensors",
+    "transformer.h.0.self_attention.dense.weight": "model-00001-of-00024.safetensors",
+    "transformer.h.0.self_attention.query_key_value.weight": "model-00001-of-00024.safetensors",
+    "transformer.h.1.input_layernorm.bias": "model-00002-of-00024.safetensors",
+    "transformer.h.1.input_layernorm.weight": "model-00002-of-00024.safetensors",
+    "transformer.h.1.mlp.dense_4h_to_h.weight": "model-00002-of-00024.safetensors",
+    "transformer.h.1.mlp.dense_h_to_4h.weight": "model-00002-of-00024.safetensors",
+    "transformer.h.1.self_attention.dense.weight": "model-00001-of-00024.safetensors",
+    "transformer.h.1.self_attention.query_key_value.weight": "model-00001-of-00024.safetensors",
+    "transformer.h.10.input_layernorm.bias": "model-00005-of-00024.safetensors",
+    "transformer.h.10.input_layernorm.weight": "model-00005-of-00024.safetensors",
+    "transformer.h.10.mlp.dense_4h_to_h.weight": "model-00005-of-00024.safetensors",
+    "transformer.h.10.mlp.dense_h_to_4h.weight": "model-00005-of-00024.safetensors",
+    "transformer.h.10.self_attention.dense.weight": "model-00005-of-00024.safetensors",
+    "transformer.h.10.self_attention.query_key_value.weight": "model-00005-of-00024.safetensors",
+    "transformer.h.11.input_layernorm.bias": "model-00005-of-00024.safetensors",
+    "transformer.h.11.input_layernorm.weight": "model-00005-of-00024.safetensors",
+    "transformer.h.11.mlp.dense_4h_to_h.weight": "model-00005-of-00024.safetensors",
+    "transformer.h.11.mlp.dense_h_to_4h.weight": "model-00005-of-00024.safetensors",
+    "transformer.h.11.self_attention.dense.weight": "model-00005-of-00024.safetensors",
+    "transformer.h.11.self_attention.query_key_value.weight": "model-00005-of-00024.safetensors",
+    "transformer.h.12.input_layernorm.bias": "model-00006-of-00024.safetensors",
+    "transformer.h.12.input_layernorm.weight": "model-00006-of-00024.safetensors",
+    "transformer.h.12.mlp.dense_4h_to_h.weight": "model-00006-of-00024.safetensors",
+    "transformer.h.12.mlp.dense_h_to_4h.weight": "model-00006-of-00024.safetensors",
+    "transformer.h.12.self_attention.dense.weight": "model-00006-of-00024.safetensors",
+    "transformer.h.12.self_attention.query_key_value.weight": "model-00006-of-00024.safetensors",
+    "transformer.h.13.input_layernorm.bias": "model-00006-of-00024.safetensors",
+    "transformer.h.13.input_layernorm.weight": "model-00006-of-00024.safetensors",
+    "transformer.h.13.mlp.dense_4h_to_h.weight": "model-00006-of-00024.safetensors",
+    "transformer.h.13.mlp.dense_h_to_4h.weight": "model-00006-of-00024.safetensors",
+    "transformer.h.13.self_attention.dense.weight": "model-00006-of-00024.safetensors",
+    "transformer.h.13.self_attention.query_key_value.weight": "model-00006-of-00024.safetensors",
+    "transformer.h.14.input_layernorm.bias": "model-00007-of-00024.safetensors",
+    "transformer.h.14.input_layernorm.weight": "model-00007-of-00024.safetensors",
+    "transformer.h.14.mlp.dense_4h_to_h.weight": "model-00007-of-00024.safetensors",
+    "transformer.h.14.mlp.dense_h_to_4h.weight": "model-00006-of-00024.safetensors",
+    "transformer.h.14.self_attention.dense.weight": "model-00006-of-00024.safetensors",
+    "transformer.h.14.self_attention.query_key_value.weight": "model-00006-of-00024.safetensors",
+    "transformer.h.15.input_layernorm.bias": "model-00007-of-00024.safetensors",
+    "transformer.h.15.input_layernorm.weight": "model-00007-of-00024.safetensors",
+    "transformer.h.15.mlp.dense_4h_to_h.weight": "model-00007-of-00024.safetensors",
+    "transformer.h.15.mlp.dense_h_to_4h.weight": "model-00007-of-00024.safetensors",
+    "transformer.h.15.self_attention.dense.weight": "model-00007-of-00024.safetensors",
+    "transformer.h.15.self_attention.query_key_value.weight": "model-00007-of-00024.safetensors",
+    "transformer.h.16.input_layernorm.bias": "model-00007-of-00024.safetensors",
+    "transformer.h.16.input_layernorm.weight": "model-00007-of-00024.safetensors",
+    "transformer.h.16.mlp.dense_4h_to_h.weight": "model-00007-of-00024.safetensors",
+    "transformer.h.16.mlp.dense_h_to_4h.weight": "model-00007-of-00024.safetensors",
+    "transformer.h.16.self_attention.dense.weight": "model-00007-of-00024.safetensors",
+    "transformer.h.16.self_attention.query_key_value.weight": "model-00007-of-00024.safetensors",
+    "transformer.h.17.input_layernorm.bias": "model-00008-of-00024.safetensors",
+    "transformer.h.17.input_layernorm.weight": "model-00008-of-00024.safetensors",
+    "transformer.h.17.mlp.dense_4h_to_h.weight": "model-00008-of-00024.safetensors",
+    "transformer.h.17.mlp.dense_h_to_4h.weight": "model-00008-of-00024.safetensors",
+    "transformer.h.17.self_attention.dense.weight": "model-00007-of-00024.safetensors",
+    "transformer.h.17.self_attention.query_key_value.weight": "model-00007-of-00024.safetensors",
+    "transformer.h.18.input_layernorm.bias": "model-00008-of-00024.safetensors",
+    "transformer.h.18.input_layernorm.weight": "model-00008-of-00024.safetensors",
+    "transformer.h.18.mlp.dense_4h_to_h.weight": "model-00008-of-00024.safetensors",
+    "transformer.h.18.mlp.dense_h_to_4h.weight": "model-00008-of-00024.safetensors",
+    "transformer.h.18.self_attention.dense.weight": "model-00008-of-00024.safetensors",
+    "transformer.h.18.self_attention.query_key_value.weight": "model-00008-of-00024.safetensors",
+    "transformer.h.19.input_layernorm.bias": "model-00008-of-00024.safetensors",
+    "transformer.h.19.input_layernorm.weight": "model-00008-of-00024.safetensors",
+    "transformer.h.19.mlp.dense_4h_to_h.weight": "model-00008-of-00024.safetensors",
+    "transformer.h.19.mlp.dense_h_to_4h.weight": "model-00008-of-00024.safetensors",
+    "transformer.h.19.self_attention.dense.weight": "model-00008-of-00024.safetensors",
+    "transformer.h.19.self_attention.query_key_value.weight": "model-00008-of-00024.safetensors",
+    "transformer.h.2.input_layernorm.bias": "model-00002-of-00024.safetensors",
+    "transformer.h.2.input_layernorm.weight": "model-00002-of-00024.safetensors",
+    "transformer.h.2.mlp.dense_4h_to_h.weight": "model-00002-of-00024.safetensors",
+    "transformer.h.2.mlp.dense_h_to_4h.weight": "model-00002-of-00024.safetensors",
+    "transformer.h.2.self_attention.dense.weight": "model-00002-of-00024.safetensors",
+    "transformer.h.2.self_attention.query_key_value.weight": "model-00002-of-00024.safetensors",
+    "transformer.h.20.input_layernorm.bias": "model-00009-of-00024.safetensors",
+    "transformer.h.20.input_layernorm.weight": "model-00009-of-00024.safetensors",
+    "transformer.h.20.mlp.dense_4h_to_h.weight": "model-00009-of-00024.safetensors",
+    "transformer.h.20.mlp.dense_h_to_4h.weight": "model-00009-of-00024.safetensors",
+    "transformer.h.20.self_attention.dense.weight": "model-00009-of-00024.safetensors",
+    "transformer.h.20.self_attention.query_key_value.weight": "model-00009-of-00024.safetensors",
+    "transformer.h.21.input_layernorm.bias": "model-00009-of-00024.safetensors",
+    "transformer.h.21.input_layernorm.weight": "model-00009-of-00024.safetensors",
+    "transformer.h.21.mlp.dense_4h_to_h.weight": "model-00009-of-00024.safetensors",
+    "transformer.h.21.mlp.dense_h_to_4h.weight": "model-00009-of-00024.safetensors",
+    "transformer.h.21.self_attention.dense.weight": "model-00009-of-00024.safetensors",
+    "transformer.h.21.self_attention.query_key_value.weight": "model-00009-of-00024.safetensors",
+    "transformer.h.22.input_layernorm.bias": "model-00010-of-00024.safetensors",
+    "transformer.h.22.input_layernorm.weight": "model-00010-of-00024.safetensors",
+    "transformer.h.22.mlp.dense_4h_to_h.weight": "model-00010-of-00024.safetensors",
+    "transformer.h.22.mlp.dense_h_to_4h.weight": "model-00009-of-00024.safetensors",
+    "transformer.h.22.self_attention.dense.weight": "model-00009-of-00024.safetensors",
+    "transformer.h.22.self_attention.query_key_value.weight": "model-00009-of-00024.safetensors",
+    "transformer.h.23.input_layernorm.bias": "model-00010-of-00024.safetensors",
+    "transformer.h.23.input_layernorm.weight": "model-00010-of-00024.safetensors",
+    "transformer.h.23.mlp.dense_4h_to_h.weight": "model-00010-of-00024.safetensors",
+    "transformer.h.23.mlp.dense_h_to_4h.weight": "model-00010-of-00024.safetensors",
+    "transformer.h.23.self_attention.dense.weight": "model-00010-of-00024.safetensors",
+    "transformer.h.23.self_attention.query_key_value.weight": "model-00010-of-00024.safetensors",
+    "transformer.h.24.input_layernorm.bias": "model-00010-of-00024.safetensors",
+    "transformer.h.24.input_layernorm.weight": "model-00010-of-00024.safetensors",
+    "transformer.h.24.mlp.dense_4h_to_h.weight": "model-00010-of-00024.safetensors",
+    "transformer.h.24.mlp.dense_h_to_4h.weight": "model-00010-of-00024.safetensors",
+    "transformer.h.24.self_attention.dense.weight": "model-00010-of-00024.safetensors",
+    "transformer.h.24.self_attention.query_key_value.weight": "model-00010-of-00024.safetensors",
+    "transformer.h.25.input_layernorm.bias": "model-00011-of-00024.safetensors",
+    "transformer.h.25.input_layernorm.weight": "model-00011-of-00024.safetensors",
+    "transformer.h.25.mlp.dense_4h_to_h.weight": "model-00011-of-00024.safetensors",
+    "transformer.h.25.mlp.dense_h_to_4h.weight": "model-00011-of-00024.safetensors",
+    "transformer.h.25.self_attention.dense.weight": "model-00010-of-00024.safetensors",
+    "transformer.h.25.self_attention.query_key_value.weight": "model-00010-of-00024.safetensors",
+    "transformer.h.26.input_layernorm.bias": "model-00011-of-00024.safetensors",
+    "transformer.h.26.input_layernorm.weight": "model-00011-of-00024.safetensors",
+    "transformer.h.26.mlp.dense_4h_to_h.weight": "model-00011-of-00024.safetensors",
+    "transformer.h.26.mlp.dense_h_to_4h.weight": "model-00011-of-00024.safetensors",
+    "transformer.h.26.self_attention.dense.weight": "model-00011-of-00024.safetensors",
+    "transformer.h.26.self_attention.query_key_value.weight": "model-00011-of-00024.safetensors",
+    "transformer.h.27.input_layernorm.bias": "model-00011-of-00024.safetensors",
+    "transformer.h.27.input_layernorm.weight": "model-00011-of-00024.safetensors",
+    "transformer.h.27.mlp.dense_4h_to_h.weight": "model-00011-of-00024.safetensors",
+    "transformer.h.27.mlp.dense_h_to_4h.weight": "model-00011-of-00024.safetensors",
+    "transformer.h.27.self_attention.dense.weight": "model-00011-of-00024.safetensors",
+    "transformer.h.27.self_attention.query_key_value.weight": "model-00011-of-00024.safetensors",
+    "transformer.h.28.input_layernorm.bias": "model-00012-of-00024.safetensors",
+    "transformer.h.28.input_layernorm.weight": "model-00012-of-00024.safetensors",
+    "transformer.h.28.mlp.dense_4h_to_h.weight": "model-00012-of-00024.safetensors",
+    "transformer.h.28.mlp.dense_h_to_4h.weight": "model-00012-of-00024.safetensors",
+    "transformer.h.28.self_attention.dense.weight": "model-00012-of-00024.safetensors",
+    "transformer.h.28.self_attention.query_key_value.weight": "model-00012-of-00024.safetensors",
+    "transformer.h.29.input_layernorm.bias": "model-00012-of-00024.safetensors",
+    "transformer.h.29.input_layernorm.weight": "model-00012-of-00024.safetensors",
+    "transformer.h.29.mlp.dense_4h_to_h.weight": "model-00012-of-00024.safetensors",
+    "transformer.h.29.mlp.dense_h_to_4h.weight": "model-00012-of-00024.safetensors",
+    "transformer.h.29.self_attention.dense.weight": "model-00012-of-00024.safetensors",
+    "transformer.h.29.self_attention.query_key_value.weight": "model-00012-of-00024.safetensors",
+    "transformer.h.3.input_layernorm.bias": "model-00002-of-00024.safetensors",
+    "transformer.h.3.input_layernorm.weight": "model-00002-of-00024.safetensors",
+    "transformer.h.3.mlp.dense_4h_to_h.weight": "model-00002-of-00024.safetensors",
+    "transformer.h.3.mlp.dense_h_to_4h.weight": "model-00002-of-00024.safetensors",
+    "transformer.h.3.self_attention.dense.weight": "model-00002-of-00024.safetensors",
+    "transformer.h.3.self_attention.query_key_value.weight": "model-00002-of-00024.safetensors",
+    "transformer.h.30.input_layernorm.bias": "model-00013-of-00024.safetensors",
+    "transformer.h.30.input_layernorm.weight": "model-00013-of-00024.safetensors",
+    "transformer.h.30.mlp.dense_4h_to_h.weight": "model-00013-of-00024.safetensors",
+    "transformer.h.30.mlp.dense_h_to_4h.weight": "model-00012-of-00024.safetensors",
+    "transformer.h.30.self_attention.dense.weight": "model-00012-of-00024.safetensors",
+    "transformer.h.30.self_attention.query_key_value.weight": "model-00012-of-00024.safetensors",
+    "transformer.h.31.input_layernorm.bias": "model-00013-of-00024.safetensors",
+    "transformer.h.31.input_layernorm.weight": "model-00013-of-00024.safetensors",
+    "transformer.h.31.mlp.dense_4h_to_h.weight": "model-00013-of-00024.safetensors",
+    "transformer.h.31.mlp.dense_h_to_4h.weight": "model-00013-of-00024.safetensors",
+    "transformer.h.31.self_attention.dense.weight": "model-00013-of-00024.safetensors",
+    "transformer.h.31.self_attention.query_key_value.weight": "model-00013-of-00024.safetensors",
+    "transformer.h.32.input_layernorm.bias": "model-00013-of-00024.safetensors",
+    "transformer.h.32.input_layernorm.weight": "model-00013-of-00024.safetensors",
+    "transformer.h.32.mlp.dense_4h_to_h.weight": "model-00013-of-00024.safetensors",
+    "transformer.h.32.mlp.dense_h_to_4h.weight": "model-00013-of-00024.safetensors",
+    "transformer.h.32.self_attention.dense.weight": "model-00013-of-00024.safetensors",
+    "transformer.h.32.self_attention.query_key_value.weight": "model-00013-of-00024.safetensors",
+    "transformer.h.33.input_layernorm.bias": "model-00014-of-00024.safetensors",
+    "transformer.h.33.input_layernorm.weight": "model-00014-of-00024.safetensors",
+    "transformer.h.33.mlp.dense_4h_to_h.weight": "model-00014-of-00024.safetensors",
+    "transformer.h.33.mlp.dense_h_to_4h.weight": "model-00014-of-00024.safetensors",
+    "transformer.h.33.self_attention.dense.weight": "model-00013-of-00024.safetensors",
+    "transformer.h.33.self_attention.query_key_value.weight": "model-00013-of-00024.safetensors",
+    "transformer.h.34.input_layernorm.bias": "model-00014-of-00024.safetensors",
+    "transformer.h.34.input_layernorm.weight": "model-00014-of-00024.safetensors",
+    "transformer.h.34.mlp.dense_4h_to_h.weight": "model-00014-of-00024.safetensors",
+    "transformer.h.34.mlp.dense_h_to_4h.weight": "model-00014-of-00024.safetensors",
+    "transformer.h.34.self_attention.dense.weight": "model-00014-of-00024.safetensors",
+    "transformer.h.34.self_attention.query_key_value.weight": "model-00014-of-00024.safetensors",
+    "transformer.h.35.input_layernorm.bias": "model-00014-of-00024.safetensors",
+    "transformer.h.35.input_layernorm.weight": "model-00014-of-00024.safetensors",
+    "transformer.h.35.mlp.dense_4h_to_h.weight": "model-00014-of-00024.safetensors",
+    "transformer.h.35.mlp.dense_h_to_4h.weight": "model-00014-of-00024.safetensors",
+    "transformer.h.35.self_attention.dense.weight": "model-00014-of-00024.safetensors",
+    "transformer.h.35.self_attention.query_key_value.weight": "model-00014-of-00024.safetensors",
+    "transformer.h.36.input_layernorm.bias": "model-00015-of-00024.safetensors",
+    "transformer.h.36.input_layernorm.weight": "model-00015-of-00024.safetensors",
+    "transformer.h.36.mlp.dense_4h_to_h.weight": "model-00015-of-00024.safetensors",
+    "transformer.h.36.mlp.dense_h_to_4h.weight": "model-00015-of-00024.safetensors",
+    "transformer.h.36.self_attention.dense.weight": "model-00015-of-00024.safetensors",
+    "transformer.h.36.self_attention.query_key_value.weight": "model-00015-of-00024.safetensors",
+    "transformer.h.37.input_layernorm.bias": "model-00015-of-00024.safetensors",
+    "transformer.h.37.input_layernorm.weight": "model-00015-of-00024.safetensors",
+    "transformer.h.37.mlp.dense_4h_to_h.weight": "model-00015-of-00024.safetensors",
+    "transformer.h.37.mlp.dense_h_to_4h.weight": "model-00015-of-00024.safetensors",
+    "transformer.h.37.self_attention.dense.weight": "model-00015-of-00024.safetensors",
+    "transformer.h.37.self_attention.query_key_value.weight": "model-00015-of-00024.safetensors",
+    "transformer.h.38.input_layernorm.bias": "model-00016-of-00024.safetensors",
+    "transformer.h.38.input_layernorm.weight": "model-00016-of-00024.safetensors",
+    "transformer.h.38.mlp.dense_4h_to_h.weight": "model-00016-of-00024.safetensors",
+    "transformer.h.38.mlp.dense_h_to_4h.weight": "model-00015-of-00024.safetensors",
+    "transformer.h.38.self_attention.dense.weight": "model-00015-of-00024.safetensors",
+    "transformer.h.38.self_attention.query_key_value.weight": "model-00015-of-00024.safetensors",
+    "transformer.h.39.input_layernorm.bias": "model-00016-of-00024.safetensors",
+    "transformer.h.39.input_layernorm.weight": "model-00016-of-00024.safetensors",
+    "transformer.h.39.mlp.dense_4h_to_h.weight": "model-00016-of-00024.safetensors",
+    "transformer.h.39.mlp.dense_h_to_4h.weight": "model-00016-of-00024.safetensors",
+    "transformer.h.39.self_attention.dense.weight": "model-00016-of-00024.safetensors",
+    "transformer.h.39.self_attention.query_key_value.weight": "model-00016-of-00024.safetensors",
+    "transformer.h.4.input_layernorm.bias": "model-00003-of-00024.safetensors",
+    "transformer.h.4.input_layernorm.weight": "model-00003-of-00024.safetensors",
+    "transformer.h.4.mlp.dense_4h_to_h.weight": "model-00003-of-00024.safetensors",
+    "transformer.h.4.mlp.dense_h_to_4h.weight": "model-00003-of-00024.safetensors",
+    "transformer.h.4.self_attention.dense.weight": "model-00003-of-00024.safetensors",
+    "transformer.h.4.self_attention.query_key_value.weight": "model-00003-of-00024.safetensors",
+    "transformer.h.40.input_layernorm.bias": "model-00016-of-00024.safetensors",
+    "transformer.h.40.input_layernorm.weight": "model-00016-of-00024.safetensors",
+    "transformer.h.40.mlp.dense_4h_to_h.weight": "model-00016-of-00024.safetensors",
+    "transformer.h.40.mlp.dense_h_to_4h.weight": "model-00016-of-00024.safetensors",
+    "transformer.h.40.self_attention.dense.weight": "model-00016-of-00024.safetensors",
+    "transformer.h.40.self_attention.query_key_value.weight": "model-00016-of-00024.safetensors",
+    "transformer.h.41.input_layernorm.bias": "model-00017-of-00024.safetensors",
+    "transformer.h.41.input_layernorm.weight": "model-00017-of-00024.safetensors",
+    "transformer.h.41.mlp.dense_4h_to_h.weight": "model-00017-of-00024.safetensors",
+    "transformer.h.41.mlp.dense_h_to_4h.weight": "model-00017-of-00024.safetensors",
+    "transformer.h.41.self_attention.dense.weight": "model-00016-of-00024.safetensors",
+    "transformer.h.41.self_attention.query_key_value.weight": "model-00016-of-00024.safetensors",
+    "transformer.h.42.input_layernorm.bias": "model-00017-of-00024.safetensors",
+    "transformer.h.42.input_layernorm.weight": "model-00017-of-00024.safetensors",
+    "transformer.h.42.mlp.dense_4h_to_h.weight": "model-00017-of-00024.safetensors",
+    "transformer.h.42.mlp.dense_h_to_4h.weight": "model-00017-of-00024.safetensors",
+    "transformer.h.42.self_attention.dense.weight": "model-00017-of-00024.safetensors",
+    "transformer.h.42.self_attention.query_key_value.weight": "model-00017-of-00024.safetensors",
+    "transformer.h.43.input_layernorm.bias": "model-00017-of-00024.safetensors",
+    "transformer.h.43.input_layernorm.weight": "model-00017-of-00024.safetensors",
+    "transformer.h.43.mlp.dense_4h_to_h.weight": "model-00017-of-00024.safetensors",
+    "transformer.h.43.mlp.dense_h_to_4h.weight": "model-00017-of-00024.safetensors",
+    "transformer.h.43.self_attention.dense.weight": "model-00017-of-00024.safetensors",
+    "transformer.h.43.self_attention.query_key_value.weight": "model-00017-of-00024.safetensors",
+    "transformer.h.44.input_layernorm.bias": "model-00018-of-00024.safetensors",
+    "transformer.h.44.input_layernorm.weight": "model-00018-of-00024.safetensors",
+    "transformer.h.44.mlp.dense_4h_to_h.weight": "model-00018-of-00024.safetensors",
+    "transformer.h.44.mlp.dense_h_to_4h.weight": "model-00018-of-00024.safetensors",
+    "transformer.h.44.self_attention.dense.weight": "model-00018-of-00024.safetensors",
+    "transformer.h.44.self_attention.query_key_value.weight": "model-00018-of-00024.safetensors",
+    "transformer.h.45.input_layernorm.bias": "model-00018-of-00024.safetensors",
+    "transformer.h.45.input_layernorm.weight": "model-00018-of-00024.safetensors",
+    "transformer.h.45.mlp.dense_4h_to_h.weight": "model-00018-of-00024.safetensors",
+    "transformer.h.45.mlp.dense_h_to_4h.weight": "model-00018-of-00024.safetensors",
+    "transformer.h.45.self_attention.dense.weight": "model-00018-of-00024.safetensors",
+    "transformer.h.45.self_attention.query_key_value.weight": "model-00018-of-00024.safetensors",
+    "transformer.h.46.input_layernorm.bias": "model-00019-of-00024.safetensors",
+    "transformer.h.46.input_layernorm.weight": "model-00019-of-00024.safetensors",
+    "transformer.h.46.mlp.dense_4h_to_h.weight": "model-00019-of-00024.safetensors",
+    "transformer.h.46.mlp.dense_h_to_4h.weight": "model-00018-of-00024.safetensors",
+    "transformer.h.46.self_attention.dense.weight": "model-00018-of-00024.safetensors",
+    "transformer.h.46.self_attention.query_key_value.weight": "model-00018-of-00024.safetensors",
+    "transformer.h.47.input_layernorm.bias": "model-00019-of-00024.safetensors",
+    "transformer.h.47.input_layernorm.weight": "model-00019-of-00024.safetensors",
+    "transformer.h.47.mlp.dense_4h_to_h.weight": "model-00019-of-00024.safetensors",
+    "transformer.h.47.mlp.dense_h_to_4h.weight": "model-00019-of-00024.safetensors",
+    "transformer.h.47.self_attention.dense.weight": "model-00019-of-00024.safetensors",
+    "transformer.h.47.self_attention.query_key_value.weight": "model-00019-of-00024.safetensors",
+    "transformer.h.48.input_layernorm.bias": "model-00019-of-00024.safetensors",
+    "transformer.h.48.input_layernorm.weight": "model-00019-of-00024.safetensors",
+    "transformer.h.48.mlp.dense_4h_to_h.weight": "model-00019-of-00024.safetensors",
+    "transformer.h.48.mlp.dense_h_to_4h.weight": "model-00019-of-00024.safetensors",
+    "transformer.h.48.self_attention.dense.weight": "model-00019-of-00024.safetensors",
+    "transformer.h.48.self_attention.query_key_value.weight": "model-00019-of-00024.safetensors",
+    "transformer.h.49.input_layernorm.bias": "model-00020-of-00024.safetensors",
+    "transformer.h.49.input_layernorm.weight": "model-00020-of-00024.safetensors",
+    "transformer.h.49.mlp.dense_4h_to_h.weight": "model-00020-of-00024.safetensors",
+    "transformer.h.49.mlp.dense_h_to_4h.weight": "model-00020-of-00024.safetensors",
+    "transformer.h.49.self_attention.dense.weight": "model-00019-of-00024.safetensors",
+    "transformer.h.49.self_attention.query_key_value.weight": "model-00019-of-00024.safetensors",
+    "transformer.h.5.input_layernorm.bias": "model-00003-of-00024.safetensors",
+    "transformer.h.5.input_layernorm.weight": "model-00003-of-00024.safetensors",
+    "transformer.h.5.mlp.dense_4h_to_h.weight": "model-00003-of-00024.safetensors",
+    "transformer.h.5.mlp.dense_h_to_4h.weight": "model-00003-of-00024.safetensors",
+    "transformer.h.5.self_attention.dense.weight": "model-00003-of-00024.safetensors",
+    "transformer.h.5.self_attention.query_key_value.weight": "model-00003-of-00024.safetensors",
+    "transformer.h.50.input_layernorm.bias": "model-00020-of-00024.safetensors",
+    "transformer.h.50.input_layernorm.weight": "model-00020-of-00024.safetensors",
+    "transformer.h.50.mlp.dense_4h_to_h.weight": "model-00020-of-00024.safetensors",
+    "transformer.h.50.mlp.dense_h_to_4h.weight": "model-00020-of-00024.safetensors",
+    "transformer.h.50.self_attention.dense.weight": "model-00020-of-00024.safetensors",
+    "transformer.h.50.self_attention.query_key_value.weight": "model-00020-of-00024.safetensors",
+    "transformer.h.51.input_layernorm.bias": "model-00020-of-00024.safetensors",
+    "transformer.h.51.input_layernorm.weight": "model-00020-of-00024.safetensors",
+    "transformer.h.51.mlp.dense_4h_to_h.weight": "model-00020-of-00024.safetensors",
+    "transformer.h.51.mlp.dense_h_to_4h.weight": "model-00020-of-00024.safetensors",
+    "transformer.h.51.self_attention.dense.weight": "model-00020-of-00024.safetensors",
+    "transformer.h.51.self_attention.query_key_value.weight": "model-00020-of-00024.safetensors",
+    "transformer.h.52.input_layernorm.bias": "model-00021-of-00024.safetensors",
+    "transformer.h.52.input_layernorm.weight": "model-00021-of-00024.safetensors",
+    "transformer.h.52.mlp.dense_4h_to_h.weight": "model-00021-of-00024.safetensors",
+    "transformer.h.52.mlp.dense_h_to_4h.weight": "model-00021-of-00024.safetensors",
+    "transformer.h.52.self_attention.dense.weight": "model-00021-of-00024.safetensors",
+    "transformer.h.52.self_attention.query_key_value.weight": "model-00021-of-00024.safetensors",
+    "transformer.h.53.input_layernorm.bias": "model-00021-of-00024.safetensors",
+    "transformer.h.53.input_layernorm.weight": "model-00021-of-00024.safetensors",
+    "transformer.h.53.mlp.dense_4h_to_h.weight": "model-00021-of-00024.safetensors",
+    "transformer.h.53.mlp.dense_h_to_4h.weight": "model-00021-of-00024.safetensors",
+    "transformer.h.53.self_attention.dense.weight": "model-00021-of-00024.safetensors",
+    "transformer.h.53.self_attention.query_key_value.weight": "model-00021-of-00024.safetensors",
+    "transformer.h.54.input_layernorm.bias": "model-00022-of-00024.safetensors",
+    "transformer.h.54.input_layernorm.weight": "model-00022-of-00024.safetensors",
+    "transformer.h.54.mlp.dense_4h_to_h.weight": "model-00022-of-00024.safetensors",
+    "transformer.h.54.mlp.dense_h_to_4h.weight": "model-00021-of-00024.safetensors",
+    "transformer.h.54.self_attention.dense.weight": "model-00021-of-00024.safetensors",
+    "transformer.h.54.self_attention.query_key_value.weight": "model-00021-of-00024.safetensors",
+    "transformer.h.55.input_layernorm.bias": "model-00022-of-00024.safetensors",
+    "transformer.h.55.input_layernorm.weight": "model-00022-of-00024.safetensors",
+    "transformer.h.55.mlp.dense_4h_to_h.weight": "model-00022-of-00024.safetensors",
+    "transformer.h.55.mlp.dense_h_to_4h.weight": "model-00022-of-00024.safetensors",
+    "transformer.h.55.self_attention.dense.weight": "model-00022-of-00024.safetensors",
+    "transformer.h.55.self_attention.query_key_value.weight": "model-00022-of-00024.safetensors",
+    "transformer.h.56.input_layernorm.bias": "model-00022-of-00024.safetensors",
+    "transformer.h.56.input_layernorm.weight": "model-00022-of-00024.safetensors",
+    "transformer.h.56.mlp.dense_4h_to_h.weight": "model-00022-of-00024.safetensors",
+    "transformer.h.56.mlp.dense_h_to_4h.weight": "model-00022-of-00024.safetensors",
+    "transformer.h.56.self_attention.dense.weight": "model-00022-of-00024.safetensors",
+    "transformer.h.56.self_attention.query_key_value.weight": "model-00022-of-00024.safetensors",
+    "transformer.h.57.input_layernorm.bias": "model-00023-of-00024.safetensors",
+    "transformer.h.57.input_layernorm.weight": "model-00023-of-00024.safetensors",
+    "transformer.h.57.mlp.dense_4h_to_h.weight": "model-00023-of-00024.safetensors",
+    "transformer.h.57.mlp.dense_h_to_4h.weight": "model-00023-of-00024.safetensors",
+    "transformer.h.57.self_attention.dense.weight": "model-00022-of-00024.safetensors",
+    "transformer.h.57.self_attention.query_key_value.weight": "model-00022-of-00024.safetensors",
+    "transformer.h.58.input_layernorm.bias": "model-00023-of-00024.safetensors",
+    "transformer.h.58.input_layernorm.weight": "model-00023-of-00024.safetensors",
+    "transformer.h.58.mlp.dense_4h_to_h.weight": "model-00023-of-00024.safetensors",
+    "transformer.h.58.mlp.dense_h_to_4h.weight": "model-00023-of-00024.safetensors",
+    "transformer.h.58.self_attention.dense.weight": "model-00023-of-00024.safetensors",
+    "transformer.h.58.self_attention.query_key_value.weight": "model-00023-of-00024.safetensors",
+    "transformer.h.59.input_layernorm.bias": "model-00023-of-00024.safetensors",
+    "transformer.h.59.input_layernorm.weight": "model-00023-of-00024.safetensors",
+    "transformer.h.59.mlp.dense_4h_to_h.weight": "model-00023-of-00024.safetensors",
+    "transformer.h.59.mlp.dense_h_to_4h.weight": "model-00023-of-00024.safetensors",
+    "transformer.h.59.self_attention.dense.weight": "model-00023-of-00024.safetensors",
+    "transformer.h.59.self_attention.query_key_value.weight": "model-00023-of-00024.safetensors",
+    "transformer.h.6.input_layernorm.bias": "model-00004-of-00024.safetensors",
+    "transformer.h.6.input_layernorm.weight": "model-00004-of-00024.safetensors",
+    "transformer.h.6.mlp.dense_4h_to_h.weight": "model-00004-of-00024.safetensors",
+    "transformer.h.6.mlp.dense_h_to_4h.weight": "model-00003-of-00024.safetensors",
+    "transformer.h.6.self_attention.dense.weight": "model-00003-of-00024.safetensors",
+    "transformer.h.6.self_attention.query_key_value.weight": "model-00003-of-00024.safetensors",
+    "transformer.h.7.input_layernorm.bias": "model-00004-of-00024.safetensors",
+    "transformer.h.7.input_layernorm.weight": "model-00004-of-00024.safetensors",
+    "transformer.h.7.mlp.dense_4h_to_h.weight": "model-00004-of-00024.safetensors",
+    "transformer.h.7.mlp.dense_h_to_4h.weight": "model-00004-of-00024.safetensors",
+    "transformer.h.7.self_attention.dense.weight": "model-00004-of-00024.safetensors",
+    "transformer.h.7.self_attention.query_key_value.weight": "model-00004-of-00024.safetensors",
+    "transformer.h.8.input_layernorm.bias": "model-00004-of-00024.safetensors",
+    "transformer.h.8.input_layernorm.weight": "model-00004-of-00024.safetensors",
+    "transformer.h.8.mlp.dense_4h_to_h.weight": "model-00004-of-00024.safetensors",
+    "transformer.h.8.mlp.dense_h_to_4h.weight": "model-00004-of-00024.safetensors",
+    "transformer.h.8.self_attention.dense.weight": "model-00004-of-00024.safetensors",
+    "transformer.h.8.self_attention.query_key_value.weight": "model-00004-of-00024.safetensors",
+    "transformer.h.9.input_layernorm.bias": "model-00005-of-00024.safetensors",
+    "transformer.h.9.input_layernorm.weight": "model-00005-of-00024.safetensors",
+    "transformer.h.9.mlp.dense_4h_to_h.weight": "model-00005-of-00024.safetensors",
+    "transformer.h.9.mlp.dense_h_to_4h.weight": "model-00005-of-00024.safetensors",
+    "transformer.h.9.self_attention.dense.weight": "model-00004-of-00024.safetensors",
+    "transformer.h.9.self_attention.query_key_value.weight": "model-00004-of-00024.safetensors",
+    "transformer.ln_f.bias": "model-00023-of-00024.safetensors",
+    "transformer.ln_f.weight": "model-00023-of-00024.safetensors",
+    "transformer.word_embeddings.weight": "model-00001-of-00024.safetensors"
+  }
+}