Quant for 3.0

Browse files

Files changed (17) hide show

README.md +309 -38
SYSTEM_PROMPT.txt +18 -0
config.json +36 -0
generation_config.json +6 -0
model.safetensors.index.json +802 -0
output-00001-of-00006.safetensors +3 -0
output-00002-of-00006.safetensors +3 -0
output-00003-of-00006.safetensors +3 -0
output-00004-of-00006.safetensors +3 -0
output-00005-of-00006.safetensors +3 -0
output-00006-of-00006.safetensors +3 -0
params.json +11 -0
special_tokens_map.json +23 -0
tokenizer.json +0 -0
tokenizer.model +3 -0
tokenizer.model.v7 +0 -0
tokenizer_config.json +0 -0

README.md CHANGED Viewed

@@ -119,73 +119,344 @@ extra_gated_description: >-
   Mistral AI processes your personal data below to provide the model and enforce its license. If you are affiliated with a commercial entity, we may also send you communications about our models. For more information on your rights and data handling, please see our <a href="https://mistral.ai/terms/">privacy policy</a>.
 extra_gated_button_content: Submit
 library_name: vllm
-quantized_by: bartowski
-pipeline_tag: text-generation
 ---
-## Exllama v2 Quantizations of Mistral-Large-Instruct-2411
-Using <a href="https://github.com/turboderp/exllamav2/releases/tag/v0.2.4">turboderp's ExLlamaV2 v0.2.4</a> for quantization.
-<b>The "main" branch only contains the measurement.json, download one of the other branches for the model (see below)</b>
-Each branch contains an individual bits per weight, with the main one containing only the meaurement.json for further conversions.
-Conversion was done using the default calibration dataset.
-Default arguments used except when the bits per weight is above 6.0, at that point the lm_head layer is quantized at 8 bits per weight instead of the default 6.
-Original model: https://huggingface.co/mistralai/Mistral-Large-Instruct-2411
-<a href="https://huggingface.co/bartowski/Mistral-Large-Instruct-2411-exl2/tree/6_5">6.5 bits per weight</a>
-<a href="https://huggingface.co/bartowski/Mistral-Large-Instruct-2411-exl2/tree/5_0">5.0 bits per weight</a>
-<a href="https://huggingface.co/bartowski/Mistral-Large-Instruct-2411-exl2/tree/4_25">4.25 bits per weight</a>
-<a href="https://huggingface.co/bartowski/Mistral-Large-Instruct-2411-exl2/tree/3_75">3.75 bits per weight</a>
-<a href="https://huggingface.co/bartowski/Mistral-Large-Instruct-2411-exl2/tree/3_5">3.5 bits per weight</a>
-<a href="https://huggingface.co/bartowski/Mistral-Large-Instruct-2411-exl2/tree/3_0">3.0 bits per weight</a>
-<a href="https://huggingface.co/bartowski/Mistral-Large-Instruct-2411-exl2/tree/2_2">2.2 bits per weight</a>
-## Download instructions
-With git:
-```shell
-git clone --single-branch --branch 6_5 https://huggingface.co/bartowski/Mistral-Large-Instruct-2411-exl2
 ```
-With huggingface hub (credit to TheBloke for instructions):
-```shell
-pip3 install huggingface-hub
-```
-To download the `main` (only useful if you only care about measurement.json) branch to a folder called `Mistral-Large-Instruct-2411-exl2`:
-```shell
-mkdir Mistral-Large-Instruct-2411-exl2
-huggingface-cli download bartowski/Mistral-Large-Instruct-2411-exl2 --local-dir Mistral-Large-Instruct-2411-exl2
 ```
-To download from a different branch, add the `--revision` parameter:
-Linux:
-```shell
-mkdir Mistral-Large-Instruct-2411-exl2-6_5
-huggingface-cli download bartowski/Mistral-Large-Instruct-2411-exl2 --revision 6_5 --local-dir Mistral-Large-Instruct-2411-exl2-6_5
 ```
-Windows (which apparently doesn't like _ in folders sometimes?):
-```shell
-mkdir Mistral-Large-Instruct-2411-exl2-6.5
-huggingface-cli download bartowski/Mistral-Large-Instruct-2411-exl2 --revision 6_5 --local-dir Mistral-Large-Instruct-2411-exl2-6.5
 ```

   Mistral AI processes your personal data below to provide the model and enforce its license. If you are affiliated with a commercial entity, we may also send you communications about our models. For more information on your rights and data handling, please see our <a href="https://mistral.ai/terms/">privacy policy</a>.
 extra_gated_button_content: Submit
 library_name: vllm
 ---
+# Model Card for Mistral-Large-Instruct-2411
+Mistral-Large-Instruct-2411 is an advanced dense Large Language Model (LLM) of 123B parameters with state-of-the-art reasoning, knowledge and coding capabilities extending [Mistral-Large-Instruct-2407](https://huggingface.co/mistralai/Mistral-Large-Instruct-2407) with better Long Context, Function Calling and System Prompt.
+## Key features
+- **Multi-lingual by design:** Dozens of languages supported, including English, French, German, Spanish, Italian, Chinese, Japanese, Korean, Portuguese, Dutch and Polish.
+- **Proficient in coding:** Trained on 80+ coding languages such as Python, Java, C, C++, Javacsript, and Bash. Also trained on more specific languages such as Swift and Fortran.
+- **Agent-centric:** Best-in-class agentic capabilities with native function calling and JSON outputting.
+- **Advanced Reasoning:** State-of-the-art mathematical and reasoning capabilities.
+- **Mistral Research License:** Allows usage and modification for non-commercial usages.
+- **Large Context:** A large 128k context window.
+- **Robust Context Adherence:** Ensures strong adherence for RAG and large context applications.
+- **System Prompt:** Maintains strong adherence and support for more reliable system prompts.
+### System Prompt
+We appreciate the feedback received from our community regarding our system prompt handling.
+In response, we have implemented stronger support for system prompts.
+To achieve optimal results, we recommend always including a system prompt that clearly outlines the bot's purpose, even if it is minimal.
+### Basic Instruct Template (V7)
+```
+<s>[SYSTEM_PROMPT] <system prompt>[/SYSTEM_PROMPT][INST] <user message>[/INST] <assistant response></s>[INST] <user message>[/INST]
+```
+**Be careful with subtle missing or trailing white spaces!**
+*Please make sure to use [mistral-common](https://github.com/mistralai/mistral-common) as the source of truth*
+## Usage
+The model can be used with the following frameworks
+- [`vllm`](https://github.com/vllm-project/vllm): See [here](#vLLM)
+### vLLM
+We recommend using this model with the [vLLM library](https://github.com/vllm-project/vllm)
+to implement production-ready inference pipelines.
+**_Installation_**
+Make sure you install [`vLLM >= v0.6.4.post1`](https://github.com/vllm-project/vllm/releases/tag/v0.6.4.post1):
+```
+pip install --upgrade vllm
+```
+Also make sure you have [`mistral_common >= 1.5.0`](https://github.com/mistralai/mistral-common/releases/tag/v1.5.0) installed:
+```
+pip install --upgrade mistral_common
 ```
+You can also make use of a ready-to-go [docker image](https://github.com/vllm-project/vllm/blob/main/Dockerfile) or on the [docker hub](https://hub.docker.com/layers/vllm/vllm-openai/latest/images/sha256-55a88146a4da0b6e193431b5b1d3492dfd7bebdc16919df4d031273e85a6157c?context=explore).
+### Server
+We recommand that you use Mistral-Large-Instruct-2411 in a server/client setting.
+1. Spin up a server:
 ```
+vllm serve mistralai/Mistral-Large-Instruct-2411 --tokenizer_mode mistral --config_format mistral --load_format mistral --tensor_parallel_size 8
+```
+**Note:** Running Mistral-Large-Instruct-2411 on GPU requires over 300 GB of GPU RAM.
+2. To ping the client you can use a simple Python snippet.
+```py
+import requests
+import json
+from huggingface_hub import hf_hub_download
+from datetime import datetime, timedelta
+url = "http://<your-server>:8000/v1/chat/completions"
+headers = {"Content-Type": "application/json", "Authorization": "Bearer token"}
+model = "mistralai/Mistral-Large-Instruct-2411"
+def load_system_prompt(repo_id: str, filename: str) -> str:
+    file_path = hf_hub_download(repo_id=repo_id, filename=filename)
+    with open(file_path, "r") as file:
+        system_prompt = file.read()
+    today = datetime.today().strftime("%Y-%m-%d")
+    yesterday = (datetime.today() - timedelta(days=1)).strftime("%Y-%m-%d")
+    model_name = repo_id.split("/")[-1]
+    return system_prompt.format(name=model_name, today=today, yesterday=yesterday)
+SYSTEM_PROMPT = load_system_prompt(model, "SYSTEM_PROMPT.txt")
+messages = [
+    {"role": "system", "content": SYSTEM_PROMPT + "\n\nThink step by step. You're a math genius."},
+    {
+        "role": "user",
+        "content": "Think of four random numbers. Then add, substract or multiply them so that the solution is 10. If it's not possible, say it."
+    },
+]
+data = {"model": model, "messages": messages}
+response = requests.post(url, headers=headers, data=json.dumps(data))
+print(response.json()["choices"][0]["message"]["content"])
+#  Sure, let's start by thinking of four random numbers. For example, let's take 3, 5, 2, and 1.
+#
+#  Now, we need to find a combination of addition, subtraction, or multiplication that results in 10.
+#  Let's try:
+#  \[ 3 + 5 + 2 - 1 = 9 \]
+#  This doesn't work. Let's try another combination:
+#  \[ 3 \times 2 + 5 - 1 = 6 + 5 - 1 = 10 \]
+#  This works! So, with the numbers 3, 5, 2, and 1, we can achieve the result 10 by performing the operations \( 3 \times 2 + 5 - 1 \).
+```
+### Offline
+```py
+from vllm import LLM
+from vllm.sampling_params import SamplingParams
+from huggingface_hub import hf_hub_download
+from datetime import datetime, timedelta
+model_name = "mistralai/Mistral-Large-Instruct-2411"
+def load_system_prompt(repo_id: str, filename: str) -> str:
+    file_path = hf_hub_download(repo_id=repo_id, filename=filename)
+    with open(file_path, 'r') as file:
+        system_prompt = file.read()
+    today = datetime.today().strftime('%Y-%m-%d')
+    yesterday = (datetime.today() - timedelta(days=1)).strftime('%Y-%m-%d')
+    model_name = repo_id.split("/")[-1]
+    return system_prompt.format(name=model_name, today=today, yesterday=yesterday)
+SYSTEM_PROMPT = load_system_prompt(model_name, "SYSTEM_PROMPT.txt") + "\n\nThink step by step. You're a math genius."
+user_prompt = "Without browsing the web, how many days ago was Mistral founded?"
+messages = [
+    {
+        "role": "system",
+        "content": SYSTEM_PROMPT
+    },
+    {
+        "role": "user",
+        "content": user_prompt
+    },
+]
+# note that running this model on GPU requires over 300 GB of GPU RAM
+llm = LLM(model=model_name, tokenizer_mode="mistral", tensor_parallel_size=8)
+sampling_params = SamplingParams(max_tokens=512)
+outputs = llm.chat(messages, sampling_params=sampling_params)
+print(outputs[0].outputs[0].text)
+# I don't have real-time web browsing capabilities or access to current data, but I can help you calculate the number of days based on the information I have.
+#
+#Mistral AI was founded in April 2023. To determine how many days ago that was from today's date, November 18, 2024, we need to calculate the total number of days between April 2023 and November 2024.
+#
+#Here's the step-by-step calculation:
+#
+#1. **Days from April 2023 to December 2023:**
+#   - April 2023: 30 days (April has 30 days)
+#   - May 2023: 31 days
+#   - June 2023: 30 days
+#   - July 2023: 31 days
+#   - August 2023: 31 days
+#   - September 2023: 30 days
+#   - October 2023: 31 days
+#   - November 2023: 30 days
+#   - December 2023: 31 days
+#
+#   Total days in 2023 from April to December = 30 + 31 + 30 + 31 + 31 + 30 + 31 + 30 + 31 = 275 days
+#
+#2. **Days from January 2024 to November 18, 2024:**
+#   - January 2024: 31 days
+#   - February 2024: 29 days (2024 is a leap year)
+#   - March 2024: 31 days
+#   - April 2024: 30 days
+#   - May 2024: 31 days
+#   - June 2024: 30 days
+#   - July 2024: 31 days
+#   - August 2024: 31 days
+#   - September 2024: 30 days
+#   - October 2024: 31 days
+#   - November 2024 (up to the 18th): 18 days
+#
+#   Total days in 2024 from January to November 18 = 31 + 29 + 31 + 30 + 31 + 30 + 31 + 31 + 30 + 31 + 18 = 323 days
+#
+#3. **Total days from April 2023 to November 18, 2024:**
+#   Total days = 275 days (2023) + 323 days (2024) = 598 days
+#
+#Therefore, Mistral AI was founded 598 days ago from today's date, November 18, 2024.
 ```
+### Improved Function Calling
+Mistral-Large-2411 has much improved function calling capabilities that are fully supported
+using [`mistral_common >= 1.5.0`](https://github.com/mistralai/mistral-common/releases/tag/v1.5.0) and [`vLLM >= v0.6.4.post1`](https://github.com/vllm-project/vllm/releases/tag/v0.6.4.post1).
+Make sure to serve the model with the following flags in vLLM:
 ```
+vllm serve mistralai/Pixtral-Large-Instruct-2411 --tokenizer_mode mistral --tensor-parallel-size 8 --tool-call-parser mistral --enable-auto-tool-choice
+```
+<details>
+  <summary>Example</summary>
+```py
+import requests
+import json
+from huggingface_hub import hf_hub_download
+from datetime import datetime, timedelta
+url = "http://<your-server>:8000/v1/chat/completions"
+headers = {"Content-Type": "application/json", "Authorization": "Bearer token"}
+model = "mistralai/Mistral-Large-Instruct-2411"
+def load_system_prompt(repo_id: str, filename: str) -> str:
+    file_path = hf_hub_download(repo_id=repo_id, filename=filename)
+    with open(file_path, "r") as file:
+        system_prompt = file.read()
+    today = datetime.today().strftime("%Y-%m-%d")
+    yesterday = (datetime.today() - timedelta(days=1)).strftime("%Y-%m-%d")
+    model_name = repo_id.split("/")[-1]
+    return system_prompt.format(name=model_name, today=today, yesterday=yesterday)
+SYSTEM_PROMPT = load_system_prompt(model, "SYSTEM_PROMPT.txt")
+tools = [
+    {
+        "type": "function",
+        "function": {
+            "name": "get_current_weather",
+            "description": "Get the current weather in a given location",
+            "parameters": {
+                "type": "object",
+                "properties": {
+                    "city": {
+                        "type": "string",
+                        "description": "The city to find the weather for, e.g. 'San Francisco'",
+                    },
+                    "state": {
+                        "type": "string",
+                        "description": "The state abbreviation, e.g. 'CA' for California",
+                    },
+                    "unit": {
+                        "type": "string",
+                        "description": "The unit for temperature",
+                        "enum": ["celsius", "fahrenheit"],
+                    },
+                },
+                "required": ["city", "state", "unit"],
+            },
+        },
+    },
+    {
+        "type": "function",
+        "function": {
+            "name": "rewrite",
+            "description": "Rewrite a given text for improved clarity",
+            "parameters": {
+                "type": "object",
+                "properties": {
+                    "text": {
+                        "type": "string",
+                        "description": "The input text to rewrite",
+                    }
+                },
+            },
+        },
+    },
+]
+messages = [
+    {"role": "system", "content": SYSTEM_PROMPT},
+    {
+        "role": "user",
+        "content": "Could you please make the below article more concise?\n\nOpenAI is an artificial intelligence research laboratory consisting of the non-profit OpenAI Incorporated and its for-profit subsidiary corporation OpenAI Limited Partnership.",
+    },
+    {
+        "role": "assistant",
+        "content": "",
+        "tool_calls": [
+            {
+                "id": "bbc5b7ede",
+                "type": "function",
+                "function": {
+                    "name": "rewrite",
+                    "arguments": '{"text": "OpenAI is an artificial intelligence research laboratory consisting of the non-profit OpenAI Incorporated and its for-profit subsidiary corporation OpenAI Limited Partnership."}',
+                },
+            }
+        ],
+    },
+    {
+        "role": "tool",
+        "content": '{"action":"rewrite","outcome":"OpenAI is a FOR-profit company."}',
+        "tool_call_id": "bbc5b7ede",
+        "name": "rewrite",
+    },
+    {
+        "role": "assistant",
+        "content": "---\n\nOpenAI is a FOR-profit company.",
+    },
+    {
+        "role": "user",
+        "content": "Can you tell me what the temperature will be in Dallas, in Fahrenheit?",
+    },
+]
+data = {"model": model, "messages": messages, "tools": tools}
+response = requests.post(url, headers=headers, data=json.dumps(data))
+print(response.json()["choices"][0]["message"]["tool_calls"])
+# [{'id': '8PdihwL6d', 'type': 'function', 'function': {'name': 'get_current_weather', 'arguments': '{"city": "Dallas", "state": "TX", "unit": "fahrenheit"}'}}]
+```
+</details>
+## The Mistral AI Team
+Albert Jiang, Alexandre Sablayrolles, Alexis Tacnet, Alok Kothari, Antoine Roux, Arthur Mensch, Audrey Herblin-Stoop, Augustin Garreau, Austin Birky, Bam4d, Baptiste Bout, Baudouin de Monicault, Blanche Savary, Carole Rambaud, Caroline Feldman, Devendra Singh Chaplot, Diego de las Casas, Diogo Costa, Eleonore Arcelin, Emma Bou Hanna, Etienne Metzger, Gaspard Blanchet, Gianna Lengyel, Guillaume Bour, Guillaume Lample, Harizo Rajaona, Henri Roussez, Hichem Sattouf, Ian Mack, Jean-Malo Delignon, Jessica Chudnovsky, Justus Murke, Kartik Khandelwal, Lawrence Stewart, Louis Martin, Louis Ternon, Lucile Saulnier, Lélio Renard Lavaud, Margaret Jennings, Marie Pellat, Marie Torelli, Marie-Anne Lachaux, Marjorie Janiewicz, Mickaël Seznec, Nicolas Schuhl, Niklas Muhs, Olivier de Garrigues, Patrick von Platen, Paul Jacob, Pauline Buche, Pavan Kumar Reddy, Perry Savas, Pierre Stock, Romain Sauvestre, Sagar Vaze, Sandeep Subramanian, Saurabh Garg, Sophia Yang, Szymon Antoniak, Teven Le Scao, Thibault Schueller, Thibaut Lavril, Thomas Wang, Théophile Gervet, Timothée Lacroix, Valera Nemychnikova, Wendy Shang, William El Sayed, William Marshall

SYSTEM_PROMPT.txt ADDED Viewed

	@@ -0,0 +1,18 @@

+You are {name}, a Large Language Model (LLM) created by Mistral AI, a French startup headquartered in Paris.
+You power an AI assistant called Le Chat.
+Your knowledge base was last updated on 2023-10-01.
+The current date is {today}.
+When you're not sure about some information, you say that you don't have the information and don't make up anything.
+If the user's question is not clear, ambiguous, or does not provide enough context for you to accurately answer the question, you do not try to answer it right away and you rather ask the user to clarify their request (e.g. "What are some good restaurants around me?" => "Where are you?" or "When is the next flight to Tokyo" => "Where do you travel from?").
+You are always very attentive to dates, in particular you try to resolve dates (e.g. "yesterday" is {yesterday}) and when asked about information at specific dates, you discard information that is at another date.
+You follow these instructions in all languages, and always respond to the user in the language they use or request.
+Next sections describe the capabilities that you have.
+# WEB BROWSING INSTRUCTIONS
+You cannot perform any web search or access internet to open URLs, links etc. If it seems like the user is expecting you to do so, you clarify the situation and ask the user to copy paste the text directly in the chat.
+# MULTI-MODAL INSTRUCTIONS
+You do not have any multimodal capability, in particular you cannot read nor generate images, or transcribe audio files or videos.

config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+    "architectures": [
+        "MistralForCausalLM"
+    ],
+    "attention_dropout": 0.0,
+    "bos_token_id": 1,
+    "eos_token_id": 2,
+    "head_dim": 128,
+    "hidden_act": "silu",
+    "hidden_size": 12288,
+    "initializer_range": 0.02,
+    "intermediate_size": 28672,
+    "max_position_embeddings": 131072,
+    "model_type": "mistral",
+    "num_attention_heads": 96,
+    "num_hidden_layers": 88,
+    "num_key_value_heads": 8,
+    "rms_norm_eps": 1e-05,
+    "rope_theta": 1000000.0,
+    "sliding_window": null,
+    "tie_word_embeddings": false,
+    "transformers_version": "4.46.2",
+    "use_cache": true,
+    "vocab_size": 32768,
+    "quantization_config": {
+        "quant_method": "exl2",
+        "version": "0.2.4",
+        "bits": 3.0,
+        "head_bits": 6,
+        "calibration": {
+            "rows": 115,
+            "length": 2048,
+            "dataset": "(default)"
+        }
+    }
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "transformers_version": "4.46.2"
+}

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,802 @@

+{
+  "metadata": {
+    "total_size": 245220139008
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00051-of-00051.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00051.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00051.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00051.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00051.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00051.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00051.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00051.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00051.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00051.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00051.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00002-of-00051.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00002-of-00051.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00051.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00002-of-00051.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00002-of-00051.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00051.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00051.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00051.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00051.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00007-of-00051.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00007-of-00051.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00007-of-00051.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00007-of-00051.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00007-of-00051.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00006-of-00051.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00006-of-00051.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00006-of-00051.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00006-of-00051.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00007-of-00051.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00007-of-00051.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00007-of-00051.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00007-of-00051.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00007-of-00051.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00007-of-00051.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00007-of-00051.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00007-of-00051.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00007-of-00051.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00008-of-00051.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00008-of-00051.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00008-of-00051.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00008-of-00051.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00008-of-00051.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00008-of-00051.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00008-of-00051.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00008-of-00051.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00008-of-00051.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00009-of-00051.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00009-of-00051.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00008-of-00051.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00008-of-00051.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00009-of-00051.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00008-of-00051.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00008-of-00051.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00008-of-00051.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00008-of-00051.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00009-of-00051.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00009-of-00051.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00009-of-00051.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00009-of-00051.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00009-of-00051.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00009-of-00051.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00009-of-00051.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00009-of-00051.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00009-of-00051.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00010-of-00051.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00010-of-00051.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00009-of-00051.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00010-of-00051.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00010-of-00051.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00009-of-00051.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00009-of-00051.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00009-of-00051.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00009-of-00051.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00010-of-00051.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00010-of-00051.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00010-of-00051.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00010-of-00051.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00010-of-00051.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00010-of-00051.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00010-of-00051.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00010-of-00051.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00010-of-00051.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00011-of-00051.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00011-of-00051.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00011-of-00051.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00011-of-00051.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00011-of-00051.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00010-of-00051.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00010-of-00051.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00010-of-00051.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00010-of-00051.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00011-of-00051.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00011-of-00051.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00011-of-00051.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00011-of-00051.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00011-of-00051.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00011-of-00051.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00011-of-00051.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00011-of-00051.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00011-of-00051.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00012-of-00051.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00012-of-00051.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00012-of-00051.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00012-of-00051.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00012-of-00051.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00012-of-00051.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00012-of-00051.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00012-of-00051.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00012-of-00051.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00002-of-00051.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00002-of-00051.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00002-of-00051.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00002-of-00051.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00002-of-00051.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00002-of-00051.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00002-of-00051.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00002-of-00051.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00002-of-00051.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00013-of-00051.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00013-of-00051.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00012-of-00051.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00012-of-00051.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00013-of-00051.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00012-of-00051.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00012-of-00051.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00012-of-00051.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00012-of-00051.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00013-of-00051.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00013-of-00051.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00013-of-00051.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00013-of-00051.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00013-of-00051.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00013-of-00051.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00013-of-00051.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00013-of-00051.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00013-of-00051.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00014-of-00051.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00014-of-00051.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00013-of-00051.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00014-of-00051.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00014-of-00051.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00013-of-00051.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00013-of-00051.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00013-of-00051.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00013-of-00051.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00014-of-00051.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00014-of-00051.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00014-of-00051.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00014-of-00051.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00014-of-00051.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00014-of-00051.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00014-of-00051.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00014-of-00051.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00014-of-00051.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00015-of-00051.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00015-of-00051.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00015-of-00051.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00015-of-00051.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00015-of-00051.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00014-of-00051.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00014-of-00051.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00014-of-00051.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00014-of-00051.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00015-of-00051.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00015-of-00051.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00015-of-00051.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00015-of-00051.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00015-of-00051.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00015-of-00051.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00015-of-00051.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00015-of-00051.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00015-of-00051.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00016-of-00051.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00016-of-00051.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00016-of-00051.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00016-of-00051.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00016-of-00051.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00016-of-00051.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00016-of-00051.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00016-of-00051.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00016-of-00051.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00017-of-00051.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00017-of-00051.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00016-of-00051.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00016-of-00051.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00017-of-00051.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00016-of-00051.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00016-of-00051.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00016-of-00051.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00016-of-00051.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00017-of-00051.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00017-of-00051.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00017-of-00051.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00017-of-00051.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00017-of-00051.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00017-of-00051.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00017-of-00051.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00017-of-00051.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00017-of-00051.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00018-of-00051.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00018-of-00051.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00017-of-00051.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00018-of-00051.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00018-of-00051.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00017-of-00051.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00017-of-00051.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00017-of-00051.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00017-of-00051.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00003-of-00051.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00003-of-00051.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00003-of-00051.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00003-of-00051.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00003-of-00051.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00002-of-00051.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00002-of-00051.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00002-of-00051.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00002-of-00051.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00018-of-00051.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00018-of-00051.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00018-of-00051.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00018-of-00051.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00018-of-00051.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00018-of-00051.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00018-of-00051.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00018-of-00051.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00018-of-00051.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00019-of-00051.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00019-of-00051.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00019-of-00051.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00019-of-00051.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00019-of-00051.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00018-of-00051.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00018-of-00051.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00018-of-00051.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00018-of-00051.safetensors",
+    "model.layers.32.input_layernorm.weight": "model-00019-of-00051.safetensors",
+    "model.layers.32.mlp.down_proj.weight": "model-00019-of-00051.safetensors",
+    "model.layers.32.mlp.gate_proj.weight": "model-00019-of-00051.safetensors",
+    "model.layers.32.mlp.up_proj.weight": "model-00019-of-00051.safetensors",
+    "model.layers.32.post_attention_layernorm.weight": "model-00019-of-00051.safetensors",
+    "model.layers.32.self_attn.k_proj.weight": "model-00019-of-00051.safetensors",
+    "model.layers.32.self_attn.o_proj.weight": "model-00019-of-00051.safetensors",
+    "model.layers.32.self_attn.q_proj.weight": "model-00019-of-00051.safetensors",
+    "model.layers.32.self_attn.v_proj.weight": "model-00019-of-00051.safetensors",
+    "model.layers.33.input_layernorm.weight": "model-00020-of-00051.safetensors",
+    "model.layers.33.mlp.down_proj.weight": "model-00020-of-00051.safetensors",
+    "model.layers.33.mlp.gate_proj.weight": "model-00020-of-00051.safetensors",
+    "model.layers.33.mlp.up_proj.weight": "model-00020-of-00051.safetensors",
+    "model.layers.33.post_attention_layernorm.weight": "model-00020-of-00051.safetensors",
+    "model.layers.33.self_attn.k_proj.weight": "model-00020-of-00051.safetensors",
+    "model.layers.33.self_attn.o_proj.weight": "model-00020-of-00051.safetensors",
+    "model.layers.33.self_attn.q_proj.weight": "model-00020-of-00051.safetensors",
+    "model.layers.33.self_attn.v_proj.weight": "model-00020-of-00051.safetensors",
+    "model.layers.34.input_layernorm.weight": "model-00021-of-00051.safetensors",
+    "model.layers.34.mlp.down_proj.weight": "model-00021-of-00051.safetensors",
+    "model.layers.34.mlp.gate_proj.weight": "model-00020-of-00051.safetensors",
+    "model.layers.34.mlp.up_proj.weight": "model-00020-of-00051.safetensors",
+    "model.layers.34.post_attention_layernorm.weight": "model-00021-of-00051.safetensors",
+    "model.layers.34.self_attn.k_proj.weight": "model-00020-of-00051.safetensors",
+    "model.layers.34.self_attn.o_proj.weight": "model-00020-of-00051.safetensors",
+    "model.layers.34.self_attn.q_proj.weight": "model-00020-of-00051.safetensors",
+    "model.layers.34.self_attn.v_proj.weight": "model-00020-of-00051.safetensors",
+    "model.layers.35.input_layernorm.weight": "model-00021-of-00051.safetensors",
+    "model.layers.35.mlp.down_proj.weight": "model-00021-of-00051.safetensors",
+    "model.layers.35.mlp.gate_proj.weight": "model-00021-of-00051.safetensors",
+    "model.layers.35.mlp.up_proj.weight": "model-00021-of-00051.safetensors",
+    "model.layers.35.post_attention_layernorm.weight": "model-00021-of-00051.safetensors",
+    "model.layers.35.self_attn.k_proj.weight": "model-00021-of-00051.safetensors",
+    "model.layers.35.self_attn.o_proj.weight": "model-00021-of-00051.safetensors",
+    "model.layers.35.self_attn.q_proj.weight": "model-00021-of-00051.safetensors",
+    "model.layers.35.self_attn.v_proj.weight": "model-00021-of-00051.safetensors",
+    "model.layers.36.input_layernorm.weight": "model-00022-of-00051.safetensors",
+    "model.layers.36.mlp.down_proj.weight": "model-00022-of-00051.safetensors",
+    "model.layers.36.mlp.gate_proj.weight": "model-00021-of-00051.safetensors",
+    "model.layers.36.mlp.up_proj.weight": "model-00022-of-00051.safetensors",
+    "model.layers.36.post_attention_layernorm.weight": "model-00022-of-00051.safetensors",
+    "model.layers.36.self_attn.k_proj.weight": "model-00021-of-00051.safetensors",
+    "model.layers.36.self_attn.o_proj.weight": "model-00021-of-00051.safetensors",
+    "model.layers.36.self_attn.q_proj.weight": "model-00021-of-00051.safetensors",
+    "model.layers.36.self_attn.v_proj.weight": "model-00021-of-00051.safetensors",
+    "model.layers.37.input_layernorm.weight": "model-00022-of-00051.safetensors",
+    "model.layers.37.mlp.down_proj.weight": "model-00022-of-00051.safetensors",
+    "model.layers.37.mlp.gate_proj.weight": "model-00022-of-00051.safetensors",
+    "model.layers.37.mlp.up_proj.weight": "model-00022-of-00051.safetensors",
+    "model.layers.37.post_attention_layernorm.weight": "model-00022-of-00051.safetensors",
+    "model.layers.37.self_attn.k_proj.weight": "model-00022-of-00051.safetensors",
+    "model.layers.37.self_attn.o_proj.weight": "model-00022-of-00051.safetensors",
+    "model.layers.37.self_attn.q_proj.weight": "model-00022-of-00051.safetensors",
+    "model.layers.37.self_attn.v_proj.weight": "model-00022-of-00051.safetensors",
+    "model.layers.38.input_layernorm.weight": "model-00023-of-00051.safetensors",
+    "model.layers.38.mlp.down_proj.weight": "model-00023-of-00051.safetensors",
+    "model.layers.38.mlp.gate_proj.weight": "model-00023-of-00051.safetensors",
+    "model.layers.38.mlp.up_proj.weight": "model-00023-of-00051.safetensors",
+    "model.layers.38.post_attention_layernorm.weight": "model-00023-of-00051.safetensors",
+    "model.layers.38.self_attn.k_proj.weight": "model-00022-of-00051.safetensors",
+    "model.layers.38.self_attn.o_proj.weight": "model-00022-of-00051.safetensors",
+    "model.layers.38.self_attn.q_proj.weight": "model-00022-of-00051.safetensors",
+    "model.layers.38.self_attn.v_proj.weight": "model-00022-of-00051.safetensors",
+    "model.layers.39.input_layernorm.weight": "model-00023-of-00051.safetensors",
+    "model.layers.39.mlp.down_proj.weight": "model-00023-of-00051.safetensors",
+    "model.layers.39.mlp.gate_proj.weight": "model-00023-of-00051.safetensors",
+    "model.layers.39.mlp.up_proj.weight": "model-00023-of-00051.safetensors",
+    "model.layers.39.post_attention_layernorm.weight": "model-00023-of-00051.safetensors",
+    "model.layers.39.self_attn.k_proj.weight": "model-00023-of-00051.safetensors",
+    "model.layers.39.self_attn.o_proj.weight": "model-00023-of-00051.safetensors",
+    "model.layers.39.self_attn.q_proj.weight": "model-00023-of-00051.safetensors",
+    "model.layers.39.self_attn.v_proj.weight": "model-00023-of-00051.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00003-of-00051.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00003-of-00051.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00003-of-00051.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00003-of-00051.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00003-of-00051.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00003-of-00051.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00003-of-00051.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00003-of-00051.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00003-of-00051.safetensors",
+    "model.layers.40.input_layernorm.weight": "model-00024-of-00051.safetensors",
+    "model.layers.40.mlp.down_proj.weight": "model-00024-of-00051.safetensors",
+    "model.layers.40.mlp.gate_proj.weight": "model-00024-of-00051.safetensors",
+    "model.layers.40.mlp.up_proj.weight": "model-00024-of-00051.safetensors",
+    "model.layers.40.post_attention_layernorm.weight": "model-00024-of-00051.safetensors",
+    "model.layers.40.self_attn.k_proj.weight": "model-00024-of-00051.safetensors",
+    "model.layers.40.self_attn.o_proj.weight": "model-00024-of-00051.safetensors",
+    "model.layers.40.self_attn.q_proj.weight": "model-00024-of-00051.safetensors",
+    "model.layers.40.self_attn.v_proj.weight": "model-00024-of-00051.safetensors",
+    "model.layers.41.input_layernorm.weight": "model-00025-of-00051.safetensors",
+    "model.layers.41.mlp.down_proj.weight": "model-00025-of-00051.safetensors",
+    "model.layers.41.mlp.gate_proj.weight": "model-00024-of-00051.safetensors",
+    "model.layers.41.mlp.up_proj.weight": "model-00024-of-00051.safetensors",
+    "model.layers.41.post_attention_layernorm.weight": "model-00025-of-00051.safetensors",
+    "model.layers.41.self_attn.k_proj.weight": "model-00024-of-00051.safetensors",
+    "model.layers.41.self_attn.o_proj.weight": "model-00024-of-00051.safetensors",
+    "model.layers.41.self_attn.q_proj.weight": "model-00024-of-00051.safetensors",
+    "model.layers.41.self_attn.v_proj.weight": "model-00024-of-00051.safetensors",
+    "model.layers.42.input_layernorm.weight": "model-00025-of-00051.safetensors",
+    "model.layers.42.mlp.down_proj.weight": "model-00025-of-00051.safetensors",
+    "model.layers.42.mlp.gate_proj.weight": "model-00025-of-00051.safetensors",
+    "model.layers.42.mlp.up_proj.weight": "model-00025-of-00051.safetensors",
+    "model.layers.42.post_attention_layernorm.weight": "model-00025-of-00051.safetensors",
+    "model.layers.42.self_attn.k_proj.weight": "model-00025-of-00051.safetensors",
+    "model.layers.42.self_attn.o_proj.weight": "model-00025-of-00051.safetensors",
+    "model.layers.42.self_attn.q_proj.weight": "model-00025-of-00051.safetensors",
+    "model.layers.42.self_attn.v_proj.weight": "model-00025-of-00051.safetensors",
+    "model.layers.43.input_layernorm.weight": "model-00026-of-00051.safetensors",
+    "model.layers.43.mlp.down_proj.weight": "model-00026-of-00051.safetensors",
+    "model.layers.43.mlp.gate_proj.weight": "model-00025-of-00051.safetensors",
+    "model.layers.43.mlp.up_proj.weight": "model-00026-of-00051.safetensors",
+    "model.layers.43.post_attention_layernorm.weight": "model-00026-of-00051.safetensors",
+    "model.layers.43.self_attn.k_proj.weight": "model-00025-of-00051.safetensors",
+    "model.layers.43.self_attn.o_proj.weight": "model-00025-of-00051.safetensors",
+    "model.layers.43.self_attn.q_proj.weight": "model-00025-of-00051.safetensors",
+    "model.layers.43.self_attn.v_proj.weight": "model-00025-of-00051.safetensors",
+    "model.layers.44.input_layernorm.weight": "model-00026-of-00051.safetensors",
+    "model.layers.44.mlp.down_proj.weight": "model-00026-of-00051.safetensors",
+    "model.layers.44.mlp.gate_proj.weight": "model-00026-of-00051.safetensors",
+    "model.layers.44.mlp.up_proj.weight": "model-00026-of-00051.safetensors",
+    "model.layers.44.post_attention_layernorm.weight": "model-00026-of-00051.safetensors",
+    "model.layers.44.self_attn.k_proj.weight": "model-00026-of-00051.safetensors",
+    "model.layers.44.self_attn.o_proj.weight": "model-00026-of-00051.safetensors",
+    "model.layers.44.self_attn.q_proj.weight": "model-00026-of-00051.safetensors",
+    "model.layers.44.self_attn.v_proj.weight": "model-00026-of-00051.safetensors",
+    "model.layers.45.input_layernorm.weight": "model-00027-of-00051.safetensors",
+    "model.layers.45.mlp.down_proj.weight": "model-00027-of-00051.safetensors",
+    "model.layers.45.mlp.gate_proj.weight": "model-00027-of-00051.safetensors",
+    "model.layers.45.mlp.up_proj.weight": "model-00027-of-00051.safetensors",
+    "model.layers.45.post_attention_layernorm.weight": "model-00027-of-00051.safetensors",
+    "model.layers.45.self_attn.k_proj.weight": "model-00026-of-00051.safetensors",
+    "model.layers.45.self_attn.o_proj.weight": "model-00026-of-00051.safetensors",
+    "model.layers.45.self_attn.q_proj.weight": "model-00026-of-00051.safetensors",
+    "model.layers.45.self_attn.v_proj.weight": "model-00026-of-00051.safetensors",
+    "model.layers.46.input_layernorm.weight": "model-00027-of-00051.safetensors",
+    "model.layers.46.mlp.down_proj.weight": "model-00027-of-00051.safetensors",
+    "model.layers.46.mlp.gate_proj.weight": "model-00027-of-00051.safetensors",
+    "model.layers.46.mlp.up_proj.weight": "model-00027-of-00051.safetensors",
+    "model.layers.46.post_attention_layernorm.weight": "model-00027-of-00051.safetensors",
+    "model.layers.46.self_attn.k_proj.weight": "model-00027-of-00051.safetensors",
+    "model.layers.46.self_attn.o_proj.weight": "model-00027-of-00051.safetensors",
+    "model.layers.46.self_attn.q_proj.weight": "model-00027-of-00051.safetensors",
+    "model.layers.46.self_attn.v_proj.weight": "model-00027-of-00051.safetensors",
+    "model.layers.47.input_layernorm.weight": "model-00028-of-00051.safetensors",
+    "model.layers.47.mlp.down_proj.weight": "model-00028-of-00051.safetensors",
+    "model.layers.47.mlp.gate_proj.weight": "model-00028-of-00051.safetensors",
+    "model.layers.47.mlp.up_proj.weight": "model-00028-of-00051.safetensors",
+    "model.layers.47.post_attention_layernorm.weight": "model-00028-of-00051.safetensors",
+    "model.layers.47.self_attn.k_proj.weight": "model-00028-of-00051.safetensors",
+    "model.layers.47.self_attn.o_proj.weight": "model-00028-of-00051.safetensors",
+    "model.layers.47.self_attn.q_proj.weight": "model-00028-of-00051.safetensors",
+    "model.layers.47.self_attn.v_proj.weight": "model-00028-of-00051.safetensors",
+    "model.layers.48.input_layernorm.weight": "model-00029-of-00051.safetensors",
+    "model.layers.48.mlp.down_proj.weight": "model-00029-of-00051.safetensors",
+    "model.layers.48.mlp.gate_proj.weight": "model-00028-of-00051.safetensors",
+    "model.layers.48.mlp.up_proj.weight": "model-00028-of-00051.safetensors",
+    "model.layers.48.post_attention_layernorm.weight": "model-00029-of-00051.safetensors",
+    "model.layers.48.self_attn.k_proj.weight": "model-00028-of-00051.safetensors",
+    "model.layers.48.self_attn.o_proj.weight": "model-00028-of-00051.safetensors",
+    "model.layers.48.self_attn.q_proj.weight": "model-00028-of-00051.safetensors",
+    "model.layers.48.self_attn.v_proj.weight": "model-00028-of-00051.safetensors",
+    "model.layers.49.input_layernorm.weight": "model-00029-of-00051.safetensors",
+    "model.layers.49.mlp.down_proj.weight": "model-00029-of-00051.safetensors",
+    "model.layers.49.mlp.gate_proj.weight": "model-00029-of-00051.safetensors",
+    "model.layers.49.mlp.up_proj.weight": "model-00029-of-00051.safetensors",
+    "model.layers.49.post_attention_layernorm.weight": "model-00029-of-00051.safetensors",
+    "model.layers.49.self_attn.k_proj.weight": "model-00029-of-00051.safetensors",
+    "model.layers.49.self_attn.o_proj.weight": "model-00029-of-00051.safetensors",
+    "model.layers.49.self_attn.q_proj.weight": "model-00029-of-00051.safetensors",
+    "model.layers.49.self_attn.v_proj.weight": "model-00029-of-00051.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00004-of-00051.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00004-of-00051.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00004-of-00051.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00004-of-00051.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00004-of-00051.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00004-of-00051.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00004-of-00051.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00004-of-00051.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00004-of-00051.safetensors",
+    "model.layers.50.input_layernorm.weight": "model-00030-of-00051.safetensors",
+    "model.layers.50.mlp.down_proj.weight": "model-00030-of-00051.safetensors",
+    "model.layers.50.mlp.gate_proj.weight": "model-00029-of-00051.safetensors",
+    "model.layers.50.mlp.up_proj.weight": "model-00030-of-00051.safetensors",
+    "model.layers.50.post_attention_layernorm.weight": "model-00030-of-00051.safetensors",
+    "model.layers.50.self_attn.k_proj.weight": "model-00029-of-00051.safetensors",
+    "model.layers.50.self_attn.o_proj.weight": "model-00029-of-00051.safetensors",
+    "model.layers.50.self_attn.q_proj.weight": "model-00029-of-00051.safetensors",
+    "model.layers.50.self_attn.v_proj.weight": "model-00029-of-00051.safetensors",
+    "model.layers.51.input_layernorm.weight": "model-00030-of-00051.safetensors",
+    "model.layers.51.mlp.down_proj.weight": "model-00030-of-00051.safetensors",
+    "model.layers.51.mlp.gate_proj.weight": "model-00030-of-00051.safetensors",
+    "model.layers.51.mlp.up_proj.weight": "model-00030-of-00051.safetensors",
+    "model.layers.51.post_attention_layernorm.weight": "model-00030-of-00051.safetensors",
+    "model.layers.51.self_attn.k_proj.weight": "model-00030-of-00051.safetensors",
+    "model.layers.51.self_attn.o_proj.weight": "model-00030-of-00051.safetensors",
+    "model.layers.51.self_attn.q_proj.weight": "model-00030-of-00051.safetensors",
+    "model.layers.51.self_attn.v_proj.weight": "model-00030-of-00051.safetensors",
+    "model.layers.52.input_layernorm.weight": "model-00031-of-00051.safetensors",
+    "model.layers.52.mlp.down_proj.weight": "model-00031-of-00051.safetensors",
+    "model.layers.52.mlp.gate_proj.weight": "model-00031-of-00051.safetensors",
+    "model.layers.52.mlp.up_proj.weight": "model-00031-of-00051.safetensors",
+    "model.layers.52.post_attention_layernorm.weight": "model-00031-of-00051.safetensors",
+    "model.layers.52.self_attn.k_proj.weight": "model-00030-of-00051.safetensors",
+    "model.layers.52.self_attn.o_proj.weight": "model-00030-of-00051.safetensors",
+    "model.layers.52.self_attn.q_proj.weight": "model-00030-of-00051.safetensors",
+    "model.layers.52.self_attn.v_proj.weight": "model-00030-of-00051.safetensors",
+    "model.layers.53.input_layernorm.weight": "model-00031-of-00051.safetensors",
+    "model.layers.53.mlp.down_proj.weight": "model-00031-of-00051.safetensors",
+    "model.layers.53.mlp.gate_proj.weight": "model-00031-of-00051.safetensors",
+    "model.layers.53.mlp.up_proj.weight": "model-00031-of-00051.safetensors",
+    "model.layers.53.post_attention_layernorm.weight": "model-00031-of-00051.safetensors",
+    "model.layers.53.self_attn.k_proj.weight": "model-00031-of-00051.safetensors",
+    "model.layers.53.self_attn.o_proj.weight": "model-00031-of-00051.safetensors",
+    "model.layers.53.self_attn.q_proj.weight": "model-00031-of-00051.safetensors",
+    "model.layers.53.self_attn.v_proj.weight": "model-00031-of-00051.safetensors",
+    "model.layers.54.input_layernorm.weight": "model-00032-of-00051.safetensors",
+    "model.layers.54.mlp.down_proj.weight": "model-00032-of-00051.safetensors",
+    "model.layers.54.mlp.gate_proj.weight": "model-00032-of-00051.safetensors",
+    "model.layers.54.mlp.up_proj.weight": "model-00032-of-00051.safetensors",
+    "model.layers.54.post_attention_layernorm.weight": "model-00032-of-00051.safetensors",
+    "model.layers.54.self_attn.k_proj.weight": "model-00032-of-00051.safetensors",
+    "model.layers.54.self_attn.o_proj.weight": "model-00032-of-00051.safetensors",
+    "model.layers.54.self_attn.q_proj.weight": "model-00032-of-00051.safetensors",
+    "model.layers.54.self_attn.v_proj.weight": "model-00032-of-00051.safetensors",
+    "model.layers.55.input_layernorm.weight": "model-00033-of-00051.safetensors",
+    "model.layers.55.mlp.down_proj.weight": "model-00033-of-00051.safetensors",
+    "model.layers.55.mlp.gate_proj.weight": "model-00032-of-00051.safetensors",
+    "model.layers.55.mlp.up_proj.weight": "model-00032-of-00051.safetensors",
+    "model.layers.55.post_attention_layernorm.weight": "model-00033-of-00051.safetensors",
+    "model.layers.55.self_attn.k_proj.weight": "model-00032-of-00051.safetensors",
+    "model.layers.55.self_attn.o_proj.weight": "model-00032-of-00051.safetensors",
+    "model.layers.55.self_attn.q_proj.weight": "model-00032-of-00051.safetensors",
+    "model.layers.55.self_attn.v_proj.weight": "model-00032-of-00051.safetensors",
+    "model.layers.56.input_layernorm.weight": "model-00033-of-00051.safetensors",
+    "model.layers.56.mlp.down_proj.weight": "model-00033-of-00051.safetensors",
+    "model.layers.56.mlp.gate_proj.weight": "model-00033-of-00051.safetensors",
+    "model.layers.56.mlp.up_proj.weight": "model-00033-of-00051.safetensors",
+    "model.layers.56.post_attention_layernorm.weight": "model-00033-of-00051.safetensors",
+    "model.layers.56.self_attn.k_proj.weight": "model-00033-of-00051.safetensors",
+    "model.layers.56.self_attn.o_proj.weight": "model-00033-of-00051.safetensors",
+    "model.layers.56.self_attn.q_proj.weight": "model-00033-of-00051.safetensors",
+    "model.layers.56.self_attn.v_proj.weight": "model-00033-of-00051.safetensors",
+    "model.layers.57.input_layernorm.weight": "model-00034-of-00051.safetensors",
+    "model.layers.57.mlp.down_proj.weight": "model-00034-of-00051.safetensors",
+    "model.layers.57.mlp.gate_proj.weight": "model-00033-of-00051.safetensors",
+    "model.layers.57.mlp.up_proj.weight": "model-00034-of-00051.safetensors",
+    "model.layers.57.post_attention_layernorm.weight": "model-00034-of-00051.safetensors",
+    "model.layers.57.self_attn.k_proj.weight": "model-00033-of-00051.safetensors",
+    "model.layers.57.self_attn.o_proj.weight": "model-00033-of-00051.safetensors",
+    "model.layers.57.self_attn.q_proj.weight": "model-00033-of-00051.safetensors",
+    "model.layers.57.self_attn.v_proj.weight": "model-00033-of-00051.safetensors",
+    "model.layers.58.input_layernorm.weight": "model-00034-of-00051.safetensors",
+    "model.layers.58.mlp.down_proj.weight": "model-00034-of-00051.safetensors",
+    "model.layers.58.mlp.gate_proj.weight": "model-00034-of-00051.safetensors",
+    "model.layers.58.mlp.up_proj.weight": "model-00034-of-00051.safetensors",
+    "model.layers.58.post_attention_layernorm.weight": "model-00034-of-00051.safetensors",
+    "model.layers.58.self_attn.k_proj.weight": "model-00034-of-00051.safetensors",
+    "model.layers.58.self_attn.o_proj.weight": "model-00034-of-00051.safetensors",
+    "model.layers.58.self_attn.q_proj.weight": "model-00034-of-00051.safetensors",
+    "model.layers.58.self_attn.v_proj.weight": "model-00034-of-00051.safetensors",
+    "model.layers.59.input_layernorm.weight": "model-00035-of-00051.safetensors",
+    "model.layers.59.mlp.down_proj.weight": "model-00035-of-00051.safetensors",
+    "model.layers.59.mlp.gate_proj.weight": "model-00035-of-00051.safetensors",
+    "model.layers.59.mlp.up_proj.weight": "model-00035-of-00051.safetensors",
+    "model.layers.59.post_attention_layernorm.weight": "model-00035-of-00051.safetensors",
+    "model.layers.59.self_attn.k_proj.weight": "model-00034-of-00051.safetensors",
+    "model.layers.59.self_attn.o_proj.weight": "model-00034-of-00051.safetensors",
+    "model.layers.59.self_attn.q_proj.weight": "model-00034-of-00051.safetensors",
+    "model.layers.59.self_attn.v_proj.weight": "model-00034-of-00051.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00005-of-00051.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00005-of-00051.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00004-of-00051.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00004-of-00051.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00005-of-00051.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00004-of-00051.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00004-of-00051.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00004-of-00051.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00004-of-00051.safetensors",
+    "model.layers.60.input_layernorm.weight": "model-00035-of-00051.safetensors",
+    "model.layers.60.mlp.down_proj.weight": "model-00035-of-00051.safetensors",
+    "model.layers.60.mlp.gate_proj.weight": "model-00035-of-00051.safetensors",
+    "model.layers.60.mlp.up_proj.weight": "model-00035-of-00051.safetensors",
+    "model.layers.60.post_attention_layernorm.weight": "model-00035-of-00051.safetensors",
+    "model.layers.60.self_attn.k_proj.weight": "model-00035-of-00051.safetensors",
+    "model.layers.60.self_attn.o_proj.weight": "model-00035-of-00051.safetensors",
+    "model.layers.60.self_attn.q_proj.weight": "model-00035-of-00051.safetensors",
+    "model.layers.60.self_attn.v_proj.weight": "model-00035-of-00051.safetensors",
+    "model.layers.61.input_layernorm.weight": "model-00036-of-00051.safetensors",
+    "model.layers.61.mlp.down_proj.weight": "model-00036-of-00051.safetensors",
+    "model.layers.61.mlp.gate_proj.weight": "model-00036-of-00051.safetensors",
+    "model.layers.61.mlp.up_proj.weight": "model-00036-of-00051.safetensors",
+    "model.layers.61.post_attention_layernorm.weight": "model-00036-of-00051.safetensors",
+    "model.layers.61.self_attn.k_proj.weight": "model-00036-of-00051.safetensors",
+    "model.layers.61.self_attn.o_proj.weight": "model-00036-of-00051.safetensors",
+    "model.layers.61.self_attn.q_proj.weight": "model-00036-of-00051.safetensors",
+    "model.layers.61.self_attn.v_proj.weight": "model-00036-of-00051.safetensors",
+    "model.layers.62.input_layernorm.weight": "model-00037-of-00051.safetensors",
+    "model.layers.62.mlp.down_proj.weight": "model-00037-of-00051.safetensors",
+    "model.layers.62.mlp.gate_proj.weight": "model-00036-of-00051.safetensors",
+    "model.layers.62.mlp.up_proj.weight": "model-00036-of-00051.safetensors",
+    "model.layers.62.post_attention_layernorm.weight": "model-00037-of-00051.safetensors",
+    "model.layers.62.self_attn.k_proj.weight": "model-00036-of-00051.safetensors",
+    "model.layers.62.self_attn.o_proj.weight": "model-00036-of-00051.safetensors",
+    "model.layers.62.self_attn.q_proj.weight": "model-00036-of-00051.safetensors",
+    "model.layers.62.self_attn.v_proj.weight": "model-00036-of-00051.safetensors",
+    "model.layers.63.input_layernorm.weight": "model-00037-of-00051.safetensors",
+    "model.layers.63.mlp.down_proj.weight": "model-00037-of-00051.safetensors",
+    "model.layers.63.mlp.gate_proj.weight": "model-00037-of-00051.safetensors",
+    "model.layers.63.mlp.up_proj.weight": "model-00037-of-00051.safetensors",
+    "model.layers.63.post_attention_layernorm.weight": "model-00037-of-00051.safetensors",
+    "model.layers.63.self_attn.k_proj.weight": "model-00037-of-00051.safetensors",
+    "model.layers.63.self_attn.o_proj.weight": "model-00037-of-00051.safetensors",
+    "model.layers.63.self_attn.q_proj.weight": "model-00037-of-00051.safetensors",
+    "model.layers.63.self_attn.v_proj.weight": "model-00037-of-00051.safetensors",
+    "model.layers.64.input_layernorm.weight": "model-00038-of-00051.safetensors",
+    "model.layers.64.mlp.down_proj.weight": "model-00038-of-00051.safetensors",
+    "model.layers.64.mlp.gate_proj.weight": "model-00037-of-00051.safetensors",
+    "model.layers.64.mlp.up_proj.weight": "model-00038-of-00051.safetensors",
+    "model.layers.64.post_attention_layernorm.weight": "model-00038-of-00051.safetensors",
+    "model.layers.64.self_attn.k_proj.weight": "model-00037-of-00051.safetensors",
+    "model.layers.64.self_attn.o_proj.weight": "model-00037-of-00051.safetensors",
+    "model.layers.64.self_attn.q_proj.weight": "model-00037-of-00051.safetensors",
+    "model.layers.64.self_attn.v_proj.weight": "model-00037-of-00051.safetensors",
+    "model.layers.65.input_layernorm.weight": "model-00038-of-00051.safetensors",
+    "model.layers.65.mlp.down_proj.weight": "model-00038-of-00051.safetensors",
+    "model.layers.65.mlp.gate_proj.weight": "model-00038-of-00051.safetensors",
+    "model.layers.65.mlp.up_proj.weight": "model-00038-of-00051.safetensors",
+    "model.layers.65.post_attention_layernorm.weight": "model-00038-of-00051.safetensors",
+    "model.layers.65.self_attn.k_proj.weight": "model-00038-of-00051.safetensors",
+    "model.layers.65.self_attn.o_proj.weight": "model-00038-of-00051.safetensors",
+    "model.layers.65.self_attn.q_proj.weight": "model-00038-of-00051.safetensors",
+    "model.layers.65.self_attn.v_proj.weight": "model-00038-of-00051.safetensors",
+    "model.layers.66.input_layernorm.weight": "model-00039-of-00051.safetensors",
+    "model.layers.66.mlp.down_proj.weight": "model-00039-of-00051.safetensors",
+    "model.layers.66.mlp.gate_proj.weight": "model-00039-of-00051.safetensors",
+    "model.layers.66.mlp.up_proj.weight": "model-00039-of-00051.safetensors",
+    "model.layers.66.post_attention_layernorm.weight": "model-00039-of-00051.safetensors",
+    "model.layers.66.self_attn.k_proj.weight": "model-00038-of-00051.safetensors",
+    "model.layers.66.self_attn.o_proj.weight": "model-00038-of-00051.safetensors",
+    "model.layers.66.self_attn.q_proj.weight": "model-00038-of-00051.safetensors",
+    "model.layers.66.self_attn.v_proj.weight": "model-00038-of-00051.safetensors",
+    "model.layers.67.input_layernorm.weight": "model-00039-of-00051.safetensors",
+    "model.layers.67.mlp.down_proj.weight": "model-00039-of-00051.safetensors",
+    "model.layers.67.mlp.gate_proj.weight": "model-00039-of-00051.safetensors",
+    "model.layers.67.mlp.up_proj.weight": "model-00039-of-00051.safetensors",
+    "model.layers.67.post_attention_layernorm.weight": "model-00039-of-00051.safetensors",
+    "model.layers.67.self_attn.k_proj.weight": "model-00039-of-00051.safetensors",
+    "model.layers.67.self_attn.o_proj.weight": "model-00039-of-00051.safetensors",
+    "model.layers.67.self_attn.q_proj.weight": "model-00039-of-00051.safetensors",
+    "model.layers.67.self_attn.v_proj.weight": "model-00039-of-00051.safetensors",
+    "model.layers.68.input_layernorm.weight": "model-00040-of-00051.safetensors",
+    "model.layers.68.mlp.down_proj.weight": "model-00040-of-00051.safetensors",
+    "model.layers.68.mlp.gate_proj.weight": "model-00040-of-00051.safetensors",
+    "model.layers.68.mlp.up_proj.weight": "model-00040-of-00051.safetensors",
+    "model.layers.68.post_attention_layernorm.weight": "model-00040-of-00051.safetensors",
+    "model.layers.68.self_attn.k_proj.weight": "model-00040-of-00051.safetensors",
+    "model.layers.68.self_attn.o_proj.weight": "model-00040-of-00051.safetensors",
+    "model.layers.68.self_attn.q_proj.weight": "model-00040-of-00051.safetensors",
+    "model.layers.68.self_attn.v_proj.weight": "model-00040-of-00051.safetensors",
+    "model.layers.69.input_layernorm.weight": "model-00041-of-00051.safetensors",
+    "model.layers.69.mlp.down_proj.weight": "model-00041-of-00051.safetensors",
+    "model.layers.69.mlp.gate_proj.weight": "model-00040-of-00051.safetensors",
+    "model.layers.69.mlp.up_proj.weight": "model-00040-of-00051.safetensors",
+    "model.layers.69.post_attention_layernorm.weight": "model-00041-of-00051.safetensors",
+    "model.layers.69.self_attn.k_proj.weight": "model-00040-of-00051.safetensors",
+    "model.layers.69.self_attn.o_proj.weight": "model-00040-of-00051.safetensors",
+    "model.layers.69.self_attn.q_proj.weight": "model-00040-of-00051.safetensors",
+    "model.layers.69.self_attn.v_proj.weight": "model-00040-of-00051.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00005-of-00051.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00005-of-00051.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00005-of-00051.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00005-of-00051.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00005-of-00051.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00005-of-00051.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00005-of-00051.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00005-of-00051.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00005-of-00051.safetensors",
+    "model.layers.70.input_layernorm.weight": "model-00041-of-00051.safetensors",
+    "model.layers.70.mlp.down_proj.weight": "model-00041-of-00051.safetensors",
+    "model.layers.70.mlp.gate_proj.weight": "model-00041-of-00051.safetensors",
+    "model.layers.70.mlp.up_proj.weight": "model-00041-of-00051.safetensors",
+    "model.layers.70.post_attention_layernorm.weight": "model-00041-of-00051.safetensors",
+    "model.layers.70.self_attn.k_proj.weight": "model-00041-of-00051.safetensors",
+    "model.layers.70.self_attn.o_proj.weight": "model-00041-of-00051.safetensors",
+    "model.layers.70.self_attn.q_proj.weight": "model-00041-of-00051.safetensors",
+    "model.layers.70.self_attn.v_proj.weight": "model-00041-of-00051.safetensors",
+    "model.layers.71.input_layernorm.weight": "model-00042-of-00051.safetensors",
+    "model.layers.71.mlp.down_proj.weight": "model-00042-of-00051.safetensors",
+    "model.layers.71.mlp.gate_proj.weight": "model-00041-of-00051.safetensors",
+    "model.layers.71.mlp.up_proj.weight": "model-00042-of-00051.safetensors",
+    "model.layers.71.post_attention_layernorm.weight": "model-00042-of-00051.safetensors",
+    "model.layers.71.self_attn.k_proj.weight": "model-00041-of-00051.safetensors",
+    "model.layers.71.self_attn.o_proj.weight": "model-00041-of-00051.safetensors",
+    "model.layers.71.self_attn.q_proj.weight": "model-00041-of-00051.safetensors",
+    "model.layers.71.self_attn.v_proj.weight": "model-00041-of-00051.safetensors",
+    "model.layers.72.input_layernorm.weight": "model-00042-of-00051.safetensors",
+    "model.layers.72.mlp.down_proj.weight": "model-00042-of-00051.safetensors",
+    "model.layers.72.mlp.gate_proj.weight": "model-00042-of-00051.safetensors",
+    "model.layers.72.mlp.up_proj.weight": "model-00042-of-00051.safetensors",
+    "model.layers.72.post_attention_layernorm.weight": "model-00042-of-00051.safetensors",
+    "model.layers.72.self_attn.k_proj.weight": "model-00042-of-00051.safetensors",
+    "model.layers.72.self_attn.o_proj.weight": "model-00042-of-00051.safetensors",
+    "model.layers.72.self_attn.q_proj.weight": "model-00042-of-00051.safetensors",
+    "model.layers.72.self_attn.v_proj.weight": "model-00042-of-00051.safetensors",
+    "model.layers.73.input_layernorm.weight": "model-00043-of-00051.safetensors",
+    "model.layers.73.mlp.down_proj.weight": "model-00043-of-00051.safetensors",
+    "model.layers.73.mlp.gate_proj.weight": "model-00043-of-00051.safetensors",
+    "model.layers.73.mlp.up_proj.weight": "model-00043-of-00051.safetensors",
+    "model.layers.73.post_attention_layernorm.weight": "model-00043-of-00051.safetensors",
+    "model.layers.73.self_attn.k_proj.weight": "model-00042-of-00051.safetensors",
+    "model.layers.73.self_attn.o_proj.weight": "model-00042-of-00051.safetensors",
+    "model.layers.73.self_attn.q_proj.weight": "model-00042-of-00051.safetensors",
+    "model.layers.73.self_attn.v_proj.weight": "model-00042-of-00051.safetensors",
+    "model.layers.74.input_layernorm.weight": "model-00043-of-00051.safetensors",
+    "model.layers.74.mlp.down_proj.weight": "model-00043-of-00051.safetensors",
+    "model.layers.74.mlp.gate_proj.weight": "model-00043-of-00051.safetensors",
+    "model.layers.74.mlp.up_proj.weight": "model-00043-of-00051.safetensors",
+    "model.layers.74.post_attention_layernorm.weight": "model-00043-of-00051.safetensors",
+    "model.layers.74.self_attn.k_proj.weight": "model-00043-of-00051.safetensors",
+    "model.layers.74.self_attn.o_proj.weight": "model-00043-of-00051.safetensors",
+    "model.layers.74.self_attn.q_proj.weight": "model-00043-of-00051.safetensors",
+    "model.layers.74.self_attn.v_proj.weight": "model-00043-of-00051.safetensors",
+    "model.layers.75.input_layernorm.weight": "model-00044-of-00051.safetensors",
+    "model.layers.75.mlp.down_proj.weight": "model-00044-of-00051.safetensors",
+    "model.layers.75.mlp.gate_proj.weight": "model-00044-of-00051.safetensors",
+    "model.layers.75.mlp.up_proj.weight": "model-00044-of-00051.safetensors",
+    "model.layers.75.post_attention_layernorm.weight": "model-00044-of-00051.safetensors",
+    "model.layers.75.self_attn.k_proj.weight": "model-00044-of-00051.safetensors",
+    "model.layers.75.self_attn.o_proj.weight": "model-00044-of-00051.safetensors",
+    "model.layers.75.self_attn.q_proj.weight": "model-00044-of-00051.safetensors",
+    "model.layers.75.self_attn.v_proj.weight": "model-00044-of-00051.safetensors",
+    "model.layers.76.input_layernorm.weight": "model-00045-of-00051.safetensors",
+    "model.layers.76.mlp.down_proj.weight": "model-00045-of-00051.safetensors",
+    "model.layers.76.mlp.gate_proj.weight": "model-00044-of-00051.safetensors",
+    "model.layers.76.mlp.up_proj.weight": "model-00044-of-00051.safetensors",
+    "model.layers.76.post_attention_layernorm.weight": "model-00045-of-00051.safetensors",
+    "model.layers.76.self_attn.k_proj.weight": "model-00044-of-00051.safetensors",
+    "model.layers.76.self_attn.o_proj.weight": "model-00044-of-00051.safetensors",
+    "model.layers.76.self_attn.q_proj.weight": "model-00044-of-00051.safetensors",
+    "model.layers.76.self_attn.v_proj.weight": "model-00044-of-00051.safetensors",
+    "model.layers.77.input_layernorm.weight": "model-00045-of-00051.safetensors",
+    "model.layers.77.mlp.down_proj.weight": "model-00045-of-00051.safetensors",
+    "model.layers.77.mlp.gate_proj.weight": "model-00045-of-00051.safetensors",
+    "model.layers.77.mlp.up_proj.weight": "model-00045-of-00051.safetensors",
+    "model.layers.77.post_attention_layernorm.weight": "model-00045-of-00051.safetensors",
+    "model.layers.77.self_attn.k_proj.weight": "model-00045-of-00051.safetensors",
+    "model.layers.77.self_attn.o_proj.weight": "model-00045-of-00051.safetensors",
+    "model.layers.77.self_attn.q_proj.weight": "model-00045-of-00051.safetensors",
+    "model.layers.77.self_attn.v_proj.weight": "model-00045-of-00051.safetensors",
+    "model.layers.78.input_layernorm.weight": "model-00046-of-00051.safetensors",
+    "model.layers.78.mlp.down_proj.weight": "model-00046-of-00051.safetensors",
+    "model.layers.78.mlp.gate_proj.weight": "model-00045-of-00051.safetensors",
+    "model.layers.78.mlp.up_proj.weight": "model-00046-of-00051.safetensors",
+    "model.layers.78.post_attention_layernorm.weight": "model-00046-of-00051.safetensors",
+    "model.layers.78.self_attn.k_proj.weight": "model-00045-of-00051.safetensors",
+    "model.layers.78.self_attn.o_proj.weight": "model-00045-of-00051.safetensors",
+    "model.layers.78.self_attn.q_proj.weight": "model-00045-of-00051.safetensors",
+    "model.layers.78.self_attn.v_proj.weight": "model-00045-of-00051.safetensors",
+    "model.layers.79.input_layernorm.weight": "model-00046-of-00051.safetensors",
+    "model.layers.79.mlp.down_proj.weight": "model-00046-of-00051.safetensors",
+    "model.layers.79.mlp.gate_proj.weight": "model-00046-of-00051.safetensors",
+    "model.layers.79.mlp.up_proj.weight": "model-00046-of-00051.safetensors",
+    "model.layers.79.post_attention_layernorm.weight": "model-00046-of-00051.safetensors",
+    "model.layers.79.self_attn.k_proj.weight": "model-00046-of-00051.safetensors",
+    "model.layers.79.self_attn.o_proj.weight": "model-00046-of-00051.safetensors",
+    "model.layers.79.self_attn.q_proj.weight": "model-00046-of-00051.safetensors",
+    "model.layers.79.self_attn.v_proj.weight": "model-00046-of-00051.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00006-of-00051.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00006-of-00051.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00005-of-00051.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00006-of-00051.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00006-of-00051.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00005-of-00051.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00005-of-00051.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00005-of-00051.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00005-of-00051.safetensors",
+    "model.layers.80.input_layernorm.weight": "model-00047-of-00051.safetensors",
+    "model.layers.80.mlp.down_proj.weight": "model-00047-of-00051.safetensors",
+    "model.layers.80.mlp.gate_proj.weight": "model-00047-of-00051.safetensors",
+    "model.layers.80.mlp.up_proj.weight": "model-00047-of-00051.safetensors",
+    "model.layers.80.post_attention_layernorm.weight": "model-00047-of-00051.safetensors",
+    "model.layers.80.self_attn.k_proj.weight": "model-00046-of-00051.safetensors",
+    "model.layers.80.self_attn.o_proj.weight": "model-00046-of-00051.safetensors",
+    "model.layers.80.self_attn.q_proj.weight": "model-00046-of-00051.safetensors",
+    "model.layers.80.self_attn.v_proj.weight": "model-00046-of-00051.safetensors",
+    "model.layers.81.input_layernorm.weight": "model-00047-of-00051.safetensors",
+    "model.layers.81.mlp.down_proj.weight": "model-00047-of-00051.safetensors",
+    "model.layers.81.mlp.gate_proj.weight": "model-00047-of-00051.safetensors",
+    "model.layers.81.mlp.up_proj.weight": "model-00047-of-00051.safetensors",
+    "model.layers.81.post_attention_layernorm.weight": "model-00047-of-00051.safetensors",
+    "model.layers.81.self_attn.k_proj.weight": "model-00047-of-00051.safetensors",
+    "model.layers.81.self_attn.o_proj.weight": "model-00047-of-00051.safetensors",
+    "model.layers.81.self_attn.q_proj.weight": "model-00047-of-00051.safetensors",
+    "model.layers.81.self_attn.v_proj.weight": "model-00047-of-00051.safetensors",
+    "model.layers.82.input_layernorm.weight": "model-00048-of-00051.safetensors",
+    "model.layers.82.mlp.down_proj.weight": "model-00048-of-00051.safetensors",
+    "model.layers.82.mlp.gate_proj.weight": "model-00048-of-00051.safetensors",
+    "model.layers.82.mlp.up_proj.weight": "model-00048-of-00051.safetensors",
+    "model.layers.82.post_attention_layernorm.weight": "model-00048-of-00051.safetensors",
+    "model.layers.82.self_attn.k_proj.weight": "model-00048-of-00051.safetensors",
+    "model.layers.82.self_attn.o_proj.weight": "model-00048-of-00051.safetensors",
+    "model.layers.82.self_attn.q_proj.weight": "model-00048-of-00051.safetensors",
+    "model.layers.82.self_attn.v_proj.weight": "model-00048-of-00051.safetensors",
+    "model.layers.83.input_layernorm.weight": "model-00049-of-00051.safetensors",
+    "model.layers.83.mlp.down_proj.weight": "model-00049-of-00051.safetensors",
+    "model.layers.83.mlp.gate_proj.weight": "model-00048-of-00051.safetensors",
+    "model.layers.83.mlp.up_proj.weight": "model-00048-of-00051.safetensors",
+    "model.layers.83.post_attention_layernorm.weight": "model-00049-of-00051.safetensors",
+    "model.layers.83.self_attn.k_proj.weight": "model-00048-of-00051.safetensors",
+    "model.layers.83.self_attn.o_proj.weight": "model-00048-of-00051.safetensors",
+    "model.layers.83.self_attn.q_proj.weight": "model-00048-of-00051.safetensors",
+    "model.layers.83.self_attn.v_proj.weight": "model-00048-of-00051.safetensors",
+    "model.layers.84.input_layernorm.weight": "model-00049-of-00051.safetensors",
+    "model.layers.84.mlp.down_proj.weight": "model-00049-of-00051.safetensors",
+    "model.layers.84.mlp.gate_proj.weight": "model-00049-of-00051.safetensors",
+    "model.layers.84.mlp.up_proj.weight": "model-00049-of-00051.safetensors",
+    "model.layers.84.post_attention_layernorm.weight": "model-00049-of-00051.safetensors",
+    "model.layers.84.self_attn.k_proj.weight": "model-00049-of-00051.safetensors",
+    "model.layers.84.self_attn.o_proj.weight": "model-00049-of-00051.safetensors",
+    "model.layers.84.self_attn.q_proj.weight": "model-00049-of-00051.safetensors",
+    "model.layers.84.self_attn.v_proj.weight": "model-00049-of-00051.safetensors",
+    "model.layers.85.input_layernorm.weight": "model-00050-of-00051.safetensors",
+    "model.layers.85.mlp.down_proj.weight": "model-00050-of-00051.safetensors",
+    "model.layers.85.mlp.gate_proj.weight": "model-00049-of-00051.safetensors",
+    "model.layers.85.mlp.up_proj.weight": "model-00050-of-00051.safetensors",
+    "model.layers.85.post_attention_layernorm.weight": "model-00050-of-00051.safetensors",
+    "model.layers.85.self_attn.k_proj.weight": "model-00049-of-00051.safetensors",
+    "model.layers.85.self_attn.o_proj.weight": "model-00049-of-00051.safetensors",
+    "model.layers.85.self_attn.q_proj.weight": "model-00049-of-00051.safetensors",
+    "model.layers.85.self_attn.v_proj.weight": "model-00049-of-00051.safetensors",
+    "model.layers.86.input_layernorm.weight": "model-00050-of-00051.safetensors",
+    "model.layers.86.mlp.down_proj.weight": "model-00050-of-00051.safetensors",
+    "model.layers.86.mlp.gate_proj.weight": "model-00050-of-00051.safetensors",
+    "model.layers.86.mlp.up_proj.weight": "model-00050-of-00051.safetensors",
+    "model.layers.86.post_attention_layernorm.weight": "model-00050-of-00051.safetensors",
+    "model.layers.86.self_attn.k_proj.weight": "model-00050-of-00051.safetensors",
+    "model.layers.86.self_attn.o_proj.weight": "model-00050-of-00051.safetensors",
+    "model.layers.86.self_attn.q_proj.weight": "model-00050-of-00051.safetensors",
+    "model.layers.86.self_attn.v_proj.weight": "model-00050-of-00051.safetensors",
+    "model.layers.87.input_layernorm.weight": "model-00051-of-00051.safetensors",
+    "model.layers.87.mlp.down_proj.weight": "model-00051-of-00051.safetensors",
+    "model.layers.87.mlp.gate_proj.weight": "model-00051-of-00051.safetensors",
+    "model.layers.87.mlp.up_proj.weight": "model-00051-of-00051.safetensors",
+    "model.layers.87.post_attention_layernorm.weight": "model-00051-of-00051.safetensors",
+    "model.layers.87.self_attn.k_proj.weight": "model-00050-of-00051.safetensors",
+    "model.layers.87.self_attn.o_proj.weight": "model-00050-of-00051.safetensors",
+    "model.layers.87.self_attn.q_proj.weight": "model-00050-of-00051.safetensors",
+    "model.layers.87.self_attn.v_proj.weight": "model-00050-of-00051.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00006-of-00051.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00006-of-00051.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00006-of-00051.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00006-of-00051.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00006-of-00051.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00006-of-00051.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00006-of-00051.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00006-of-00051.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00006-of-00051.safetensors",
+    "model.norm.weight": "model-00051-of-00051.safetensors"
+  }
+}

output-00001-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8c5f570ca1405aa967b3ab21d627b78faa5d168e95f3649f52bad001c2e47400
+size 8580884406

output-00002-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7ccb6aebe39594961896070c9aae89d3799fa8bc64ec03f95e4f51af99ae3616
+size 8472372554

output-00003-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:09c0536f64e6ef573a7e9767470631104c75ee28c371ba133e8df2faa9d60123
+size 8534428400

output-00004-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:911b6263a73a247d3b73e2e089d3c04e191fe625cc23fbd2646b80f3bb808f27
+size 8554711738

output-00005-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:edb9d0cba857adc6ca5a4961a274da8a59b1f650febdfb7a4279b51722d9b082
+size 8575425796

output-00006-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8a9ccfc8935c516110de49c33b7e03718f84983974b7175ff17dbfbcec49c11f
+size 4085480808

params.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "dim": 12288,
+    "n_layers": 88,
+    "head_dim": 128,
+    "hidden_dim": 28672,
+    "n_heads": 96,
+    "n_kv_heads": 8,
+    "norm_eps": 1e-05,
+    "vocab_size": 32768,
+    "rope_theta": 1000000.0
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b968b8dc352f42192367337c78ccc61e1eaddc6d641a579372d4f20694beb7a
+size 587562

tokenizer.model.v7 ADDED Viewed

Binary file (588 kB). View file

tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff