Update xverse model

Browse files

Files changed (13) hide show

MODEL_LICENSE.pdf +0 -0
README.md +41 -75
pytorch_model-00003-of-00003.bin → pytorch_model-00001-of-00010.bin +2 -2
pytorch_model-00001-of-00003.bin → pytorch_model-00002-of-00010.bin +2 -2
pytorch_model-00002-of-00003.bin → pytorch_model-00003-of-00010.bin +2 -2
pytorch_model-00004-of-00010.bin +3 -0
pytorch_model-00005-of-00010.bin +3 -0
pytorch_model-00006-of-00010.bin +3 -0
pytorch_model-00007-of-00010.bin +3 -0
pytorch_model-00008-of-00010.bin +3 -0
pytorch_model-00009-of-00010.bin +3 -0
pytorch_model-00010-of-00010.bin +3 -0
pytorch_model.bin.index.json +404 -404

MODEL_LICENSE.pdf CHANGED Viewed

Binary files a/MODEL_LICENSE.pdf and b/MODEL_LICENSE.pdf differ

README.md CHANGED Viewed

@@ -12,8 +12,8 @@ inference: false
 **XVERSE-13B** 是由深圳元象科技自主研发的支持多语言的大语言模型（Large Language Model），主要特点如下：
 - **模型结构**：XVERSE-13B 使用主流 Decoder-only 的标准 Transformer 网络结构，支持 8K 的上下文长度（Context Length），为同尺寸模型中最长，能满足更长的多轮对话、知识问答与摘要等需求，模型应用场景更广泛。
-- **训练数据**：构建了 1.4 万亿 token 的高质量、多样化的数据对模型进行充分训练，包含中、英、俄、西等 40 多种语言，通过精细化设置不同类型数据的采样比例，使得中英两种语言表现优异，也能兼顾其他语言效果。
-- **分词**：基于 BPE（Byte-Pair Encoding）算法，使用上百 GB 语料训练了一个词表大小为 100,278 的分词器，能够同时支持多语言，而无需额外扩展词表。
 - **训练框架**：自主研发多项关键技术，包括高效算子、显存优化、并行调度策略、数据-计算-通信重叠、平台和框架协同等，让训练效率更高，模型稳定性强，在千卡集群上的峰值算力利用率可达到 58.5%，位居业界前列。
 ## Model Introduction
@@ -21,88 +21,55 @@ inference: false
 **XVERSE-13B** is a multilingual large language model, independently developed by Shenzhen Yuanxiang Technology. Its key features are as follows:
 - **Model Structure**: XVERSE-13B uses the mainstream Decoder-only Transformer network structure, supports 8k context length, the longest one among models of the same size, which can meet the need of longer multi-round dialogues, knowledge question-answering, and summarization. This makes the model more versatile in application scenarios.
-- **Training Data**: The model has been thoroughly trained on a diversified and high-quality dataset consisting of 1.4 trillion of tokens, including more than 40 languages such as Chinese, English, Russian, and Spanish. The sampling ratio of different types of data is finely set, which makes the performance of Chinese and English excellent, and also takes into account the effect of other languages.
-- **Tokenization**: Based on the BPE (Byte-Pair Encoding) algorithm, a tokenizer with a vocabulary size of 100,278 has been trained using hundreds of gigabytes of language data. This tokenizer is capable of supporting multilingual without the need for additional vocabulary expansion.
 - **Training Framework**: Several key technologies have also been independently developed, including efficient operators, memory optimization, parallel scheduling strategies, overlap of data-computation-communication, and synergy between platforms and frameworks. These advancements enhance training efficiency and model stability. With these technologies, the peak computational power utilization rate on a thousand-card cluster can reach 58.5%, ranking at the forefront of the industry.
 ## 评测结果
-为验证模型的各项能力，我们选取了多个学科综合能力评测集，包括 [MMLU](https://arxiv.org/abs/2009.03300)（英文）、 [C-Eval](https://cevalbenchmark.com/)（中文）、[AGIEval](https://arxiv.org/abs/2304.06364)（中英） 、[GAOKAO-Bench](https://github.com/OpenLMLab/GAOKAO-Bench)（中英）、[GAOKAO-English](https://github.com/ExpressAI/AI-Gaokao)（英文），评测结果如下：
-|        模型\数据集         |       MMLU       |      C-Eval      | AGIEval<sup>1</sup> | GAOKAO-Bench<sup>1</sup> | GAOKAO-English<sup>1</sup> |
-| :------------------------: | :--------------: | :--------------: | :-----------------: | :----------------------: | :------------------------: |
-|        Baichuan-13B        | 51.6<sup>2</sup> | 53.6<sup>3</sup> |        40.5         |           45.9           |            56.9            |
-|        Llama-1-13B         | 46.9<sup>4</sup> |       28.8       |        27.3         |           26.4           |            38.1            |
-|        Llama-2-13B         | 54.8<sup>4</sup> |       35.6       |        33.4         |           35.4           |            60.6            |
-|  moss-moon-003-base (16B)  |       24.7       | 33.1<sup>3</sup> |        26.8         |           28.5           |            34.7            |
-|       OpenLLaMA-13B        |       42.4       |       24.7       |        24.0         |           25.6           |            33.3            |
-|          OPT-13B           |       25.2       |       25.0       |        24.2         |           24.4           |            31.1            |
-|         Pythia-12B         |       25.1       |       26.2       |        25.3         |           25.3           |            26.8            |
-| Ziya-LLaMA-13B-Pretrain-v1 |       43.9       |       30.2       |        27.2         |           26.4           |            37.6            |
-|       **XVERSE-13B**       |     **55.1**     |     **54.7**     |      **41.4**       |         **53.9**         |          **66.5**          |
 > <sup>1：只针对其中的单项选择题进行测试，即排除了填空题、开放性问题和多项选择题</sup>
-> <sup>2：来源于 [Baichuan-13B](https://github.com/baichuan-inc/Baichuan-13B) 的汇报结果</sup>
-> <sup>3：来源于 [C-Eval](https://cevalbenchmark.com/) 的汇报结果</sup>
-> <sup>4：来源于[Llama 2 论文](https://arxiv.org/abs/2307.09288)的汇报结果</sup>
->
-> 对于 MMLU ，我们采用作者提供的[评测工具](https://github.com/hendrycks/test)，C-Eval、AGIEval、GAOKAO-Bench、GAOKAO-English 与 MMLU 的评测方式相同，且统一采用 **5-shot** 构造测试样本。
 ## Model Evaluation
-In order to validate the various abilities of the model, we have chosen several comprehensive capability benchmarks across multiple disciplines, including [MMLU](https://arxiv.org/abs/2009.03300) (English), [C-Eval](https://cevalbenchmark.com/) (Chinese), [AGIEval](https://arxiv.org/abs/2304.06364) (Chinese and English), [GAOKAO-Bench](https://github.com/OpenLMLab/GAOKAO-Bench) (Chinese and English), [GAOKAO-English](https://github.com/ExpressAI/AI-Gaokao) (English), the evaluation results are as follows:
-|      Models\Datasets       |       MMLU       |      C-Eval      | AGIEval<sup>1</sup> | GAOKAO-Bench<sup>1</sup> | GAOKAO-English<sup>1</sup> |
-| :------------------------: | :--------------: | :--------------: | :-----------------: | :----------------------: | :------------------------: |
-|        Baichuan-13B        | 51.6<sup>2</sup> | 53.6<sup>3</sup> |        40.5         |           45.9           |            56.9            |
-|        Llama-1-13B         | 46.9<sup>4</sup> |       28.8       |        27.3         |           26.4           |            38.1            |
-|        Llama-2-13B         | 54.8<sup>4</sup> |       35.6       |        33.4         |           35.4           |            60.6            |
-|  moss-moon-003-base (16B)  |       24.7       | 33.1<sup>3</sup> |        26.8         |           28.5           |            34.7            |
-|       OpenLLaMA-13B        |       42.4       |       24.7       |        24.0         |           25.6           |            33.3            |
-|          OPT-13B           |       25.2       |       25.0       |        24.2         |           24.4           |            31.1            |
-|         Pythia-12B         |       25.1       |       26.2       |        25.3         |           25.3           |            26.8            |
-| Ziya-LLaMA-13B-Pretrain-v1 |       43.9       |       30.2       |        27.2         |           26.4           |            37.6            |
-|       **XVERSE-13B**       |     **55.1**     |     **54.7**     |      **41.4**       |         **53.9**         |          **66.5**          |
 > <sup>1: Tests are conducted only on single-answer multiple-choice questions, thus excluding fill-in-the-blanks, open-ended questions, and multiple-answer multiple-choice questions.</sup>
-> <sup>2: Reporting results from [Baichuan-13B](https://github.com/baichuan-inc/Baichuan-13B).</sup>
-> <sup>3: Reporting results from [C-Eval](https://cevalbenchmark.com/).</sup>
-> <sup>4: Reporting results from [Llama 2](https://arxiv.org/abs/2307.09288).</sup>
->
-> For MMLU, we adopt the [evaluation tools](https://github.com/hendrycks/test) provided by the authors, C-Eval, AGIEval, GAOKAO-Bench, GAOKAO-English are the same as MMLU, and uniformly use **5-shot** to construct the test samples.
-### MMLU 各类别指标
-MMLU Category Results
-|         模型\类别          | Average  |   STEM   | Social Science | Humanities |  Others  |
-| :------------------------: | :------: | :------: | :------------: | :--------: | :------: |
-|        Baichuan-13B        |   51.6   |   41.6   |      60.9      |    47.4    |   58.5   |
-|        Llama-1-13B         |   46.9   |   35.8   |      53.8      |    45.0    |   53.3   |
-|        Llama-2-13B         |   54.8   |   44.1   |      62.6      |    52.8    |   61.1   |
-|  moss-moon-003-base (16B)  |   24.7   |   23.0   |      24.0      |    25.2    |   26.3   |
-|       OpenLLaMA-13B        |   42.4   |   34.7   |      48.6      |    40.0    |   47.1   |
-|          OPT-13B           |   25.2   |   23.9   |      24.1      |    25.9    |   26.3   |
-|         Pythia-12B         |   25.1   |   24.8   |      23.0      |    26.1    |   26.0   |
-| Ziya-LLaMA-13B-Pretrain-v1 |   43.9   |   36.3   |      48.8      |    41.1    |   50.3   |
-|       **XVERSE-13B**       | **55.1** | **44.5** |    **64.4**    |  **50.5**  | **62.9** |
-### C-Eval 各类别指标
-C-Eval Category Results
-|         模型\类别          | Average  |   STEM   | Social Science | Humanities |  Others  |
-| :------------------------: | :------: | :------: | :------------: | :--------: | :------: |
-|        Baichuan-13B        |   53.6   |   47.0   |      66.8      |    57.3    |   49.8   |
-|        Llama-1-13B         |   28.8   |   27.5   |      33.9      |    27.7    |   27.7   |
-|        Llama-2-13B         |   35.6   |   34.5   |      39.8      |    36.2    |   33.2   |
-|  moss-moon-003-base (16B)  |   33.1   |   31.6   |      37.0      |    33.4    |   32.1   |
-|       OpenLLaMA-13B        |   24.7   |   25.5   |      23.5      |    24.2    |   24.7   |
-|          OPT-13B           |   25.0   |   24.4   |      24.6      |    25.9    |   25.4   |
-|         Pythia-12B         |   26.2   |   26.8   |      25.1      |    26.7    |   25.4   |
-| Ziya-LLaMA-13B-Pretrain-v1 |   30.2   |   27.8   |      34.3      |    32.0    |   29.0   |
-|       **XVERSE-13B**       | **54.7** | **45.6** |    **66.2**    |  **58.3**  | **56.9** |
 ### Loading with Transformers
@@ -122,10 +89,9 @@ The XVERSE-13B model can be loaded for inference using the following code:
 >>> print(tokenizer.batch_decode(generated_ids, skip_special_tokens=True))
 ```
-更多有关相关细节，包括文本生成demo和环境依赖，请参考我们的[Github](https://github.com/xverse-ai/XVERSE-13B)。
-For more details, including the demo of text generation and environmental dependencies, please refer to our [Github](https://github.com/xverse-ai/XVERSE-13B).
 ## 局限性与免责申明

 **XVERSE-13B** 是由深圳元象科技自主研发的支持多语言的大语言模型（Large Language Model），主要特点如下：
 - **模型结构**：XVERSE-13B 使用主流 Decoder-only 的标准 Transformer 网络结构，支持 8K 的上下文长度（Context Length），为同尺寸模型中最长，能满足更长的多轮对话、知识问答与摘要等需求，模型应用场景更广泛。
+- **训练数据**：构建了 3.2 万亿 token 的高质量、多样化的数据对模型进行充分训练，包含中、英、俄、西等 40 多种语言，通过精细化设置不同类型数据的采样比例，使得中英两种语言表现优异，也能兼顾其他语言效果。
+- **分词**：基于 BPE（Byte-Pair Encoding）算法，使用上百 GB 语料训练了一个词表大小为 100,534 的分词器，能够同时支持多语言，而无需额外扩展词表。
 - **训练框架**：自主研发多项关键技术，包括高效算子、显存优化、并行调度策略、数据-计算-通信重叠、平台和框架协同等，让训练效率更高，模型稳定性强，在千卡集群上的峰值算力利用率可达到 58.5%，位居业界前列。
 ## Model Introduction
 **XVERSE-13B** is a multilingual large language model, independently developed by Shenzhen Yuanxiang Technology. Its key features are as follows:
 - **Model Structure**: XVERSE-13B uses the mainstream Decoder-only Transformer network structure, supports 8k context length, the longest one among models of the same size, which can meet the need of longer multi-round dialogues, knowledge question-answering, and summarization. This makes the model more versatile in application scenarios.
+- **Training Data**: The model has been thoroughly trained on a diversified and high-quality dataset consisting of 3.2 trillion of tokens, including more than 40 languages such as Chinese, English, Russian, and Spanish. The sampling ratio of different types of data is finely set, which makes the performance of Chinese and English excellent, and also takes into account the effect of other languages.
+- **Tokenization**: Based on the BPE (Byte-Pair Encoding) algorithm, a tokenizer with a vocabulary size of 100,534 has been trained using hundreds of gigabytes of language data. This tokenizer is capable of supporting multilingual without the need for additional vocabulary expansion.
 - **Training Framework**: Several key technologies have also been independently developed, including efficient operators, memory optimization, parallel scheduling strategies, overlap of data-computation-communication, and synergy between platforms and frameworks. These advancements enhance training efficiency and model stability. With these technologies, the peak computational power utilization rate on a thousand-card cluster can reach 58.5%, ranking at the forefront of the industry.
 ## 评测结果
+为了综合评估模型的性能，我们在一系列标准数据集上进行了全面测试，包括C-Eval、CMMLU、Gaokao-Bench、MMLU、GAOKAO-English、AGIEval、RACE-M、CommonSenseQA、PIQA、GSM8K和HumanEval。这些评估覆盖了模型在多个领域的能力，具体包括中文问答、英文问答、语言理解、常识问答、逻辑推理、数学问题解答以及编程能力。评估结果如下：
+|  能力维度  |           数据集           |        | XVERSE-13B-2 | XVERSE-13B | Baichuan2-13B | Llama1-13B | Llama2-13B |
+| :--------: | :------------------------: | :----: | :----------: | :--------: | :-----------: | :--------: | :--------: |
+|  中文问答  |           C-Eval           | 5-shot |     63.5     |    54.7    |     58.1      |    28.8    |    35.6    |
+|            |           CMMLU            | 5-shot |     66.2     |    59.1    |     62.0      |    31.5    |    38.4    |
+|            |  Gaokao-Bench<sup>1</sup>  | 5-shot |     67.5     |    53.9    |     54.3      |    26.4    |    35.4    |
+|  英文问答  |            MMLU            | 5-shot |     61.2     |    55.1    |     59.2      |    46.9    |    54.8    |
+|            | GAOKAO-English<sup>1</sup> | 5-shot |     73.7     |    66.5    |     67.7      |    38.1    |    60.6    |
+| 中英文问答 |    AGIEval<sup>1</sup>     | 5-shot |     54.5     |    41.4    |     48.2      |    27.3    |    33.4    |
+|  语言理解  |           RACE-M           | 0-shot |     84.6     |    74.2    |     68.9      |    61.6    |    63.0    |
+|  常识问答  |       CommonSenseQA        | 7-shot |     74.0     |    69.5    |     65.6      |    62.0    |    67.3    |
+|    推理    |            PIQA            | 0-shot |     80.8     |    79.0    |     78.5      |    80.1    |    80.5    |
+|    数学    |           GSM8K            | 4-shot |     54.9     |    18.4    |     52.7      |    17.8    |    28.7    |
+|    代码    |         HumanEval          | 0-shot |     39.6     |    15.9    |     17.1      |    15.8    |    18.3    |
 > <sup>1：只针对其中的单项选择题进行测试，即排除了填空题、开放性问题和多项选择题</sup>
+对于上述所有比较模型，我们优先汇报其官方公布的结果。在缺少官方结果的情况下，我们采用了 [OpenCompass 榜单](https://opencompass.org.cn/leaderboard-llm)的报告结果。其他结果则来自于我们自行执行的评估流程所获得的数据。
+对于 MMLU ，我们采用作者提供的[评测工具](https://github.com/hendrycks/test)，C-Eval、AGIEval、GAOKAO-Bench、GAOKAO-English 与 MMLU 的评测方式相同，其余评测数据集使用 [OpenCompass 评估框架](https://github.com/open-compass/OpenCompass/)进行评估。
 ## Model Evaluation
+To comprehensively assess the performance of the model, we conducted extensive testing across a range of standard datasets, including C-Eval, CMMLU, Gaokao-Bench, MMLU, GAOKAO-English, AGIEval, RACE-M, CommonSenseQA, PIQA, GSM8K and HumanEval. These evaluations spanned multiple capabilities of the model, specifically including Chinese question answering, English question answering, language comprehension, common sense questioning, logical reasoning, mathematical problem-solving, and coding ability. The results of the evaluations are as follows:
+|  Capability Dimension  |          Dataset           |        | XVERSE-13B-2 | XVERSE-13B | Baichuan2-13B | Llama1-13B | Llama2-13B |
+| :--------------------: | :------------------------: | :----: | :----------: | :--------: | :-----------: | :--------: | :--------: |
+|       Chinese QA       |           C-Eval           | 5-shot |     63.5     |    54.7    |     58.1      |    28.8    |    35.6    |
+|                        |           CMMLU            | 5-shot |     66.2     |    59.1    |     62.0      |    31.5    |    38.4    |
+|                        |  Gaokao-Bench<sup>1</sup>  | 5-shot |     67.5     |    53.9    |     54.3      |    26.4    |    35.4    |
+|       English QA       |            MMLU            | 5-shot |     61.2     |    55.1    |     59.2      |    46.9    |    54.8    |
+|                        | GAOKAO-English<sup>1</sup> | 5-shot |     73.7     |    66.5    |     67.7      |    38.1    |    60.6    |
+|  Chinese & English QA  |    AGIEval<sup>1</sup>     | 5-shot |     54.5     |    41.4    |     48.2      |    27.3    |    33.4    |
+| Language Understanding |           RACE-M           | 0-shot |     84.6     |    74.2    |     68.9      |    61.6    |    63.0    |
+|    Common Sense QA     |       CommonSenseQA        | 7-shot |     74.0     |    69.5    |     65.6      |    62.0    |    67.3    |
+|       Reasoning        |            PIQA            | 0-shot |     80.8     |    79.0    |     78.5      |    80.1    |    80.5    |
+|          Math          |           GSM8K            | 4-shot |     54.9     |    18.4    |     52.7      |    17.8    |    28.7    |
+|         Coding         |         HumanEval          | 0-shot |     39.6     |    15.9    |     17.1      |    15.8    |    18.3    |
 > <sup>1: Tests are conducted only on single-answer multiple-choice questions, thus excluding fill-in-the-blanks, open-ended questions, and multiple-answer multiple-choice questions.</sup>
+For all the comparison models mentioned above, we prioritize the disclosure of their officially published results. In the absence of official data, we refer to the reported outcomes from [OpenCompass Leaderboard](https://opencompass.org.cn/leaderboard-llm). Results not covered by the aforementioned sources are derived from our own evaluation pipline.
+For MMLU, we adopt the [evaluation tools](https://github.com/hendrycks/test) provided by the authors, C-Eval, AGIEval, GAOKAO-Bench, GAOKAO-English are the same as MMLU. For the remaining evaluation datasets, the [OpenCompass](https://github.com/open-compass/OpenCompass/) is employed for evaluation.
 ### Loading with Transformers
 >>> print(tokenizer.batch_decode(generated_ids, skip_special_tokens=True))
 ```
+更多细节，包括对话demo、模型微调及量化等，请参考我们的[Github](https://github.com/xverse-ai/XVERSE-13B)。
+For more details, including chat demo, model fine-tuning and quantization, please refer to our [Github](https://github.com/xverse-ai/XVERSE-13B).
 ## 局限性与免责申明

pytorch_model-00003-of-00003.bin → pytorch_model-00001-of-00010.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:defb5f082a0b8924456672401a1d691cae47ce0e01d20e07255c8718d0d7b955
-size 7512554533

 version https://git-lfs.github.com/spec/v1
+oid sha256:340c72360c3fbb2bdf6f98ab9ab8a2678285e5344d1b0a43ac8a05c4723f6f7f
+size 2508131049

pytorch_model-00001-of-00003.bin → pytorch_model-00002-of-00010.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18696855f373f92e774ac4ae12d80fe66b1c1e9acc7b98cd1029fef9e9d228d3
-size 10065941445

 version https://git-lfs.github.com/spec/v1
+oid sha256:e1f5ac861b0b2bb760f64d526573a0b36d3eaf2f86cd7c65d7147d2a483ad880
+size 3172057468

pytorch_model-00002-of-00003.bin → pytorch_model-00003-of-00010.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:10bb394d79391a86c887edce8e7d2f1b921c60fcd9aefe89ee5fe6de9b370a0f
-size 10009010414

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e5b048d9f9afca9a97660c8e9afd59d77be3ebfaa8b5993cc83de24b5c5c106
+size 3172057468

pytorch_model-00004-of-00010.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b3867d8f4a57d9eacc7f6c74777d743b02bf1bd23336474385a6a5bdc37a670f
+size 3172057532

pytorch_model-00005-of-00010.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d5da23d80349815ef029e6ebfe434b62ccc406419d079af06023c3d571ae1ed
+size 3172057532

pytorch_model-00006-of-00010.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:98c6d1632f78291d34a2c7ceeb95a6917fa8569d840a79a53ee8f362375c7c2a
+size 3172057532

pytorch_model-00007-of-00010.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:16abf185e57889e0564ac3bfb61970f5e382c916c78a5409e4b47011c5403a21
+size 3172057532

pytorch_model-00008-of-00010.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a4c25f7d9baa7e94e9c62520ab4a735dd16a92596c9bdef64d4a3ff6af019244
+size 3172057532

pytorch_model-00009-of-00010.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b85c0810178333d726825e52a28659bf27b9a3a32909a125665b00ff2b9f9b4e
+size 1693507250

pytorch_model-00010-of-00010.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f71e8ca1c28e9689538e5573e25ff30d4fc142ab520bcd5b2d55ede6ea62590
+size 1029571307

pytorch_model.bin.index.json CHANGED Viewed

@@ -1,410 +1,410 @@
 {
   "metadata": {
-    "total_size": 27430067200
   },
   "weight_map": {
-    "lm_head.weight": "pytorch_model-00003-of-00003.bin",
-    "model.embed_tokens.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.0.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.0.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.0.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.0.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.0.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.0.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.0.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.0.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.0.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
-    "model.layers.0.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.1.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.1.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.1.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.1.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.1.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.1.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.1.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.1.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.1.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
-    "model.layers.1.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.10.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.10.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.10.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.10.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.10.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.10.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.10.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.10.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.10.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
-    "model.layers.10.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.11.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.11.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.11.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.11.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.11.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.11.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.11.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.11.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.11.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
-    "model.layers.11.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.12.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.12.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.12.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.12.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.12.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.12.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.12.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.12.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.12.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
-    "model.layers.12.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.13.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.13.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.13.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.13.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.13.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.13.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.13.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.13.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.13.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
-    "model.layers.13.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.14.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.14.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.14.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.14.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.14.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.14.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.14.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.14.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.14.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
-    "model.layers.14.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.15.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.15.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.15.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.15.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.15.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.15.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.15.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.15.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.15.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
-    "model.layers.15.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.16.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.16.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.16.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.16.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.16.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.16.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.16.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.16.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.16.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
-    "model.layers.16.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.17.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.17.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.17.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.17.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.17.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.17.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.17.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.17.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.17.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
-    "model.layers.17.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.18.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.18.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.18.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.18.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.18.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.18.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.18.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.18.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.18.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
-    "model.layers.18.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.19.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.19.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.19.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.19.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.19.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.19.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.19.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.19.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.19.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
-    "model.layers.19.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.2.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.2.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.2.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.2.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.2.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.2.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.2.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.2.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.2.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
-    "model.layers.2.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.20.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.20.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.20.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.20.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.20.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.20.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.20.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.20.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.20.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
-    "model.layers.20.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.21.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.21.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.21.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.21.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.21.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.21.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.21.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.21.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.21.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
-    "model.layers.21.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.22.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.22.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.22.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.22.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.22.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.22.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.22.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.22.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.22.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
-    "model.layers.22.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.23.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.23.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.23.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.23.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.23.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.23.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.23.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.23.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.23.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
-    "model.layers.23.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.24.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.24.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.24.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.24.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.24.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.24.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.24.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.24.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.24.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
-    "model.layers.24.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.25.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.25.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.25.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.25.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.25.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.25.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.25.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.25.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.25.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
-    "model.layers.25.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.26.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.26.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.26.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.26.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.26.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.26.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.26.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.26.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.26.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
-    "model.layers.26.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.27.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.27.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.27.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.27.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.27.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.27.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.27.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.27.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.27.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
-    "model.layers.27.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.28.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.28.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.28.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.28.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.28.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.28.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.28.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.28.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.28.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
-    "model.layers.28.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.29.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.29.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.29.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.29.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.29.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.29.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.29.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.29.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.29.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
-    "model.layers.29.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
-    "model.layers.3.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.3.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.3.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.3.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.3.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.3.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.3.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.3.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.3.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
-    "model.layers.3.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.30.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.30.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.30.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.30.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.30.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.30.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.30.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.30.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.30.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
-    "model.layers.30.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.31.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.31.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.31.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.31.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.31.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.31.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.31.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.31.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.31.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
-    "model.layers.31.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.32.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.32.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.32.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.32.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.32.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.32.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.32.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.32.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.32.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
-    "model.layers.32.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.33.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.33.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.33.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.33.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.33.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.33.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.33.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.33.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.33.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
-    "model.layers.33.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.34.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.34.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.34.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.34.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.34.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.34.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.34.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.34.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.34.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
-    "model.layers.34.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.35.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.35.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.35.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.35.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.35.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.35.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.35.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.35.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.35.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
-    "model.layers.35.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.36.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.36.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.36.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.36.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.36.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.36.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.36.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.36.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.36.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
-    "model.layers.36.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.37.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.37.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.37.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.37.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.37.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.37.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.37.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.37.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.37.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
-    "model.layers.37.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.38.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.38.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.38.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.38.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.38.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.38.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.38.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.38.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.38.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
-    "model.layers.38.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.39.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.39.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.39.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.39.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.39.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.39.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.39.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.39.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.39.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
-    "model.layers.39.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
-    "model.layers.4.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.4.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.4.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.4.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.4.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.4.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.4.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.4.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.4.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
-    "model.layers.4.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.5.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.5.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.5.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.5.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.5.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.5.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.5.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.5.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.5.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
-    "model.layers.5.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.6.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.6.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.6.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.6.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.6.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.6.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.6.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.6.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.6.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
-    "model.layers.6.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.7.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.7.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.7.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.7.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.7.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.7.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.7.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.7.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.7.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
-    "model.layers.7.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.8.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.8.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.8.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.8.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.8.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.8.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.8.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.8.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.8.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
-    "model.layers.8.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.9.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.9.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.9.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.9.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.9.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.9.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.9.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.9.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.layers.9.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
-    "model.layers.9.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
-    "model.norm.weight": "pytorch_model-00003-of-00003.bin"
   }
 }

 {
   "metadata": {
+    "total_size": 17578695680
   },
   "weight_map": {
+    "lm_head.weight": "pytorch_model-00010-of-00010.bin",
+    "model.embed_tokens.weight": "pytorch_model-00001-of-00010.bin",
+    "model.layers.0.input_layernorm.weight": "pytorch_model-00001-of-00010.bin",
+    "model.layers.0.mlp.down_proj.weight": "pytorch_model-00001-of-00010.bin",
+    "model.layers.0.mlp.gate_proj.weight": "pytorch_model-00001-of-00010.bin",
+    "model.layers.0.mlp.up_proj.weight": "pytorch_model-00001-of-00010.bin",
+    "model.layers.0.post_attention_layernorm.weight": "pytorch_model-00001-of-00010.bin",
+    "model.layers.0.self_attn.k_proj.weight": "pytorch_model-00001-of-00010.bin",
+    "model.layers.0.self_attn.o_proj.weight": "pytorch_model-00001-of-00010.bin",
+    "model.layers.0.self_attn.q_proj.weight": "pytorch_model-00001-of-00010.bin",
+    "model.layers.0.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00010.bin",
+    "model.layers.0.self_attn.v_proj.weight": "pytorch_model-00001-of-00010.bin",
+    "model.layers.1.input_layernorm.weight": "pytorch_model-00001-of-00010.bin",
+    "model.layers.1.mlp.down_proj.weight": "pytorch_model-00001-of-00010.bin",
+    "model.layers.1.mlp.gate_proj.weight": "pytorch_model-00001-of-00010.bin",
+    "model.layers.1.mlp.up_proj.weight": "pytorch_model-00001-of-00010.bin",
+    "model.layers.1.post_attention_layernorm.weight": "pytorch_model-00001-of-00010.bin",
+    "model.layers.1.self_attn.k_proj.weight": "pytorch_model-00001-of-00010.bin",
+    "model.layers.1.self_attn.o_proj.weight": "pytorch_model-00001-of-00010.bin",
+    "model.layers.1.self_attn.q_proj.weight": "pytorch_model-00001-of-00010.bin",
+    "model.layers.1.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00010.bin",
+    "model.layers.1.self_attn.v_proj.weight": "pytorch_model-00001-of-00010.bin",
+    "model.layers.10.input_layernorm.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.10.mlp.down_proj.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.10.mlp.gate_proj.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.10.mlp.up_proj.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.10.post_attention_layernorm.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.10.self_attn.k_proj.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.10.self_attn.o_proj.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.10.self_attn.q_proj.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.10.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00010.bin",
+    "model.layers.10.self_attn.v_proj.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.11.input_layernorm.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.11.mlp.down_proj.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.11.mlp.gate_proj.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.11.mlp.up_proj.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.11.post_attention_layernorm.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.11.self_attn.k_proj.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.11.self_attn.o_proj.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.11.self_attn.q_proj.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.11.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00010.bin",
+    "model.layers.11.self_attn.v_proj.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.12.input_layernorm.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.12.mlp.down_proj.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.12.mlp.gate_proj.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.12.mlp.up_proj.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.12.post_attention_layernorm.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.12.self_attn.k_proj.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.12.self_attn.o_proj.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.12.self_attn.q_proj.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.12.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00010.bin",
+    "model.layers.12.self_attn.v_proj.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.13.input_layernorm.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.13.mlp.down_proj.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.13.mlp.gate_proj.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.13.mlp.up_proj.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.13.post_attention_layernorm.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.13.self_attn.k_proj.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.13.self_attn.o_proj.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.13.self_attn.q_proj.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.13.self_attn.rotary_emb.inv_freq": "pytorch_model-00004-of-00010.bin",
+    "model.layers.13.self_attn.v_proj.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.14.input_layernorm.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.14.mlp.down_proj.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.14.mlp.gate_proj.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.14.mlp.up_proj.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.14.post_attention_layernorm.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.14.self_attn.k_proj.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.14.self_attn.o_proj.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.14.self_attn.q_proj.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.14.self_attn.rotary_emb.inv_freq": "pytorch_model-00004-of-00010.bin",
+    "model.layers.14.self_attn.v_proj.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.15.input_layernorm.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.15.mlp.down_proj.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.15.mlp.gate_proj.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.15.mlp.up_proj.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.15.post_attention_layernorm.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.15.self_attn.k_proj.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.15.self_attn.o_proj.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.15.self_attn.q_proj.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.15.self_attn.rotary_emb.inv_freq": "pytorch_model-00004-of-00010.bin",
+    "model.layers.15.self_attn.v_proj.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.16.input_layernorm.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.16.mlp.down_proj.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.16.mlp.gate_proj.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.16.mlp.up_proj.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.16.post_attention_layernorm.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.16.self_attn.k_proj.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.16.self_attn.o_proj.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.16.self_attn.q_proj.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.16.self_attn.rotary_emb.inv_freq": "pytorch_model-00004-of-00010.bin",
+    "model.layers.16.self_attn.v_proj.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.17.input_layernorm.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.17.mlp.down_proj.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.17.mlp.gate_proj.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.17.mlp.up_proj.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.17.post_attention_layernorm.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.17.self_attn.k_proj.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.17.self_attn.o_proj.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.17.self_attn.q_proj.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.17.self_attn.rotary_emb.inv_freq": "pytorch_model-00004-of-00010.bin",
+    "model.layers.17.self_attn.v_proj.weight": "pytorch_model-00004-of-00010.bin",
+    "model.layers.18.input_layernorm.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.18.mlp.down_proj.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.18.mlp.gate_proj.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.18.mlp.up_proj.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.18.post_attention_layernorm.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.18.self_attn.k_proj.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.18.self_attn.o_proj.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.18.self_attn.q_proj.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.18.self_attn.rotary_emb.inv_freq": "pytorch_model-00005-of-00010.bin",
+    "model.layers.18.self_attn.v_proj.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.19.input_layernorm.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.19.mlp.down_proj.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.19.mlp.gate_proj.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.19.mlp.up_proj.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.19.post_attention_layernorm.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.19.self_attn.k_proj.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.19.self_attn.o_proj.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.19.self_attn.q_proj.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.19.self_attn.rotary_emb.inv_freq": "pytorch_model-00005-of-00010.bin",
+    "model.layers.19.self_attn.v_proj.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.2.input_layernorm.weight": "pytorch_model-00001-of-00010.bin",
+    "model.layers.2.mlp.down_proj.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.2.mlp.gate_proj.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.2.mlp.up_proj.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.2.post_attention_layernorm.weight": "pytorch_model-00001-of-00010.bin",
+    "model.layers.2.self_attn.k_proj.weight": "pytorch_model-00001-of-00010.bin",
+    "model.layers.2.self_attn.o_proj.weight": "pytorch_model-00001-of-00010.bin",
+    "model.layers.2.self_attn.q_proj.weight": "pytorch_model-00001-of-00010.bin",
+    "model.layers.2.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00010.bin",
+    "model.layers.2.self_attn.v_proj.weight": "pytorch_model-00001-of-00010.bin",
+    "model.layers.20.input_layernorm.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.20.mlp.down_proj.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.20.mlp.gate_proj.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.20.mlp.up_proj.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.20.post_attention_layernorm.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.20.self_attn.k_proj.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.20.self_attn.o_proj.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.20.self_attn.q_proj.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.20.self_attn.rotary_emb.inv_freq": "pytorch_model-00005-of-00010.bin",
+    "model.layers.20.self_attn.v_proj.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.21.input_layernorm.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.21.mlp.down_proj.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.21.mlp.gate_proj.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.21.mlp.up_proj.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.21.post_attention_layernorm.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.21.self_attn.k_proj.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.21.self_attn.o_proj.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.21.self_attn.q_proj.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.21.self_attn.rotary_emb.inv_freq": "pytorch_model-00005-of-00010.bin",
+    "model.layers.21.self_attn.v_proj.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.22.input_layernorm.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.22.mlp.down_proj.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.22.mlp.gate_proj.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.22.mlp.up_proj.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.22.post_attention_layernorm.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.22.self_attn.k_proj.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.22.self_attn.o_proj.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.22.self_attn.q_proj.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.22.self_attn.rotary_emb.inv_freq": "pytorch_model-00005-of-00010.bin",
+    "model.layers.22.self_attn.v_proj.weight": "pytorch_model-00005-of-00010.bin",
+    "model.layers.23.input_layernorm.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.23.mlp.down_proj.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.23.mlp.gate_proj.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.23.mlp.up_proj.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.23.post_attention_layernorm.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.23.self_attn.k_proj.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.23.self_attn.o_proj.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.23.self_attn.q_proj.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.23.self_attn.rotary_emb.inv_freq": "pytorch_model-00006-of-00010.bin",
+    "model.layers.23.self_attn.v_proj.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.24.input_layernorm.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.24.mlp.down_proj.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.24.mlp.gate_proj.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.24.mlp.up_proj.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.24.post_attention_layernorm.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.24.self_attn.k_proj.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.24.self_attn.o_proj.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.24.self_attn.q_proj.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.24.self_attn.rotary_emb.inv_freq": "pytorch_model-00006-of-00010.bin",
+    "model.layers.24.self_attn.v_proj.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.25.input_layernorm.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.25.mlp.down_proj.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.25.mlp.gate_proj.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.25.mlp.up_proj.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.25.post_attention_layernorm.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.25.self_attn.k_proj.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.25.self_attn.o_proj.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.25.self_attn.q_proj.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.25.self_attn.rotary_emb.inv_freq": "pytorch_model-00006-of-00010.bin",
+    "model.layers.25.self_attn.v_proj.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.26.input_layernorm.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.26.mlp.down_proj.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.26.mlp.gate_proj.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.26.mlp.up_proj.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.26.post_attention_layernorm.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.26.self_attn.k_proj.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.26.self_attn.o_proj.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.26.self_attn.q_proj.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.26.self_attn.rotary_emb.inv_freq": "pytorch_model-00006-of-00010.bin",
+    "model.layers.26.self_attn.v_proj.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.27.input_layernorm.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.27.mlp.down_proj.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.27.mlp.gate_proj.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.27.mlp.up_proj.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.27.post_attention_layernorm.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.27.self_attn.k_proj.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.27.self_attn.o_proj.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.27.self_attn.q_proj.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.27.self_attn.rotary_emb.inv_freq": "pytorch_model-00006-of-00010.bin",
+    "model.layers.27.self_attn.v_proj.weight": "pytorch_model-00006-of-00010.bin",
+    "model.layers.28.input_layernorm.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.28.mlp.down_proj.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.28.mlp.gate_proj.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.28.mlp.up_proj.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.28.post_attention_layernorm.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.28.self_attn.k_proj.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.28.self_attn.o_proj.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.28.self_attn.q_proj.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.28.self_attn.rotary_emb.inv_freq": "pytorch_model-00007-of-00010.bin",
+    "model.layers.28.self_attn.v_proj.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.29.input_layernorm.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.29.mlp.down_proj.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.29.mlp.gate_proj.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.29.mlp.up_proj.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.29.post_attention_layernorm.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.29.self_attn.k_proj.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.29.self_attn.o_proj.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.29.self_attn.q_proj.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.29.self_attn.rotary_emb.inv_freq": "pytorch_model-00007-of-00010.bin",
+    "model.layers.29.self_attn.v_proj.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.3.input_layernorm.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.3.mlp.down_proj.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.3.mlp.gate_proj.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.3.mlp.up_proj.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.3.post_attention_layernorm.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.3.self_attn.k_proj.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.3.self_attn.o_proj.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.3.self_attn.q_proj.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.3.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00010.bin",
+    "model.layers.3.self_attn.v_proj.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.30.input_layernorm.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.30.mlp.down_proj.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.30.mlp.gate_proj.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.30.mlp.up_proj.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.30.post_attention_layernorm.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.30.self_attn.k_proj.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.30.self_attn.o_proj.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.30.self_attn.q_proj.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.30.self_attn.rotary_emb.inv_freq": "pytorch_model-00007-of-00010.bin",
+    "model.layers.30.self_attn.v_proj.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.31.input_layernorm.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.31.mlp.down_proj.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.31.mlp.gate_proj.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.31.mlp.up_proj.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.31.post_attention_layernorm.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.31.self_attn.k_proj.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.31.self_attn.o_proj.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.31.self_attn.q_proj.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.31.self_attn.rotary_emb.inv_freq": "pytorch_model-00007-of-00010.bin",
+    "model.layers.31.self_attn.v_proj.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.32.input_layernorm.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.32.mlp.down_proj.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.32.mlp.gate_proj.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.32.mlp.up_proj.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.32.post_attention_layernorm.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.32.self_attn.k_proj.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.32.self_attn.o_proj.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.32.self_attn.q_proj.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.32.self_attn.rotary_emb.inv_freq": "pytorch_model-00007-of-00010.bin",
+    "model.layers.32.self_attn.v_proj.weight": "pytorch_model-00007-of-00010.bin",
+    "model.layers.33.input_layernorm.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.33.mlp.down_proj.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.33.mlp.gate_proj.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.33.mlp.up_proj.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.33.post_attention_layernorm.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.33.self_attn.k_proj.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.33.self_attn.o_proj.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.33.self_attn.q_proj.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.33.self_attn.rotary_emb.inv_freq": "pytorch_model-00008-of-00010.bin",
+    "model.layers.33.self_attn.v_proj.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.34.input_layernorm.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.34.mlp.down_proj.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.34.mlp.gate_proj.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.34.mlp.up_proj.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.34.post_attention_layernorm.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.34.self_attn.k_proj.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.34.self_attn.o_proj.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.34.self_attn.q_proj.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.34.self_attn.rotary_emb.inv_freq": "pytorch_model-00008-of-00010.bin",
+    "model.layers.34.self_attn.v_proj.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.35.input_layernorm.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.35.mlp.down_proj.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.35.mlp.gate_proj.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.35.mlp.up_proj.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.35.post_attention_layernorm.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.35.self_attn.k_proj.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.35.self_attn.o_proj.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.35.self_attn.q_proj.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.35.self_attn.rotary_emb.inv_freq": "pytorch_model-00008-of-00010.bin",
+    "model.layers.35.self_attn.v_proj.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.36.input_layernorm.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.36.mlp.down_proj.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.36.mlp.gate_proj.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.36.mlp.up_proj.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.36.post_attention_layernorm.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.36.self_attn.k_proj.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.36.self_attn.o_proj.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.36.self_attn.q_proj.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.36.self_attn.rotary_emb.inv_freq": "pytorch_model-00008-of-00010.bin",
+    "model.layers.36.self_attn.v_proj.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.37.input_layernorm.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.37.mlp.down_proj.weight": "pytorch_model-00009-of-00010.bin",
+    "model.layers.37.mlp.gate_proj.weight": "pytorch_model-00009-of-00010.bin",
+    "model.layers.37.mlp.up_proj.weight": "pytorch_model-00009-of-00010.bin",
+    "model.layers.37.post_attention_layernorm.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.37.self_attn.k_proj.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.37.self_attn.o_proj.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.37.self_attn.q_proj.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.37.self_attn.rotary_emb.inv_freq": "pytorch_model-00008-of-00010.bin",
+    "model.layers.37.self_attn.v_proj.weight": "pytorch_model-00008-of-00010.bin",
+    "model.layers.38.input_layernorm.weight": "pytorch_model-00009-of-00010.bin",
+    "model.layers.38.mlp.down_proj.weight": "pytorch_model-00009-of-00010.bin",
+    "model.layers.38.mlp.gate_proj.weight": "pytorch_model-00009-of-00010.bin",
+    "model.layers.38.mlp.up_proj.weight": "pytorch_model-00009-of-00010.bin",
+    "model.layers.38.post_attention_layernorm.weight": "pytorch_model-00009-of-00010.bin",
+    "model.layers.38.self_attn.k_proj.weight": "pytorch_model-00009-of-00010.bin",
+    "model.layers.38.self_attn.o_proj.weight": "pytorch_model-00009-of-00010.bin",
+    "model.layers.38.self_attn.q_proj.weight": "pytorch_model-00009-of-00010.bin",
+    "model.layers.38.self_attn.rotary_emb.inv_freq": "pytorch_model-00009-of-00010.bin",
+    "model.layers.38.self_attn.v_proj.weight": "pytorch_model-00009-of-00010.bin",
+    "model.layers.39.input_layernorm.weight": "pytorch_model-00009-of-00010.bin",
+    "model.layers.39.mlp.down_proj.weight": "pytorch_model-00009-of-00010.bin",
+    "model.layers.39.mlp.gate_proj.weight": "pytorch_model-00009-of-00010.bin",
+    "model.layers.39.mlp.up_proj.weight": "pytorch_model-00009-of-00010.bin",
+    "model.layers.39.post_attention_layernorm.weight": "pytorch_model-00009-of-00010.bin",
+    "model.layers.39.self_attn.k_proj.weight": "pytorch_model-00009-of-00010.bin",
+    "model.layers.39.self_attn.o_proj.weight": "pytorch_model-00009-of-00010.bin",
+    "model.layers.39.self_attn.q_proj.weight": "pytorch_model-00009-of-00010.bin",
+    "model.layers.39.self_attn.rotary_emb.inv_freq": "pytorch_model-00009-of-00010.bin",
+    "model.layers.39.self_attn.v_proj.weight": "pytorch_model-00009-of-00010.bin",
+    "model.layers.4.input_layernorm.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.4.mlp.down_proj.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.4.mlp.gate_proj.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.4.mlp.up_proj.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.4.post_attention_layernorm.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.4.self_attn.k_proj.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.4.self_attn.o_proj.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.4.self_attn.q_proj.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.4.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00010.bin",
+    "model.layers.4.self_attn.v_proj.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.5.input_layernorm.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.5.mlp.down_proj.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.5.mlp.gate_proj.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.5.mlp.up_proj.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.5.post_attention_layernorm.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.5.self_attn.k_proj.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.5.self_attn.o_proj.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.5.self_attn.q_proj.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.5.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00010.bin",
+    "model.layers.5.self_attn.v_proj.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.6.input_layernorm.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.6.mlp.down_proj.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.6.mlp.gate_proj.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.6.mlp.up_proj.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.6.post_attention_layernorm.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.6.self_attn.k_proj.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.6.self_attn.o_proj.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.6.self_attn.q_proj.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.6.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00010.bin",
+    "model.layers.6.self_attn.v_proj.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.7.input_layernorm.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.7.mlp.down_proj.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.7.mlp.gate_proj.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.7.mlp.up_proj.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.7.post_attention_layernorm.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.7.self_attn.k_proj.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.7.self_attn.o_proj.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.7.self_attn.q_proj.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.7.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00010.bin",
+    "model.layers.7.self_attn.v_proj.weight": "pytorch_model-00002-of-00010.bin",
+    "model.layers.8.input_layernorm.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.8.mlp.down_proj.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.8.mlp.gate_proj.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.8.mlp.up_proj.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.8.post_attention_layernorm.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.8.self_attn.k_proj.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.8.self_attn.o_proj.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.8.self_attn.q_proj.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.8.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00010.bin",
+    "model.layers.8.self_attn.v_proj.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.9.input_layernorm.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.9.mlp.down_proj.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.9.mlp.gate_proj.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.9.mlp.up_proj.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.9.post_attention_layernorm.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.9.self_attn.k_proj.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.9.self_attn.o_proj.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.9.self_attn.q_proj.weight": "pytorch_model-00003-of-00010.bin",
+    "model.layers.9.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00010.bin",
+    "model.layers.9.self_attn.v_proj.weight": "pytorch_model-00003-of-00010.bin",
+    "model.norm.weight": "pytorch_model-00009-of-00010.bin"
   }
 }