Upload folder using huggingface_hub

Browse files

Files changed (13) hide show

.gitattributes +1 -0
README.md +186 -0
config.json +39 -0
generation_config.json +7 -0
model.safetensors.index.json +649 -0
output-00001-of-00006.safetensors +3 -0
output-00002-of-00006.safetensors +3 -0
output-00003-of-00006.safetensors +3 -0
output-00004-of-00006.safetensors +3 -0
output-00005-of-00006.safetensors +3 -0
output-00006-of-00006.safetensors +3 -0
tokenizer.json +3 -0
tokenizer_config.json +1 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,186 @@

+---
+library_name: transformers
+language:
+- en
+- fr
+- de
+- es
+- it
+- pt
+- ja
+- ko
+- zh
+- ar
+license: cc-by-nc-4.0
+tags:
+- exl2
+---
+# c4ai-command-r-plus - EXL2 2.75bpw
+This is a 2.75bpw EXL2 quant of [CohereForAI/c4ai-command-r-plus](https://huggingface.co/CohereForAI/c4ai-command-r-plus)
+Details about the model can be found at the above model page.
+## Turbodep EXL2 Quants
+This repo only has specific quants not already done at [turboderp/command-r-plus-103B-exl2](https://huggingface.co/turboderp/command-r-plus-103B-exl2)
+Quants marked as turboderp can be downloaded from that repo.
+## EXL2 Version
+These quants were made with exllamav2 version 0.0.18. Quants made on this version of EXL2 may not work on older versions of the exllamav2 library.
+If you have problems loading these models, please update Text Generation WebUI to the latest version.
+## Perplexity Scoring
+Below are the perplexity scores for the EXL2 models. A lower score is better.
+| Quant Level | Perplexity Score | Repo |
+|-------------|------------------|------|
+| 6.0 | 4.7068 | [turboderp](https://huggingface.co/turboderp/command-r-plus-103B-exl2) |
+| 5.0 | 4.7309 | [turboderp](https://huggingface.co/turboderp/command-r-plus-103B-exl2) |
+| 4.5 | 4.8111 | [turboderp](https://huggingface.co/turboderp/command-r-plus-103B-exl2) |
+| 4.25 | 4.8292 | [turboderp](https://huggingface.co/turboderp/command-r-plus-103B-exl2) |
+| 4.0 | 4.8603 | [turboderp](https://huggingface.co/turboderp/command-r-plus-103B-exl2) |
+| 3.75 | 4.9112 | [turboderp](https://huggingface.co/turboderp/command-r-plus-103B-exl2) |
+| 3.5 | 4.9592 | [turboderp](https://huggingface.co/turboderp/command-r-plus-103B-exl2) |
+| 3.25 | 5.0631 | [turboderp](https://huggingface.co/turboderp/command-r-plus-103B-exl2) |
+| 3.0 | 5.2050 | [turboderp](https://huggingface.co/turboderp/command-r-plus-103B-exl2) |
+| 2.5 | 5.6681 | [turboderp](https://huggingface.co/turboderp/command-r-plus-103B-exl2) |
+## EQ Bench
+Here are the EQ Bench scores for the EXL2 quants using Alpaca, ChatML, Command-R and Command-R-Plus prompt templates. A higher score is better.
+_TODO_
+### Command-R-Plus Template
+This is the Command-R-Plus template yaml that was used in EQ bench(which uses Text Generation Web UI yaml templates). It adds BOS_TOKEN into the starter prompt.
+_text-generation-webui/instruction-templates/Command-R-Plus.yaml_:
+```yaml
+instruction_template: |-
+  {%- if messages[0]['role'] == 'system' -%}
+      {%- set loop_messages = messages[1:] -%}
+      {%- set system_message = messages[0]['content'] -%}
+  {%- elif false == true -%}
+      {%- set loop_messages = messages -%}
+      {%- set system_message = 'You are Command-R, a brilliant, sophisticated, AI-assistant trained to assist human users by providing thorough responses. You are trained by Cohere.' -%}
+  {%- else -%}
+      {%- set loop_messages = messages -%}
+      {%- set system_message = false -%}
+  {%- endif -%}
+  {%- if system_message != false -%}
+      {{ '<BOS_TOKEN><|START_OF_TURN_TOKEN|><|SYSTEM_TOKEN|>' + system_message + '<|END_OF_TURN_TOKEN|>' }}
+  {%- endif -%}
+  {%- for message in loop_messages -%}
+      {%- set content = message['content'] -%}
+      {%- if message['role'] == 'user' -%}
+          {{ '<|START_OF_TURN_TOKEN|><|USER_TOKEN|>' + content.strip() + '<|END_OF_TURN_TOKEN|>' }}
+      {%- elif message['role'] == 'assistant' -%}
+          {{ '<|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>'  + content.strip() + '<|END_OF_TURN_TOKEN|>' }}
+      {%- endif -%}
+  {%- endfor -%}
+  {%- if add_generation_prompt -%}
+      {{ '<|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>' }}
+  {%- endif -%}
+```
+### Perplexity Script
+This was the script used for perplexity testing.
+```bash
+#!/bin/bash
+# Activate the conda environment
+source ~/miniconda3/etc/profile.d/conda.sh
+conda activate exllamav2
+# Set the model name and bit size
+MODEL_NAME="c4ai-command-r-plus"
+BIT_PRECISIONS=(8.0 7.5 7.0 6.5 5.5 2.75 2.25)
+# MODEL_NAME="turboderp_command-r-plus-103B"
+# BIT_PRECISIONS=(6.0 5.0 4.5 4.25 4.0 3.75 3.5 3.25 3.0 2.5)
+# Print the markdown table header
+echo "| Quant Level | Perplexity Score |"
+echo "|-------------|------------------|"
+for BIT_PRECISION in "${BIT_PRECISIONS[@]}"
+do
+  MODEL_DIR="models/${MODEL_NAME}_exl2_${BIT_PRECISION}bpw"
+#   MODEL_DIR="models/${MODEL_NAME}-exl2_${BIT_PRECISION}bpw"
+  if [ -d "$MODEL_DIR" ]; then
+    output=$(python test_inference.py -m "$MODEL_DIR" -gs 22,24 -ed data/wikitext/wikitext-2-v1.parquet)
+    score=$(echo "$output" | grep -oP 'Evaluation perplexity: \K[\d.]+')
+    echo "| $BIT_PRECISION | $score |"
+  fi
+done
+```
+## Quant Details
+This is the script used for quantization.
+```bash
+#!/bin/bash
+# Activate the conda environment
+source ~/miniconda3/etc/profile.d/conda.sh
+conda activate exllamav2
+# Set the model name and bit size
+MODEL_NAME="c4ai-command-r-plus"
+# Define variables
+MODEL_DIR="models/$MODEL_NAME"
+OUTPUT_DIR="exl2_$MODEL_NAME"
+MEASUREMENT_FILE="measurements/$MODEL_NAME.json"
+# Create the measurement file if needed
+if [ ! -f "$MEASUREMENT_FILE" ]; then
+    echo "Creating $MEASUREMENT_FILE"
+    # Create directories
+    if [ -d "$OUTPUT_DIR" ]; then
+        rm -r "$OUTPUT_DIR"
+    fi
+    mkdir "$OUTPUT_DIR"
+    python convert.py -i $MODEL_DIR -o $OUTPUT_DIR -nr -om $MEASUREMENT_FILE
+fi
+# Choose one of the below. Either create a single quant for testing or a batch of them.
+# BIT_PRECISIONS=(5.0)
+BIT_PRECISIONS=(8.0 7.5 6.5 5.5 2.75 2.25)
+for BIT_PRECISION in "${BIT_PRECISIONS[@]}"
+do
+    CONVERTED_FOLDER="models/${MODEL_NAME}_exl2_${BIT_PRECISION}bpw"
+    # If it doesn't already exist, make the quant
+    if [ ! -d "$CONVERTED_FOLDER" ]; then
+        echo "Creating $CONVERTED_FOLDER"
+        # Create directories
+        if [ -d "$OUTPUT_DIR" ]; then
+            rm -r "$OUTPUT_DIR"
+        fi
+        mkdir "$OUTPUT_DIR"
+        mkdir "$CONVERTED_FOLDER"
+        # Run conversion commands
+        python convert.py -i $MODEL_DIR -o $OUTPUT_DIR -nr -m $MEASUREMENT_FILE -b $BIT_PRECISION -cf $CONVERTED_FOLDER
+    fi
+done
+```

config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+    "architectures": [
+        "CohereForCausalLM"
+    ],
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "bos_token_id": 5,
+    "eos_token_id": 255001,
+    "hidden_act": "silu",
+    "hidden_size": 12288,
+    "initializer_range": 0.02,
+    "intermediate_size": 33792,
+    "layer_norm_eps": 1e-05,
+    "logit_scale": 0.8333333333333334,
+    "max_position_embeddings": 8192,
+    "model_max_length": 131072,
+    "model_type": "cohere",
+    "num_attention_heads": 96,
+    "num_hidden_layers": 64,
+    "num_key_value_heads": 8,
+    "pad_token_id": 0,
+    "rope_theta": 75000000.0,
+    "torch_dtype": "float16",
+    "transformers_version": "4.40.0.dev0",
+    "use_cache": true,
+    "use_qk_norm": true,
+    "vocab_size": 256000,
+    "quantization_config": {
+        "quant_method": "exl2",
+        "version": "0.0.18",
+        "bits": 2.75,
+        "head_bits": 6,
+        "calibration": {
+            "rows": 100,
+            "length": 2048,
+            "dataset": "(default)"
+        }
+    }
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 5,
+  "eos_token_id": 255001,
+  "pad_token_id": 0,
+  "transformers_version": "4.40.0.dev0"
+}

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,649 @@

+{
+  "metadata": {
+    "total_size": 207621349376
+  },
+  "weight_map": {
+    "model.embed_tokens.weight": "model-00001-of-00044.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00002-of-00044.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00002-of-00044.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00002-of-00044.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00002-of-00044.safetensors",
+    "model.layers.0.self_attn.k_norm.weight": "model-00002-of-00044.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00002-of-00044.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00002-of-00044.safetensors",
+    "model.layers.0.self_attn.q_norm.weight": "model-00002-of-00044.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00002-of-00044.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00002-of-00044.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00003-of-00044.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00003-of-00044.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00002-of-00044.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00003-of-00044.safetensors",
+    "model.layers.1.self_attn.k_norm.weight": "model-00002-of-00044.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00002-of-00044.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00002-of-00044.safetensors",
+    "model.layers.1.self_attn.q_norm.weight": "model-00002-of-00044.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00002-of-00044.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00002-of-00044.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00009-of-00044.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00009-of-00044.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00008-of-00044.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00009-of-00044.safetensors",
+    "model.layers.10.self_attn.k_norm.weight": "model-00008-of-00044.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00008-of-00044.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00008-of-00044.safetensors",
+    "model.layers.10.self_attn.q_norm.weight": "model-00008-of-00044.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00008-of-00044.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00008-of-00044.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00009-of-00044.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00009-of-00044.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00009-of-00044.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00009-of-00044.safetensors",
+    "model.layers.11.self_attn.k_norm.weight": "model-00009-of-00044.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00009-of-00044.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00009-of-00044.safetensors",
+    "model.layers.11.self_attn.q_norm.weight": "model-00009-of-00044.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00009-of-00044.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00009-of-00044.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00010-of-00044.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00010-of-00044.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00010-of-00044.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00010-of-00044.safetensors",
+    "model.layers.12.self_attn.k_norm.weight": "model-00009-of-00044.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00010-of-00044.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00010-of-00044.safetensors",
+    "model.layers.12.self_attn.q_norm.weight": "model-00009-of-00044.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00010-of-00044.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00010-of-00044.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00011-of-00044.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00011-of-00044.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00010-of-00044.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00011-of-00044.safetensors",
+    "model.layers.13.self_attn.k_norm.weight": "model-00010-of-00044.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00010-of-00044.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00010-of-00044.safetensors",
+    "model.layers.13.self_attn.q_norm.weight": "model-00010-of-00044.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00010-of-00044.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00010-of-00044.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00011-of-00044.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00011-of-00044.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00011-of-00044.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00011-of-00044.safetensors",
+    "model.layers.14.self_attn.k_norm.weight": "model-00011-of-00044.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00011-of-00044.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00011-of-00044.safetensors",
+    "model.layers.14.self_attn.q_norm.weight": "model-00011-of-00044.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00011-of-00044.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00011-of-00044.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00012-of-00044.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00012-of-00044.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00012-of-00044.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00012-of-00044.safetensors",
+    "model.layers.15.self_attn.k_norm.weight": "model-00011-of-00044.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00012-of-00044.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00012-of-00044.safetensors",
+    "model.layers.15.self_attn.q_norm.weight": "model-00011-of-00044.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00012-of-00044.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00012-of-00044.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00013-of-00044.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00013-of-00044.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00012-of-00044.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00013-of-00044.safetensors",
+    "model.layers.16.self_attn.k_norm.weight": "model-00012-of-00044.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00012-of-00044.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00012-of-00044.safetensors",
+    "model.layers.16.self_attn.q_norm.weight": "model-00012-of-00044.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00012-of-00044.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00012-of-00044.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00013-of-00044.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00013-of-00044.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00013-of-00044.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00013-of-00044.safetensors",
+    "model.layers.17.self_attn.k_norm.weight": "model-00013-of-00044.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00013-of-00044.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00013-of-00044.safetensors",
+    "model.layers.17.self_attn.q_norm.weight": "model-00013-of-00044.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00013-of-00044.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00013-of-00044.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00014-of-00044.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00014-of-00044.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00014-of-00044.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00014-of-00044.safetensors",
+    "model.layers.18.self_attn.k_norm.weight": "model-00013-of-00044.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00014-of-00044.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00014-of-00044.safetensors",
+    "model.layers.18.self_attn.q_norm.weight": "model-00013-of-00044.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00014-of-00044.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00014-of-00044.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00015-of-00044.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00015-of-00044.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00014-of-00044.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00015-of-00044.safetensors",
+    "model.layers.19.self_attn.k_norm.weight": "model-00014-of-00044.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00014-of-00044.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00014-of-00044.safetensors",
+    "model.layers.19.self_attn.q_norm.weight": "model-00014-of-00044.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00014-of-00044.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00014-of-00044.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00003-of-00044.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00003-of-00044.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00003-of-00044.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00003-of-00044.safetensors",
+    "model.layers.2.self_attn.k_norm.weight": "model-00003-of-00044.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00003-of-00044.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00003-of-00044.safetensors",
+    "model.layers.2.self_attn.q_norm.weight": "model-00003-of-00044.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00003-of-00044.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00003-of-00044.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00015-of-00044.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00015-of-00044.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00015-of-00044.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00015-of-00044.safetensors",
+    "model.layers.20.self_attn.k_norm.weight": "model-00015-of-00044.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00015-of-00044.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00015-of-00044.safetensors",
+    "model.layers.20.self_attn.q_norm.weight": "model-00015-of-00044.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00015-of-00044.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00015-of-00044.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00016-of-00044.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00016-of-00044.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00016-of-00044.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00016-of-00044.safetensors",
+    "model.layers.21.self_attn.k_norm.weight": "model-00015-of-00044.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00016-of-00044.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00016-of-00044.safetensors",
+    "model.layers.21.self_attn.q_norm.weight": "model-00015-of-00044.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00016-of-00044.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00016-of-00044.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00017-of-00044.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00017-of-00044.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00016-of-00044.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00017-of-00044.safetensors",
+    "model.layers.22.self_attn.k_norm.weight": "model-00016-of-00044.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00016-of-00044.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00016-of-00044.safetensors",
+    "model.layers.22.self_attn.q_norm.weight": "model-00016-of-00044.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00016-of-00044.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00016-of-00044.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00017-of-00044.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00017-of-00044.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00017-of-00044.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00017-of-00044.safetensors",
+    "model.layers.23.self_attn.k_norm.weight": "model-00017-of-00044.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00017-of-00044.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00017-of-00044.safetensors",
+    "model.layers.23.self_attn.q_norm.weight": "model-00017-of-00044.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00017-of-00044.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00017-of-00044.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00018-of-00044.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00018-of-00044.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00018-of-00044.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00018-of-00044.safetensors",
+    "model.layers.24.self_attn.k_norm.weight": "model-00017-of-00044.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00018-of-00044.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00018-of-00044.safetensors",
+    "model.layers.24.self_attn.q_norm.weight": "model-00017-of-00044.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00018-of-00044.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00018-of-00044.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00019-of-00044.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00019-of-00044.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00018-of-00044.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00019-of-00044.safetensors",
+    "model.layers.25.self_attn.k_norm.weight": "model-00018-of-00044.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00018-of-00044.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00018-of-00044.safetensors",
+    "model.layers.25.self_attn.q_norm.weight": "model-00018-of-00044.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00018-of-00044.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00018-of-00044.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00019-of-00044.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00019-of-00044.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00019-of-00044.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00019-of-00044.safetensors",
+    "model.layers.26.self_attn.k_norm.weight": "model-00019-of-00044.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00019-of-00044.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00019-of-00044.safetensors",
+    "model.layers.26.self_attn.q_norm.weight": "model-00019-of-00044.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00019-of-00044.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00019-of-00044.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00020-of-00044.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00020-of-00044.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00020-of-00044.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00020-of-00044.safetensors",
+    "model.layers.27.self_attn.k_norm.weight": "model-00019-of-00044.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00020-of-00044.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00020-of-00044.safetensors",
+    "model.layers.27.self_attn.q_norm.weight": "model-00019-of-00044.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00020-of-00044.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00020-of-00044.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00021-of-00044.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00021-of-00044.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00020-of-00044.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00021-of-00044.safetensors",
+    "model.layers.28.self_attn.k_norm.weight": "model-00020-of-00044.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00020-of-00044.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00020-of-00044.safetensors",
+    "model.layers.28.self_attn.q_norm.weight": "model-00020-of-00044.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00020-of-00044.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00020-of-00044.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00021-of-00044.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00021-of-00044.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00021-of-00044.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00021-of-00044.safetensors",
+    "model.layers.29.self_attn.k_norm.weight": "model-00021-of-00044.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00021-of-00044.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00021-of-00044.safetensors",
+    "model.layers.29.self_attn.q_norm.weight": "model-00021-of-00044.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00021-of-00044.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00021-of-00044.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00004-of-00044.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00004-of-00044.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00004-of-00044.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00004-of-00044.safetensors",
+    "model.layers.3.self_attn.k_norm.weight": "model-00003-of-00044.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00004-of-00044.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00004-of-00044.safetensors",
+    "model.layers.3.self_attn.q_norm.weight": "model-00003-of-00044.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00004-of-00044.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00004-of-00044.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00022-of-00044.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00022-of-00044.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00022-of-00044.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00022-of-00044.safetensors",
+    "model.layers.30.self_attn.k_norm.weight": "model-00021-of-00044.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00022-of-00044.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00022-of-00044.safetensors",
+    "model.layers.30.self_attn.q_norm.weight": "model-00021-of-00044.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00022-of-00044.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00022-of-00044.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00023-of-00044.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00023-of-00044.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00022-of-00044.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00023-of-00044.safetensors",
+    "model.layers.31.self_attn.k_norm.weight": "model-00022-of-00044.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00022-of-00044.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00022-of-00044.safetensors",
+    "model.layers.31.self_attn.q_norm.weight": "model-00022-of-00044.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00022-of-00044.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00022-of-00044.safetensors",
+    "model.layers.32.input_layernorm.weight": "model-00023-of-00044.safetensors",
+    "model.layers.32.mlp.down_proj.weight": "model-00023-of-00044.safetensors",
+    "model.layers.32.mlp.gate_proj.weight": "model-00023-of-00044.safetensors",
+    "model.layers.32.mlp.up_proj.weight": "model-00023-of-00044.safetensors",
+    "model.layers.32.self_attn.k_norm.weight": "model-00023-of-00044.safetensors",
+    "model.layers.32.self_attn.k_proj.weight": "model-00023-of-00044.safetensors",
+    "model.layers.32.self_attn.o_proj.weight": "model-00023-of-00044.safetensors",
+    "model.layers.32.self_attn.q_norm.weight": "model-00023-of-00044.safetensors",
+    "model.layers.32.self_attn.q_proj.weight": "model-00023-of-00044.safetensors",
+    "model.layers.32.self_attn.v_proj.weight": "model-00023-of-00044.safetensors",
+    "model.layers.33.input_layernorm.weight": "model-00024-of-00044.safetensors",
+    "model.layers.33.mlp.down_proj.weight": "model-00024-of-00044.safetensors",
+    "model.layers.33.mlp.gate_proj.weight": "model-00024-of-00044.safetensors",
+    "model.layers.33.mlp.up_proj.weight": "model-00024-of-00044.safetensors",
+    "model.layers.33.self_attn.k_norm.weight": "model-00023-of-00044.safetensors",
+    "model.layers.33.self_attn.k_proj.weight": "model-00024-of-00044.safetensors",
+    "model.layers.33.self_attn.o_proj.weight": "model-00024-of-00044.safetensors",
+    "model.layers.33.self_attn.q_norm.weight": "model-00023-of-00044.safetensors",
+    "model.layers.33.self_attn.q_proj.weight": "model-00024-of-00044.safetensors",
+    "model.layers.33.self_attn.v_proj.weight": "model-00024-of-00044.safetensors",
+    "model.layers.34.input_layernorm.weight": "model-00025-of-00044.safetensors",
+    "model.layers.34.mlp.down_proj.weight": "model-00025-of-00044.safetensors",
+    "model.layers.34.mlp.gate_proj.weight": "model-00024-of-00044.safetensors",
+    "model.layers.34.mlp.up_proj.weight": "model-00025-of-00044.safetensors",
+    "model.layers.34.self_attn.k_norm.weight": "model-00024-of-00044.safetensors",
+    "model.layers.34.self_attn.k_proj.weight": "model-00024-of-00044.safetensors",
+    "model.layers.34.self_attn.o_proj.weight": "model-00024-of-00044.safetensors",
+    "model.layers.34.self_attn.q_norm.weight": "model-00024-of-00044.safetensors",
+    "model.layers.34.self_attn.q_proj.weight": "model-00024-of-00044.safetensors",
+    "model.layers.34.self_attn.v_proj.weight": "model-00024-of-00044.safetensors",
+    "model.layers.35.input_layernorm.weight": "model-00025-of-00044.safetensors",
+    "model.layers.35.mlp.down_proj.weight": "model-00025-of-00044.safetensors",
+    "model.layers.35.mlp.gate_proj.weight": "model-00025-of-00044.safetensors",
+    "model.layers.35.mlp.up_proj.weight": "model-00025-of-00044.safetensors",
+    "model.layers.35.self_attn.k_norm.weight": "model-00025-of-00044.safetensors",
+    "model.layers.35.self_attn.k_proj.weight": "model-00025-of-00044.safetensors",
+    "model.layers.35.self_attn.o_proj.weight": "model-00025-of-00044.safetensors",
+    "model.layers.35.self_attn.q_norm.weight": "model-00025-of-00044.safetensors",
+    "model.layers.35.self_attn.q_proj.weight": "model-00025-of-00044.safetensors",
+    "model.layers.35.self_attn.v_proj.weight": "model-00025-of-00044.safetensors",
+    "model.layers.36.input_layernorm.weight": "model-00026-of-00044.safetensors",
+    "model.layers.36.mlp.down_proj.weight": "model-00026-of-00044.safetensors",
+    "model.layers.36.mlp.gate_proj.weight": "model-00026-of-00044.safetensors",
+    "model.layers.36.mlp.up_proj.weight": "model-00026-of-00044.safetensors",
+    "model.layers.36.self_attn.k_norm.weight": "model-00025-of-00044.safetensors",
+    "model.layers.36.self_attn.k_proj.weight": "model-00026-of-00044.safetensors",
+    "model.layers.36.self_attn.o_proj.weight": "model-00026-of-00044.safetensors",
+    "model.layers.36.self_attn.q_norm.weight": "model-00025-of-00044.safetensors",
+    "model.layers.36.self_attn.q_proj.weight": "model-00026-of-00044.safetensors",
+    "model.layers.36.self_attn.v_proj.weight": "model-00026-of-00044.safetensors",
+    "model.layers.37.input_layernorm.weight": "model-00027-of-00044.safetensors",
+    "model.layers.37.mlp.down_proj.weight": "model-00027-of-00044.safetensors",
+    "model.layers.37.mlp.gate_proj.weight": "model-00026-of-00044.safetensors",
+    "model.layers.37.mlp.up_proj.weight": "model-00027-of-00044.safetensors",
+    "model.layers.37.self_attn.k_norm.weight": "model-00026-of-00044.safetensors",
+    "model.layers.37.self_attn.k_proj.weight": "model-00026-of-00044.safetensors",
+    "model.layers.37.self_attn.o_proj.weight": "model-00026-of-00044.safetensors",
+    "model.layers.37.self_attn.q_norm.weight": "model-00026-of-00044.safetensors",
+    "model.layers.37.self_attn.q_proj.weight": "model-00026-of-00044.safetensors",
+    "model.layers.37.self_attn.v_proj.weight": "model-00026-of-00044.safetensors",
+    "model.layers.38.input_layernorm.weight": "model-00027-of-00044.safetensors",
+    "model.layers.38.mlp.down_proj.weight": "model-00027-of-00044.safetensors",
+    "model.layers.38.mlp.gate_proj.weight": "model-00027-of-00044.safetensors",
+    "model.layers.38.mlp.up_proj.weight": "model-00027-of-00044.safetensors",
+    "model.layers.38.self_attn.k_norm.weight": "model-00027-of-00044.safetensors",
+    "model.layers.38.self_attn.k_proj.weight": "model-00027-of-00044.safetensors",
+    "model.layers.38.self_attn.o_proj.weight": "model-00027-of-00044.safetensors",
+    "model.layers.38.self_attn.q_norm.weight": "model-00027-of-00044.safetensors",
+    "model.layers.38.self_attn.q_proj.weight": "model-00027-of-00044.safetensors",
+    "model.layers.38.self_attn.v_proj.weight": "model-00027-of-00044.safetensors",
+    "model.layers.39.input_layernorm.weight": "model-00028-of-00044.safetensors",
+    "model.layers.39.mlp.down_proj.weight": "model-00028-of-00044.safetensors",
+    "model.layers.39.mlp.gate_proj.weight": "model-00028-of-00044.safetensors",
+    "model.layers.39.mlp.up_proj.weight": "model-00028-of-00044.safetensors",
+    "model.layers.39.self_attn.k_norm.weight": "model-00027-of-00044.safetensors",
+    "model.layers.39.self_attn.k_proj.weight": "model-00028-of-00044.safetensors",
+    "model.layers.39.self_attn.o_proj.weight": "model-00028-of-00044.safetensors",
+    "model.layers.39.self_attn.q_norm.weight": "model-00027-of-00044.safetensors",
+    "model.layers.39.self_attn.q_proj.weight": "model-00028-of-00044.safetensors",
+    "model.layers.39.self_attn.v_proj.weight": "model-00028-of-00044.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00005-of-00044.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00005-of-00044.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00004-of-00044.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00005-of-00044.safetensors",
+    "model.layers.4.self_attn.k_norm.weight": "model-00004-of-00044.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00004-of-00044.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00004-of-00044.safetensors",
+    "model.layers.4.self_attn.q_norm.weight": "model-00004-of-00044.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00004-of-00044.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00004-of-00044.safetensors",
+    "model.layers.40.input_layernorm.weight": "model-00029-of-00044.safetensors",
+    "model.layers.40.mlp.down_proj.weight": "model-00029-of-00044.safetensors",
+    "model.layers.40.mlp.gate_proj.weight": "model-00028-of-00044.safetensors",
+    "model.layers.40.mlp.up_proj.weight": "model-00029-of-00044.safetensors",
+    "model.layers.40.self_attn.k_norm.weight": "model-00028-of-00044.safetensors",
+    "model.layers.40.self_attn.k_proj.weight": "model-00028-of-00044.safetensors",
+    "model.layers.40.self_attn.o_proj.weight": "model-00028-of-00044.safetensors",
+    "model.layers.40.self_attn.q_norm.weight": "model-00028-of-00044.safetensors",
+    "model.layers.40.self_attn.q_proj.weight": "model-00028-of-00044.safetensors",
+    "model.layers.40.self_attn.v_proj.weight": "model-00028-of-00044.safetensors",
+    "model.layers.41.input_layernorm.weight": "model-00029-of-00044.safetensors",
+    "model.layers.41.mlp.down_proj.weight": "model-00029-of-00044.safetensors",
+    "model.layers.41.mlp.gate_proj.weight": "model-00029-of-00044.safetensors",
+    "model.layers.41.mlp.up_proj.weight": "model-00029-of-00044.safetensors",
+    "model.layers.41.self_attn.k_norm.weight": "model-00029-of-00044.safetensors",
+    "model.layers.41.self_attn.k_proj.weight": "model-00029-of-00044.safetensors",
+    "model.layers.41.self_attn.o_proj.weight": "model-00029-of-00044.safetensors",
+    "model.layers.41.self_attn.q_norm.weight": "model-00029-of-00044.safetensors",
+    "model.layers.41.self_attn.q_proj.weight": "model-00029-of-00044.safetensors",
+    "model.layers.41.self_attn.v_proj.weight": "model-00029-of-00044.safetensors",
+    "model.layers.42.input_layernorm.weight": "model-00030-of-00044.safetensors",
+    "model.layers.42.mlp.down_proj.weight": "model-00030-of-00044.safetensors",
+    "model.layers.42.mlp.gate_proj.weight": "model-00030-of-00044.safetensors",
+    "model.layers.42.mlp.up_proj.weight": "model-00030-of-00044.safetensors",
+    "model.layers.42.self_attn.k_norm.weight": "model-00029-of-00044.safetensors",
+    "model.layers.42.self_attn.k_proj.weight": "model-00030-of-00044.safetensors",
+    "model.layers.42.self_attn.o_proj.weight": "model-00030-of-00044.safetensors",
+    "model.layers.42.self_attn.q_norm.weight": "model-00029-of-00044.safetensors",
+    "model.layers.42.self_attn.q_proj.weight": "model-00030-of-00044.safetensors",
+    "model.layers.42.self_attn.v_proj.weight": "model-00030-of-00044.safetensors",
+    "model.layers.43.input_layernorm.weight": "model-00031-of-00044.safetensors",
+    "model.layers.43.mlp.down_proj.weight": "model-00031-of-00044.safetensors",
+    "model.layers.43.mlp.gate_proj.weight": "model-00030-of-00044.safetensors",
+    "model.layers.43.mlp.up_proj.weight": "model-00031-of-00044.safetensors",
+    "model.layers.43.self_attn.k_norm.weight": "model-00030-of-00044.safetensors",
+    "model.layers.43.self_attn.k_proj.weight": "model-00030-of-00044.safetensors",
+    "model.layers.43.self_attn.o_proj.weight": "model-00030-of-00044.safetensors",
+    "model.layers.43.self_attn.q_norm.weight": "model-00030-of-00044.safetensors",
+    "model.layers.43.self_attn.q_proj.weight": "model-00030-of-00044.safetensors",
+    "model.layers.43.self_attn.v_proj.weight": "model-00030-of-00044.safetensors",
+    "model.layers.44.input_layernorm.weight": "model-00031-of-00044.safetensors",
+    "model.layers.44.mlp.down_proj.weight": "model-00031-of-00044.safetensors",
+    "model.layers.44.mlp.gate_proj.weight": "model-00031-of-00044.safetensors",
+    "model.layers.44.mlp.up_proj.weight": "model-00031-of-00044.safetensors",
+    "model.layers.44.self_attn.k_norm.weight": "model-00031-of-00044.safetensors",
+    "model.layers.44.self_attn.k_proj.weight": "model-00031-of-00044.safetensors",
+    "model.layers.44.self_attn.o_proj.weight": "model-00031-of-00044.safetensors",
+    "model.layers.44.self_attn.q_norm.weight": "model-00031-of-00044.safetensors",
+    "model.layers.44.self_attn.q_proj.weight": "model-00031-of-00044.safetensors",
+    "model.layers.44.self_attn.v_proj.weight": "model-00031-of-00044.safetensors",
+    "model.layers.45.input_layernorm.weight": "model-00032-of-00044.safetensors",
+    "model.layers.45.mlp.down_proj.weight": "model-00032-of-00044.safetensors",
+    "model.layers.45.mlp.gate_proj.weight": "model-00032-of-00044.safetensors",
+    "model.layers.45.mlp.up_proj.weight": "model-00032-of-00044.safetensors",
+    "model.layers.45.self_attn.k_norm.weight": "model-00031-of-00044.safetensors",
+    "model.layers.45.self_attn.k_proj.weight": "model-00032-of-00044.safetensors",
+    "model.layers.45.self_attn.o_proj.weight": "model-00032-of-00044.safetensors",
+    "model.layers.45.self_attn.q_norm.weight": "model-00031-of-00044.safetensors",
+    "model.layers.45.self_attn.q_proj.weight": "model-00032-of-00044.safetensors",
+    "model.layers.45.self_attn.v_proj.weight": "model-00032-of-00044.safetensors",
+    "model.layers.46.input_layernorm.weight": "model-00033-of-00044.safetensors",
+    "model.layers.46.mlp.down_proj.weight": "model-00033-of-00044.safetensors",
+    "model.layers.46.mlp.gate_proj.weight": "model-00032-of-00044.safetensors",
+    "model.layers.46.mlp.up_proj.weight": "model-00033-of-00044.safetensors",
+    "model.layers.46.self_attn.k_norm.weight": "model-00032-of-00044.safetensors",
+    "model.layers.46.self_attn.k_proj.weight": "model-00032-of-00044.safetensors",
+    "model.layers.46.self_attn.o_proj.weight": "model-00032-of-00044.safetensors",
+    "model.layers.46.self_attn.q_norm.weight": "model-00032-of-00044.safetensors",
+    "model.layers.46.self_attn.q_proj.weight": "model-00032-of-00044.safetensors",
+    "model.layers.46.self_attn.v_proj.weight": "model-00032-of-00044.safetensors",
+    "model.layers.47.input_layernorm.weight": "model-00033-of-00044.safetensors",
+    "model.layers.47.mlp.down_proj.weight": "model-00033-of-00044.safetensors",
+    "model.layers.47.mlp.gate_proj.weight": "model-00033-of-00044.safetensors",
+    "model.layers.47.mlp.up_proj.weight": "model-00033-of-00044.safetensors",
+    "model.layers.47.self_attn.k_norm.weight": "model-00033-of-00044.safetensors",
+    "model.layers.47.self_attn.k_proj.weight": "model-00033-of-00044.safetensors",
+    "model.layers.47.self_attn.o_proj.weight": "model-00033-of-00044.safetensors",
+    "model.layers.47.self_attn.q_norm.weight": "model-00033-of-00044.safetensors",
+    "model.layers.47.self_attn.q_proj.weight": "model-00033-of-00044.safetensors",
+    "model.layers.47.self_attn.v_proj.weight": "model-00033-of-00044.safetensors",
+    "model.layers.48.input_layernorm.weight": "model-00034-of-00044.safetensors",
+    "model.layers.48.mlp.down_proj.weight": "model-00034-of-00044.safetensors",
+    "model.layers.48.mlp.gate_proj.weight": "model-00034-of-00044.safetensors",
+    "model.layers.48.mlp.up_proj.weight": "model-00034-of-00044.safetensors",
+    "model.layers.48.self_attn.k_norm.weight": "model-00033-of-00044.safetensors",
+    "model.layers.48.self_attn.k_proj.weight": "model-00034-of-00044.safetensors",
+    "model.layers.48.self_attn.o_proj.weight": "model-00034-of-00044.safetensors",
+    "model.layers.48.self_attn.q_norm.weight": "model-00033-of-00044.safetensors",
+    "model.layers.48.self_attn.q_proj.weight": "model-00034-of-00044.safetensors",
+    "model.layers.48.self_attn.v_proj.weight": "model-00034-of-00044.safetensors",
+    "model.layers.49.input_layernorm.weight": "model-00035-of-00044.safetensors",
+    "model.layers.49.mlp.down_proj.weight": "model-00035-of-00044.safetensors",
+    "model.layers.49.mlp.gate_proj.weight": "model-00034-of-00044.safetensors",
+    "model.layers.49.mlp.up_proj.weight": "model-00035-of-00044.safetensors",
+    "model.layers.49.self_attn.k_norm.weight": "model-00034-of-00044.safetensors",
+    "model.layers.49.self_attn.k_proj.weight": "model-00034-of-00044.safetensors",
+    "model.layers.49.self_attn.o_proj.weight": "model-00034-of-00044.safetensors",
+    "model.layers.49.self_attn.q_norm.weight": "model-00034-of-00044.safetensors",
+    "model.layers.49.self_attn.q_proj.weight": "model-00034-of-00044.safetensors",
+    "model.layers.49.self_attn.v_proj.weight": "model-00034-of-00044.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00005-of-00044.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00005-of-00044.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00005-of-00044.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00005-of-00044.safetensors",
+    "model.layers.5.self_attn.k_norm.weight": "model-00005-of-00044.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00005-of-00044.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00005-of-00044.safetensors",
+    "model.layers.5.self_attn.q_norm.weight": "model-00005-of-00044.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00005-of-00044.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00005-of-00044.safetensors",
+    "model.layers.50.input_layernorm.weight": "model-00035-of-00044.safetensors",
+    "model.layers.50.mlp.down_proj.weight": "model-00035-of-00044.safetensors",
+    "model.layers.50.mlp.gate_proj.weight": "model-00035-of-00044.safetensors",
+    "model.layers.50.mlp.up_proj.weight": "model-00035-of-00044.safetensors",
+    "model.layers.50.self_attn.k_norm.weight": "model-00035-of-00044.safetensors",
+    "model.layers.50.self_attn.k_proj.weight": "model-00035-of-00044.safetensors",
+    "model.layers.50.self_attn.o_proj.weight": "model-00035-of-00044.safetensors",
+    "model.layers.50.self_attn.q_norm.weight": "model-00035-of-00044.safetensors",
+    "model.layers.50.self_attn.q_proj.weight": "model-00035-of-00044.safetensors",
+    "model.layers.50.self_attn.v_proj.weight": "model-00035-of-00044.safetensors",
+    "model.layers.51.input_layernorm.weight": "model-00036-of-00044.safetensors",
+    "model.layers.51.mlp.down_proj.weight": "model-00036-of-00044.safetensors",
+    "model.layers.51.mlp.gate_proj.weight": "model-00036-of-00044.safetensors",
+    "model.layers.51.mlp.up_proj.weight": "model-00036-of-00044.safetensors",
+    "model.layers.51.self_attn.k_norm.weight": "model-00035-of-00044.safetensors",
+    "model.layers.51.self_attn.k_proj.weight": "model-00036-of-00044.safetensors",
+    "model.layers.51.self_attn.o_proj.weight": "model-00036-of-00044.safetensors",
+    "model.layers.51.self_attn.q_norm.weight": "model-00035-of-00044.safetensors",
+    "model.layers.51.self_attn.q_proj.weight": "model-00036-of-00044.safetensors",
+    "model.layers.51.self_attn.v_proj.weight": "model-00036-of-00044.safetensors",
+    "model.layers.52.input_layernorm.weight": "model-00037-of-00044.safetensors",
+    "model.layers.52.mlp.down_proj.weight": "model-00037-of-00044.safetensors",
+    "model.layers.52.mlp.gate_proj.weight": "model-00036-of-00044.safetensors",
+    "model.layers.52.mlp.up_proj.weight": "model-00037-of-00044.safetensors",
+    "model.layers.52.self_attn.k_norm.weight": "model-00036-of-00044.safetensors",
+    "model.layers.52.self_attn.k_proj.weight": "model-00036-of-00044.safetensors",
+    "model.layers.52.self_attn.o_proj.weight": "model-00036-of-00044.safetensors",
+    "model.layers.52.self_attn.q_norm.weight": "model-00036-of-00044.safetensors",
+    "model.layers.52.self_attn.q_proj.weight": "model-00036-of-00044.safetensors",
+    "model.layers.52.self_attn.v_proj.weight": "model-00036-of-00044.safetensors",
+    "model.layers.53.input_layernorm.weight": "model-00037-of-00044.safetensors",
+    "model.layers.53.mlp.down_proj.weight": "model-00037-of-00044.safetensors",
+    "model.layers.53.mlp.gate_proj.weight": "model-00037-of-00044.safetensors",
+    "model.layers.53.mlp.up_proj.weight": "model-00037-of-00044.safetensors",
+    "model.layers.53.self_attn.k_norm.weight": "model-00037-of-00044.safetensors",
+    "model.layers.53.self_attn.k_proj.weight": "model-00037-of-00044.safetensors",
+    "model.layers.53.self_attn.o_proj.weight": "model-00037-of-00044.safetensors",
+    "model.layers.53.self_attn.q_norm.weight": "model-00037-of-00044.safetensors",
+    "model.layers.53.self_attn.q_proj.weight": "model-00037-of-00044.safetensors",
+    "model.layers.53.self_attn.v_proj.weight": "model-00037-of-00044.safetensors",
+    "model.layers.54.input_layernorm.weight": "model-00038-of-00044.safetensors",
+    "model.layers.54.mlp.down_proj.weight": "model-00038-of-00044.safetensors",
+    "model.layers.54.mlp.gate_proj.weight": "model-00038-of-00044.safetensors",
+    "model.layers.54.mlp.up_proj.weight": "model-00038-of-00044.safetensors",
+    "model.layers.54.self_attn.k_norm.weight": "model-00037-of-00044.safetensors",
+    "model.layers.54.self_attn.k_proj.weight": "model-00038-of-00044.safetensors",
+    "model.layers.54.self_attn.o_proj.weight": "model-00038-of-00044.safetensors",
+    "model.layers.54.self_attn.q_norm.weight": "model-00037-of-00044.safetensors",
+    "model.layers.54.self_attn.q_proj.weight": "model-00038-of-00044.safetensors",
+    "model.layers.54.self_attn.v_proj.weight": "model-00038-of-00044.safetensors",
+    "model.layers.55.input_layernorm.weight": "model-00039-of-00044.safetensors",
+    "model.layers.55.mlp.down_proj.weight": "model-00039-of-00044.safetensors",
+    "model.layers.55.mlp.gate_proj.weight": "model-00038-of-00044.safetensors",
+    "model.layers.55.mlp.up_proj.weight": "model-00039-of-00044.safetensors",
+    "model.layers.55.self_attn.k_norm.weight": "model-00038-of-00044.safetensors",
+    "model.layers.55.self_attn.k_proj.weight": "model-00038-of-00044.safetensors",
+    "model.layers.55.self_attn.o_proj.weight": "model-00038-of-00044.safetensors",
+    "model.layers.55.self_attn.q_norm.weight": "model-00038-of-00044.safetensors",
+    "model.layers.55.self_attn.q_proj.weight": "model-00038-of-00044.safetensors",
+    "model.layers.55.self_attn.v_proj.weight": "model-00038-of-00044.safetensors",
+    "model.layers.56.input_layernorm.weight": "model-00039-of-00044.safetensors",
+    "model.layers.56.mlp.down_proj.weight": "model-00039-of-00044.safetensors",
+    "model.layers.56.mlp.gate_proj.weight": "model-00039-of-00044.safetensors",
+    "model.layers.56.mlp.up_proj.weight": "model-00039-of-00044.safetensors",
+    "model.layers.56.self_attn.k_norm.weight": "model-00039-of-00044.safetensors",
+    "model.layers.56.self_attn.k_proj.weight": "model-00039-of-00044.safetensors",
+    "model.layers.56.self_attn.o_proj.weight": "model-00039-of-00044.safetensors",
+    "model.layers.56.self_attn.q_norm.weight": "model-00039-of-00044.safetensors",
+    "model.layers.56.self_attn.q_proj.weight": "model-00039-of-00044.safetensors",
+    "model.layers.56.self_attn.v_proj.weight": "model-00039-of-00044.safetensors",
+    "model.layers.57.input_layernorm.weight": "model-00040-of-00044.safetensors",
+    "model.layers.57.mlp.down_proj.weight": "model-00040-of-00044.safetensors",
+    "model.layers.57.mlp.gate_proj.weight": "model-00040-of-00044.safetensors",
+    "model.layers.57.mlp.up_proj.weight": "model-00040-of-00044.safetensors",
+    "model.layers.57.self_attn.k_norm.weight": "model-00039-of-00044.safetensors",
+    "model.layers.57.self_attn.k_proj.weight": "model-00040-of-00044.safetensors",
+    "model.layers.57.self_attn.o_proj.weight": "model-00040-of-00044.safetensors",
+    "model.layers.57.self_attn.q_norm.weight": "model-00039-of-00044.safetensors",
+    "model.layers.57.self_attn.q_proj.weight": "model-00040-of-00044.safetensors",
+    "model.layers.57.self_attn.v_proj.weight": "model-00040-of-00044.safetensors",
+    "model.layers.58.input_layernorm.weight": "model-00041-of-00044.safetensors",
+    "model.layers.58.mlp.down_proj.weight": "model-00041-of-00044.safetensors",
+    "model.layers.58.mlp.gate_proj.weight": "model-00040-of-00044.safetensors",
+    "model.layers.58.mlp.up_proj.weight": "model-00041-of-00044.safetensors",
+    "model.layers.58.self_attn.k_norm.weight": "model-00040-of-00044.safetensors",
+    "model.layers.58.self_attn.k_proj.weight": "model-00040-of-00044.safetensors",
+    "model.layers.58.self_attn.o_proj.weight": "model-00040-of-00044.safetensors",
+    "model.layers.58.self_attn.q_norm.weight": "model-00040-of-00044.safetensors",
+    "model.layers.58.self_attn.q_proj.weight": "model-00040-of-00044.safetensors",
+    "model.layers.58.self_attn.v_proj.weight": "model-00040-of-00044.safetensors",
+    "model.layers.59.input_layernorm.weight": "model-00041-of-00044.safetensors",
+    "model.layers.59.mlp.down_proj.weight": "model-00041-of-00044.safetensors",
+    "model.layers.59.mlp.gate_proj.weight": "model-00041-of-00044.safetensors",
+    "model.layers.59.mlp.up_proj.weight": "model-00041-of-00044.safetensors",
+    "model.layers.59.self_attn.k_norm.weight": "model-00041-of-00044.safetensors",
+    "model.layers.59.self_attn.k_proj.weight": "model-00041-of-00044.safetensors",
+    "model.layers.59.self_attn.o_proj.weight": "model-00041-of-00044.safetensors",
+    "model.layers.59.self_attn.q_norm.weight": "model-00041-of-00044.safetensors",
+    "model.layers.59.self_attn.q_proj.weight": "model-00041-of-00044.safetensors",
+    "model.layers.59.self_attn.v_proj.weight": "model-00041-of-00044.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00006-of-00044.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00006-of-00044.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00006-of-00044.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00006-of-00044.safetensors",
+    "model.layers.6.self_attn.k_norm.weight": "model-00005-of-00044.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00006-of-00044.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00006-of-00044.safetensors",
+    "model.layers.6.self_attn.q_norm.weight": "model-00005-of-00044.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00006-of-00044.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00006-of-00044.safetensors",
+    "model.layers.60.input_layernorm.weight": "model-00042-of-00044.safetensors",
+    "model.layers.60.mlp.down_proj.weight": "model-00042-of-00044.safetensors",
+    "model.layers.60.mlp.gate_proj.weight": "model-00042-of-00044.safetensors",
+    "model.layers.60.mlp.up_proj.weight": "model-00042-of-00044.safetensors",
+    "model.layers.60.self_attn.k_norm.weight": "model-00041-of-00044.safetensors",
+    "model.layers.60.self_attn.k_proj.weight": "model-00042-of-00044.safetensors",
+    "model.layers.60.self_attn.o_proj.weight": "model-00042-of-00044.safetensors",
+    "model.layers.60.self_attn.q_norm.weight": "model-00041-of-00044.safetensors",
+    "model.layers.60.self_attn.q_proj.weight": "model-00042-of-00044.safetensors",
+    "model.layers.60.self_attn.v_proj.weight": "model-00042-of-00044.safetensors",
+    "model.layers.61.input_layernorm.weight": "model-00043-of-00044.safetensors",
+    "model.layers.61.mlp.down_proj.weight": "model-00043-of-00044.safetensors",
+    "model.layers.61.mlp.gate_proj.weight": "model-00042-of-00044.safetensors",
+    "model.layers.61.mlp.up_proj.weight": "model-00043-of-00044.safetensors",
+    "model.layers.61.self_attn.k_norm.weight": "model-00042-of-00044.safetensors",
+    "model.layers.61.self_attn.k_proj.weight": "model-00042-of-00044.safetensors",
+    "model.layers.61.self_attn.o_proj.weight": "model-00042-of-00044.safetensors",
+    "model.layers.61.self_attn.q_norm.weight": "model-00042-of-00044.safetensors",
+    "model.layers.61.self_attn.q_proj.weight": "model-00042-of-00044.safetensors",
+    "model.layers.61.self_attn.v_proj.weight": "model-00042-of-00044.safetensors",
+    "model.layers.62.input_layernorm.weight": "model-00043-of-00044.safetensors",
+    "model.layers.62.mlp.down_proj.weight": "model-00043-of-00044.safetensors",
+    "model.layers.62.mlp.gate_proj.weight": "model-00043-of-00044.safetensors",
+    "model.layers.62.mlp.up_proj.weight": "model-00043-of-00044.safetensors",
+    "model.layers.62.self_attn.k_norm.weight": "model-00043-of-00044.safetensors",
+    "model.layers.62.self_attn.k_proj.weight": "model-00043-of-00044.safetensors",
+    "model.layers.62.self_attn.o_proj.weight": "model-00043-of-00044.safetensors",
+    "model.layers.62.self_attn.q_norm.weight": "model-00043-of-00044.safetensors",
+    "model.layers.62.self_attn.q_proj.weight": "model-00043-of-00044.safetensors",
+    "model.layers.62.self_attn.v_proj.weight": "model-00043-of-00044.safetensors",
+    "model.layers.63.input_layernorm.weight": "model-00044-of-00044.safetensors",
+    "model.layers.63.mlp.down_proj.weight": "model-00044-of-00044.safetensors",
+    "model.layers.63.mlp.gate_proj.weight": "model-00044-of-00044.safetensors",
+    "model.layers.63.mlp.up_proj.weight": "model-00044-of-00044.safetensors",
+    "model.layers.63.self_attn.k_norm.weight": "model-00043-of-00044.safetensors",
+    "model.layers.63.self_attn.k_proj.weight": "model-00044-of-00044.safetensors",
+    "model.layers.63.self_attn.o_proj.weight": "model-00044-of-00044.safetensors",
+    "model.layers.63.self_attn.q_norm.weight": "model-00043-of-00044.safetensors",
+    "model.layers.63.self_attn.q_proj.weight": "model-00044-of-00044.safetensors",
+    "model.layers.63.self_attn.v_proj.weight": "model-00044-of-00044.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00007-of-00044.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00007-of-00044.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00006-of-00044.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00007-of-00044.safetensors",
+    "model.layers.7.self_attn.k_norm.weight": "model-00006-of-00044.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00006-of-00044.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00006-of-00044.safetensors",
+    "model.layers.7.self_attn.q_norm.weight": "model-00006-of-00044.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00006-of-00044.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00006-of-00044.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00007-of-00044.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00007-of-00044.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00007-of-00044.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00007-of-00044.safetensors",
+    "model.layers.8.self_attn.k_norm.weight": "model-00007-of-00044.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00007-of-00044.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00007-of-00044.safetensors",
+    "model.layers.8.self_attn.q_norm.weight": "model-00007-of-00044.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00007-of-00044.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00007-of-00044.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00008-of-00044.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00008-of-00044.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00008-of-00044.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00008-of-00044.safetensors",
+    "model.layers.9.self_attn.k_norm.weight": "model-00007-of-00044.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00008-of-00044.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00008-of-00044.safetensors",
+    "model.layers.9.self_attn.q_norm.weight": "model-00007-of-00044.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00008-of-00044.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00008-of-00044.safetensors",
+    "model.norm.weight": "model-00044-of-00044.safetensors"
+  }
+}

output-00001-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bda88a45955217719e7addf939c30342807ff9430b82cd4c25e4b6af8c466596
+size 8566201176

output-00002-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f82dadbd9e0a8cc9587d0f4f1e5406edf77891dbb99900651a881ef85783dde
+size 8571660754

output-00003-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:455bbdbf78dbb1542afb820a1767cb6927f69d04629a6396732cb0b480be0258
+size 8544545724

output-00004-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cbc715f5ea9c23f24dad23627f2d1591d2da5593e2d9e5ce1c38737bb70aed66
+size 8558815360

output-00005-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:347e3f6a292473e756712e33f2ab3dbef69d4effe8cbb18631c6bd0660dc0605
+size 7746300694

output-00006-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2f4be94717f907ce7a21f273424577613eabe7262152fc1339c11e5d6766c819
+size 2482176096

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9619890aebac311d644236f49462d7f8618ebef7c7020c52645ccb597434a3c9
+size 16543645

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"add_bos_token": true, "add_eos_token": false, "bos_token": "<BOS_TOKEN>", "clean_up_tokenization_spaces": false, "eos_token": "<|END_OF_TURN_TOKEN|>", "legacy": true, "model_max_length": 1000000000000000019884624838656, "pad_token": "<PAD>", "sp_model_kwargs": {}, "spaces_between_special_tokens": false, "tokenizer_class": "CohereTokenizerFast", "unk_token": null, "use_default_system_prompt": false}