neuralmagic
/

Mixtral-8x22B-Instruct-v0.1-FP8

@@ -14,15 +14,15 @@ license: apache-2.0
 - **Model Optimizations:**
   - **Weight quantization:** FP8
   - **Activation quantization:** FP8
-- **Intended Use Cases:** Intended for commercial and research use in English. Similarly to [Meta-Llama-3-7B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3-7B-Instruct), this models is intended for assistant-like chat.
 - **Out-of-scope:** Use in any manner that violates applicable laws or regulations (including trade compliance laws). Use in languages other than English.
-- **Release Date:** 6/8/2024
-- **Version:** 1.0
 - **License(s):** [apache-2.0](https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/apache-2.0.md)
 - **Model Developers:** Neural Magic
 Quantized version of [Mixtral-8x22B-Instruct-v0.1](https://huggingface.co/mistralai/Mixtral-8x22B-Instruct-v0.1).
-It achieves an average score of 78.47 on the [OpenLLM](https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard) benchmark (version 1), whereas the unquantized model achieves 79.15.
 ### Model Optimizations
@@ -88,7 +88,7 @@ examples = tokenizer(examples, padding=True, truncation=True, return_tensors="pt
 quantize_config = BaseQuantizeConfig(
     quant_method="fp8",
-    activation_scheme="static"
     ignore_patterns=["re:.*lm_head", "re:.*block_sparse_moe.gate"],
 )
@@ -105,7 +105,7 @@ The model was evaluated on the [OpenLLM](https://huggingface.co/spaces/open-llm-
 ```
 lm_eval \
   --model vllm \
-  --model_args pretrained="neuralmagic/Mixtral-8x22B-Instruct-v0.1-FP8",dtype=auto,gpu_memory_utilization=0.4,add_bos_token=True,max_model_len=4096 \
   --tasks openllm \
   --batch_size auto
 ```
@@ -127,71 +127,71 @@ lm_eval \
   <tr>
    <td>MMLU (5-shot)
    </td>
-   <td>77.77
    </td>
-   <td>76.08
    </td>
-   <td>97.82%
    </td>
   </tr>
   <tr>
    <td>ARC Challenge (25-shot)
    </td>
-   <td>72.70
    </td>
-   <td>72.53
    </td>
-   <td>99.76%
    </td>
   </tr>
   <tr>
    <td>GSM-8K (5-shot, strict-match)
    </td>
-   <td>82.03
    </td>
-   <td>83.40
    </td>
-   <td>101.6%
    </td>
   </tr>
   <tr>
    <td>Hellaswag (10-shot)
    </td>
-   <td>89.08
    </td>
-   <td>88.10
    </td>
-   <td>98.89%
    </td>
   </tr>
   <tr>
    <td>Winogrande (5-shot)
    </td>
-   <td>85.16
    </td>
-   <td>84.37
    </td>
-   <td>99.07%
    </td>
   </tr>
   <tr>
    <td>TruthfulQA (0-shot)
    </td>
-   <td>68.14
    </td>
-   <td>66.32
    </td>
-   <td>97.32%
    </td>
   </tr>
   <tr>
    <td><strong>Average</strong>
    </td>
-   <td><strong>79.15</strong>
    </td>
-   <td><strong>78.47</strong>
    </td>
-   <td><strong>99.14%</strong>
    </td>
   </tr>
 </table>

 - **Model Optimizations:**
   - **Weight quantization:** FP8
   - **Activation quantization:** FP8
+- **Intended Use Cases:** Intended for commercial and research use in English. Similarly to [Meta-Llama-3-8B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct), this models is intended for assistant-like chat.
 - **Out-of-scope:** Use in any manner that violates applicable laws or regulations (including trade compliance laws). Use in languages other than English.
+- **Release Date:** 8/11/2024
+- **Version:** 1.1
 - **License(s):** [apache-2.0](https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/apache-2.0.md)
 - **Model Developers:** Neural Magic
 Quantized version of [Mixtral-8x22B-Instruct-v0.1](https://huggingface.co/mistralai/Mixtral-8x22B-Instruct-v0.1).
+It achieves an average score of 79.04 on the [OpenLLM](https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard) benchmark (version 1), whereas the unquantized model achieves 79.93.
 ### Model Optimizations
 quantize_config = BaseQuantizeConfig(
     quant_method="fp8",
+    activation_scheme="static",
     ignore_patterns=["re:.*lm_head", "re:.*block_sparse_moe.gate"],
 )
 ```
 lm_eval \
   --model vllm \
+  --model_args pretrained="neuralmagic/Mixtral-8x22B-Instruct-v0.1-FP8",tensor_parallel_size=4,dtype=auto,gpu_memory_utilization=0.8,add_bos_token=True,max_model_len=4096 \
   --tasks openllm \
   --batch_size auto
 ```
   <tr>
    <td>MMLU (5-shot)
    </td>
+   <td>77.71
    </td>
+   <td>77.03
    </td>
+   <td>99.12%
    </td>
   </tr>
   <tr>
    <td>ARC Challenge (25-shot)
    </td>
+   <td>73.38
    </td>
+   <td>73.04
    </td>
+   <td>99.54%
    </td>
   </tr>
   <tr>
    <td>GSM-8K (5-shot, strict-match)
    </td>
+   <td>84.99
    </td>
+   <td>83.62
    </td>
+   <td>98.39%
    </td>
   </tr>
   <tr>
    <td>Hellaswag (10-shot)
    </td>
+   <td>89.24
    </td>
+   <td>88.22
    </td>
+   <td>98.86%
    </td>
   </tr>
   <tr>
    <td>Winogrande (5-shot)
    </td>
+   <td>85.87
    </td>
+   <td>84.93
    </td>
+   <td>98.91%
    </td>
   </tr>
   <tr>
    <td>TruthfulQA (0-shot)
    </td>
+   <td>68.41
    </td>
+   <td>67.37
    </td>
+   <td>98.48%
    </td>
   </tr>
   <tr>
    <td><strong>Average</strong>
    </td>
+   <td><strong>79.93</strong>
    </td>
+   <td><strong>79.04</strong>
    </td>
+   <td><strong>98.88%</strong>
    </td>
   </tr>
 </table>