noneUsername
/

Mistral-Nemo-Instruct-2407-W8A8-Dynamic-Per-Token

8-bit precision

Model card Files Files and versions Community

noneUsername commited on Oct 6, 2024

Commit

daf9278

·

verified ·

1 Parent(s): 309501d

Update README.md

Files changed (1) hide show

README.md +3 -0

README.md CHANGED Viewed

@@ -1,3 +1,6 @@
 My first quantization uses the quantization method provided by vllm:
 https://docs.vllm.ai/en/latest/quantization/int8.html

+Note: This model is no longer the optimal W8A8 quantization, please consider using a better quantization model I made later:
+noneUsername/Mistral-Nemo-Instruct-2407-W8A8-Dynamic-Per-Token-better
 My first quantization uses the quantization method provided by vllm:
 https://docs.vllm.ai/en/latest/quantization/int8.html