Update README.md

Files changed (1) hide show

README.md CHANGED Viewed

@@ -85,8 +85,13 @@ quant_stage:
                         dynamic: false
                         symmetric: true
                     targets: ["Linear"]
 """
 model_stub = "NousResearch/Hermes-3-Llama-3.1-8B"
 model_name = model_stub.split("/")[-1]
@@ -99,7 +104,7 @@ model = SparseAutoModelForCausalLM.from_pretrained(
 )
 tokenizer = AutoTokenizer.from_pretrained(model_stub)
-output_dir = f"./{model_name}-FP8"
 DATASET_ID = "HuggingFaceH4/ultrachat_200k"
 DATASET_SPLIT = "train_sft"
@@ -140,6 +145,7 @@ oneshot(
     save_compressed=True,
 )
 ```

                         dynamic: false
                         symmetric: true
                     targets: ["Linear"]
+            kv_cache_scheme:
+                num_bits: 8
+                type: float
+                strategy: tensor
+                dynamic: false
+                symmetric: true
 """
 model_stub = "NousResearch/Hermes-3-Llama-3.1-8B"
 model_name = model_stub.split("/")[-1]
 )
 tokenizer = AutoTokenizer.from_pretrained(model_stub)
+output_dir = f"./{model_name}-Static-FP8-KV"
 DATASET_ID = "HuggingFaceH4/ultrachat_200k"
 DATASET_SPLIT = "train_sft"
     save_compressed=True,
 )
 ```