harshithsaiv
/

kv-cache-compression

memory-efficient

inference-optimization

4-bit precision

mixed-precision

Model card Files Files and versions

harshithsaiv commited on 9 days ago

Commit

8ee0ee4

·

verified ·

1 Parent(s): 38e5430

Update README.md

Files changed (1) hide show

README.md +25 -1

README.md CHANGED Viewed

@@ -1,3 +1,27 @@
 # Per-Head Mixed-Precision KV Cache Compression
 Calibrate once. Pack truly. Same quality.
@@ -199,4 +223,4 @@ Step 3 — Results
 MIT. Free to use, modify, and distribute.
-Built in one week on an A100 SXM4 40GB. Questions, issues, and PRs welcome.

+---
+license: mit
+datasets:
+- Salesforce/wikitext
+language:
+- en
+metrics:
+- perplexity
+base_model:
+- mistralai/Mistral-7B-Instruct-v0.3
+- meta-llama/Meta-Llama-3-8B-Instruct
+tags:
+- quantization
+- kv-cache
+- llm-inference
+- cuda
+- triton
+- memory-efficient
+- mitral
+- llama
+- inference-optimization
+- 4-bit
+- mixed-precision
+---
 # Per-Head Mixed-Precision KV Cache Compression
 Calibrate once. Pack truly. Same quality.
 MIT. Free to use, modify, and distribute.
+Built in one week on an A100 SXM4 40GB. Questions, issues, and PRs welcome.