BCCard
/

kanana-1.5-8b-instruct-2505-FP8-Dynamic

Text Generation

text-generation-inference

compressed-tensors

Model card Files Files and versions

sh2orc commited on May 23

Commit

fe80b54

·

verified ·

1 Parent(s): 74b63bf

Update README.md

Files changed (1) hide show

README.md +4 -4

README.md CHANGED Viewed

@@ -37,16 +37,16 @@ For reference, the Dense model can be used after compression with FP8 Dynamic.
 export NCCL_P2P_DISABLE=1
 ```
-In GPU 2 units,
 ```
 vllm serve BCCard/kanana-1.5-8b-instruct-2505-FP8-Dynamic \
   --tensor-parallel-size 2 \
   --gpu-memory-utilization 0.9  \
-  --max-model-len 8192 \
-  --enforce-eager \
   --api-key bccard \
-  --served-model-name kanana-1.5-8b-instruct
 ```
 ## 3. Quantization Code Walk‑Through (Shared Knowledges)

 export NCCL_P2P_DISABLE=1
 ```
+In GPU 2 units, with KV Cache 90%, Max token 32768
 ```
 vllm serve BCCard/kanana-1.5-8b-instruct-2505-FP8-Dynamic \
   --tensor-parallel-size 2 \
   --gpu-memory-utilization 0.9  \
+  --max-model-len 32768 \
+  --enforce-eager \
   --api-key bccard \
+  --served-model-name kanana-1.5-8b-instruct
 ```
 ## 3. Quantization Code Walk‑Through (Shared Knowledges)