ig1
/

QwQ-32B-FP8-Dynamic

compressed-tensors

Model card Files Files and versions Community

ig1sa commited on 4 days ago

Commit

c131994

·

verified ·

1 Parent(s): 1c3d8b3

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -6,5 +6,5 @@ base_model:
 Example run:
 ```bash
-docker run --rm --runtime nvidia --gpus 'all' --ipc=host -e VLLM_WORKER_MULTIPROC_METHOD=spawn -e 'HF_TOKEN' -v '/data/hf_cache:/root/.cache/huggingface' -v '/data/llmcompressor/output/QwQ-32B-FP8-Dynamic:/model' -p 127.0.0.1:8000:8000 "vllm/vllm-openai:v0.7.3" --model 'ig1/QwQ-32B-FP8-Dynamic' --served-model-name 'QwQ-32B' --enable-reasoning --reasoning-parser deepseek_r1 --override-generation-config '{"temperature":0.6,"top_p":0.95}'
 ```

 Example run:
 ```bash
+docker run --rm --runtime nvidia --gpus 'all' -e VLLM_WORKER_MULTIPROC_METHOD=spawn -e 'HF_TOKEN' -v '/root/.cache/huggingface:/root/.cache/huggingface' -p 127.0.0.1:8000:8000 "vllm/vllm-openai:v0.7.3" --model 'ig1/QwQ-32B-FP8-Dynamic' --served-model-name 'QwQ-32B' --enable-reasoning --reasoning-parser deepseek_r1 --override-generation-config '{"temperature":0.6,"top_p":0.95}'
 ```