Yujivus
/

Phi-4-Health-CoT-1.1-AWQ

4-bit precision

Model card Files Files and versions Community

Yujivus commited on 9 days ago

Commit

014e08b

·

verified ·

1 Parent(s): 9ad9b7c

Update README.md

Files changed (1) hide show

README.md +2 -2

README.md CHANGED Viewed

@@ -14,7 +14,7 @@ docker network create vllm
 docker run --runtime=nvidia --gpus all --network vllm --name vllm -v vllm_cache:/root/.cache/huggingface --env "HUGGING_FACE_HUB_TOKEN=..." --env "HF_HUB_ENABLE_HF_TRANSFER=0" -p 8000:8000 --ipc=host vllm/vllm-openai:latest --model Yujivus/Phi-4-Health-CoT-1.1-AWQ --quantization awq_marlin --dtype float16 --gpu_memory-utilization 0.95 --max-model-len 2500
 You can test vLLM's speed :
-""""
 import asyncio
 from openai import AsyncOpenAI
@@ -73,7 +73,7 @@ async def main():
 if __name__ == "__main__":
     asyncio.run(main())
-""""
 Since the model is quantized awq-gemm, you should see max throughtput for 8 requests.

 docker run --runtime=nvidia --gpus all --network vllm --name vllm -v vllm_cache:/root/.cache/huggingface --env "HUGGING_FACE_HUB_TOKEN=..." --env "HF_HUB_ENABLE_HF_TRANSFER=0" -p 8000:8000 --ipc=host vllm/vllm-openai:latest --model Yujivus/Phi-4-Health-CoT-1.1-AWQ --quantization awq_marlin --dtype float16 --gpu_memory-utilization 0.95 --max-model-len 2500
 You can test vLLM's speed :
 import asyncio
 from openai import AsyncOpenAI
 if __name__ == "__main__":
     asyncio.run(main())
 Since the model is quantized awq-gemm, you should see max throughtput for 8 requests.