Tổng Quan Mô Hình
Mô Tả
NVIDIA Qwen3-8B FP4 là phiên bản lượng tử hóa của mô hình Qwen3-8B do Alibaba phát triển — một mô hình ngôn ngữ tự hồi quy sử dụng kiến trúc transformer được tối ưu hóa. Để biết thêm thông tin về mô hình gốc, vui lòng xem tại đây. Mô hình được lượng tử hóa bằng TensorRT Model Optimizer của NVIDIA.
Mô hình này sẵn sàng cho cả mục đích thương mại lẫn phi thương mại.
Lưu Ý Cộng Đồng Bên Thứ Ba
Mô hình này không thuộc sở hữu hoặc do NVIDIA phát triển. Mô hình được xây dựng theo yêu cầu của bên thứ ba cho ứng dụng và trường hợp sử dụng cụ thể; xem thêm Model Card của Qwen3-8B.
Giấy Phép Sử Dụng
Việc sử dụng mô hình này tuân theo Giấy phép Apache 2.0.
Phạm Vi Triển Khai
Toàn cầu.
Trường Hợp Sử Dụng
Dành cho các nhà phát triển muốn sử dụng các mô hình đã được lượng tử hóa sẵn để triển khai trong các hệ thống AI Agent, chatbot, RAG và các ứng dụng AI khác.
Ngày Phát Hành
HuggingFace: 15/09/2025 tại https://huggingface.co/nvidia/Qwen3-8B-FP4
Kiến Trúc Mô Hình
- Loại kiến trúc: Transformers
- Kiến trúc mạng: Qwen3-8B
- Số lượng tham số: 8,2 × 10⁹
Đầu Vào
- Loại: Văn bản
- Định dạng: Chuỗi ký tự (String)
- Tham số: Chuỗi 1 chiều (1D Sequences)
- Độ dài ngữ cảnh tối đa: 131K token
Đầu Ra
- Loại: Văn bản
- Định dạng: Chuỗi ký tự (String)
- Tham số: Chuỗi 1 chiều (1D Sequences)
Các mô hình AI của NVIDIA được thiết kế và tối ưu hóa để chạy trên hệ thống có GPU NVIDIA. Bằng cách tận dụng phần cứng (nhân GPU) và framework phần mềm (thư viện CUDA) của NVIDIA, mô hình đạt tốc độ huấn luyện và suy luận nhanh hơn so với giải pháp chỉ dùng CPU.
Tích Hợp Phần Mềm
- Runtime được hỗ trợ: TensorRT-LLM, vLLM
- Kiến trúc phần cứng tương thích: NVIDIA Blackwell
- Hệ điều hành khuyến nghị: Linux
Phiên Bản Mô Hình
Mô hình được lượng tử hóa bằng nvidia-modelopt v0.35.0.
Lượng Tử Hóa Sau Huấn Luyện (PTQ)
Mô hình được tạo ra bằng cách lượng tử hóa trọng số và kích hoạt của Qwen3-8B xuống kiểu dữ liệu FP4, sẵn sàng cho suy luận với TensorRT-LLM. Chỉ các trọng số và kích hoạt của toán tử tuyến tính trong các khối transformer được lượng tử hóa.
Tập Dữ Liệu
Tập Dữ Liệu Hiệu Chỉnh (Calibration)
- Nguồn: cnn_dailymail
- Phương pháp thu thập: Tự động
- Phương pháp gán nhãn: Tự động
Tập Dữ Liệu Huấn Luyện & Kiểm Thử
Không được công bố.
Suy Luận (Inference)
- Engine: TensorRT-LLM
- Phần cứng kiểm thử: B200
Các Tệp Trong Kho Lưu Trữ
app.py — Máy Chủ vLLM
Khởi động một máy chủ HTTP tương thích OpenAI API sử dụng vLLM để phục vụ mô hình Qwen3-8B NVFP4.
Cách chạy:
python app.py
Máy chủ sẽ lắng nghe tại http://localhost:8000 với các endpoint:
GET /health— kiểm tra trạng thái máy chủGET /v1/models— liệt kê mô hìnhPOST /v1/chat/completions— hoàn thành hội thoại (chat)POST /v1/completions— hoàn thành văn bản (text)
Các tham số khởi động chính:
| Tham số | Giá trị | Mô tả |
|---|---|---|
--quantization |
fp4 |
Lượng tử hóa FP4 |
--max-model-len |
4096 |
Độ dài ngữ cảnh tối đa |
--gpu-memory-utilization |
0.7 |
Sử dụng 70% bộ nhớ GPU |
--cpu-offload-gb |
3 |
Offload 3 GB sang CPU RAM |
--attention-backend |
triton_attn |
Backend attention bằng Triton |
test_server.py — Kiểm Thử Máy Chủ
Bộ smoke test đơn giản để xác minh máy chủ hoạt động đúng sau khi khởi động.
Cách chạy:
# Khởi động máy chủ trước
python app.py
# Sau đó chạy kiểm thử
pytest test_server.py -v
Các bài kiểm thử:
| Test | Mô tả |
|---|---|
test_health |
Kiểm tra endpoint /health trả về HTTP 200 |
test_model_listed |
Kiểm tra mô hình xuất hiện trong /v1/models |
test_chat_completion |
Kiểm tra /v1/chat/completions trả về văn bản hợp lệ |
test_text_completion |
Kiểm tra /v1/completions trả về văn bản hợp lệ |
test_stop_reason_is_set |
Kiểm tra trường finish_reason được đặt đúng |
Sử Dụng Nhanh
Triển Khai với vLLM (qua app.py)
python app.py
Gọi API sau khi máy chủ khởi động:
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="unused")
response = client.chat.completions.create(
model="nvidia/Qwen3-8B-NVFP4",
messages=[{"role": "user", "content": "Xin chào!"}],
max_tokens=256,
temperature=0.7,
)
print(response.choices[0].message.content)
Triển Khai với TensorRT-LLM
from tensorrt_llm import LLM, SamplingParams
llm = LLM(model="nvidia/Qwen3-8B-FP4")
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
prompts = ["Thủ đô của Việt Nam là", "Trí tuệ nhân tạo là"]
outputs = llm.generate(prompts, sampling_params)
for output in outputs:
print(f"Prompt: {output.prompt!r}")
print(f"Kết quả: {output.outputs[0].text!r}")
Cân Nhắc Đạo Đức
NVIDIA tin rằng AI đáng tin cậy là trách nhiệm chung. Khi tải xuống hoặc sử dụng theo điều khoản dịch vụ, các nhà phát triển nên phối hợp với nhóm mô hình nội bộ để đảm bảo mô hình này đáp ứng các yêu cầu cho ngành và trường hợp sử dụng liên quan, đồng thời xử lý các nguy cơ lạm dụng không lường trước.
Vui lòng báo cáo các vấn đề về chất lượng mô hình, rủi ro, lỗ hổng bảo mật hoặc mối lo ngại về AI của NVIDIA.
- Downloads last month
- 28