Tổng Quan Mô Hình

Mô Tả

NVIDIA Qwen3-8B FP4 là phiên bản lượng tử hóa của mô hình Qwen3-8B do Alibaba phát triển — một mô hình ngôn ngữ tự hồi quy sử dụng kiến trúc transformer được tối ưu hóa. Để biết thêm thông tin về mô hình gốc, vui lòng xem tại đây. Mô hình được lượng tử hóa bằng TensorRT Model Optimizer của NVIDIA.

Mô hình này sẵn sàng cho cả mục đích thương mại lẫn phi thương mại.

Lưu Ý Cộng Đồng Bên Thứ Ba

Mô hình này không thuộc sở hữu hoặc do NVIDIA phát triển. Mô hình được xây dựng theo yêu cầu của bên thứ ba cho ứng dụng và trường hợp sử dụng cụ thể; xem thêm Model Card của Qwen3-8B.

Giấy Phép Sử Dụng

Việc sử dụng mô hình này tuân theo Giấy phép Apache 2.0.

Phạm Vi Triển Khai

Toàn cầu.

Trường Hợp Sử Dụng

Dành cho các nhà phát triển muốn sử dụng các mô hình đã được lượng tử hóa sẵn để triển khai trong các hệ thống AI Agent, chatbot, RAG và các ứng dụng AI khác.

Ngày Phát Hành

HuggingFace: 15/09/2025 tại https://huggingface.co/nvidia/Qwen3-8B-FP4

Kiến Trúc Mô Hình

Loại kiến trúc: Transformers
Kiến trúc mạng: Qwen3-8B
Số lượng tham số: 8,2 × 10⁹

Đầu Vào

Loại: Văn bản
Định dạng: Chuỗi ký tự (String)
Tham số: Chuỗi 1 chiều (1D Sequences)
Độ dài ngữ cảnh tối đa: 131K token

Đầu Ra

Loại: Văn bản
Định dạng: Chuỗi ký tự (String)
Tham số: Chuỗi 1 chiều (1D Sequences)

Các mô hình AI của NVIDIA được thiết kế và tối ưu hóa để chạy trên hệ thống có GPU NVIDIA. Bằng cách tận dụng phần cứng (nhân GPU) và framework phần mềm (thư viện CUDA) của NVIDIA, mô hình đạt tốc độ huấn luyện và suy luận nhanh hơn so với giải pháp chỉ dùng CPU.

Tích Hợp Phần Mềm

Runtime được hỗ trợ: TensorRT-LLM, vLLM
Kiến trúc phần cứng tương thích: NVIDIA Blackwell
Hệ điều hành khuyến nghị: Linux

Phiên Bản Mô Hình

Mô hình được lượng tử hóa bằng nvidia-modelopt v0.35.0.

Lượng Tử Hóa Sau Huấn Luyện (PTQ)

Mô hình được tạo ra bằng cách lượng tử hóa trọng số và kích hoạt của Qwen3-8B xuống kiểu dữ liệu FP4, sẵn sàng cho suy luận với TensorRT-LLM. Chỉ các trọng số và kích hoạt của toán tử tuyến tính trong các khối transformer được lượng tử hóa.

Tập Dữ Liệu

Tập Dữ Liệu Hiệu Chỉnh (Calibration)

Nguồn: cnn_dailymail
Phương pháp thu thập: Tự động
Phương pháp gán nhãn: Tự động

Tập Dữ Liệu Huấn Luyện & Kiểm Thử

Không được công bố.

Suy Luận (Inference)

Engine: TensorRT-LLM
Phần cứng kiểm thử: B200

Các Tệp Trong Kho Lưu Trữ

`app.py` — Máy Chủ vLLM

Khởi động một máy chủ HTTP tương thích OpenAI API sử dụng vLLM để phục vụ mô hình Qwen3-8B NVFP4.

Cách chạy:

python app.py

Máy chủ sẽ lắng nghe tại http://localhost:8000 với các endpoint:

GET /health — kiểm tra trạng thái máy chủ
GET /v1/models — liệt kê mô hình
POST /v1/chat/completions — hoàn thành hội thoại (chat)
POST /v1/completions — hoàn thành văn bản (text)

Các tham số khởi động chính:

Tham số	Giá trị	Mô tả
`--quantization`	`fp4`	Lượng tử hóa FP4
`--max-model-len`	`4096`	Độ dài ngữ cảnh tối đa
`--gpu-memory-utilization`	`0.7`	Sử dụng 70% bộ nhớ GPU
`--cpu-offload-gb`	`3`	Offload 3 GB sang CPU RAM
`--attention-backend`	`triton_attn`	Backend attention bằng Triton

`test_server.py` — Kiểm Thử Máy Chủ

Bộ smoke test đơn giản để xác minh máy chủ hoạt động đúng sau khi khởi động.

Cách chạy:

# Khởi động máy chủ trước
python app.py

# Sau đó chạy kiểm thử
pytest test_server.py -v

Các bài kiểm thử:

Test	Mô tả
`test_health`	Kiểm tra endpoint `/health` trả về HTTP 200
`test_model_listed`	Kiểm tra mô hình xuất hiện trong `/v1/models`
`test_chat_completion`	Kiểm tra `/v1/chat/completions` trả về văn bản hợp lệ
`test_text_completion`	Kiểm tra `/v1/completions` trả về văn bản hợp lệ
`test_stop_reason_is_set`	Kiểm tra trường `finish_reason` được đặt đúng

Sử Dụng Nhanh

Triển Khai với vLLM (qua `app.py`)

python app.py

Gọi API sau khi máy chủ khởi động:

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="unused")

response = client.chat.completions.create(
    model="nvidia/Qwen3-8B-NVFP4",
    messages=[{"role": "user", "content": "Xin chào!"}],
    max_tokens=256,
    temperature=0.7,
)
print(response.choices[0].message.content)

Triển Khai với TensorRT-LLM

from tensorrt_llm import LLM, SamplingParams

llm = LLM(model="nvidia/Qwen3-8B-FP4")
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)

prompts = ["Thủ đô của Việt Nam là", "Trí tuệ nhân tạo là"]
outputs = llm.generate(prompts, sampling_params)

for output in outputs:
    print(f"Prompt: {output.prompt!r}")
    print(f"Kết quả: {output.outputs[0].text!r}")

Cân Nhắc Đạo Đức

NVIDIA tin rằng AI đáng tin cậy là trách nhiệm chung. Khi tải xuống hoặc sử dụng theo điều khoản dịch vụ, các nhà phát triển nên phối hợp với nhóm mô hình nội bộ để đảm bảo mô hình này đáp ứng các yêu cầu cho ngành và trường hợp sử dụng liên quan, đồng thời xử lý các nguy cơ lạm dụng không lường trước.

Vui lòng báo cáo các vấn đề về chất lượng mô hình, rủi ro, lỗ hổng bảo mật hoặc mối lo ngại về AI của NVIDIA.

Downloads last month: 28

Safetensors

Model size

5B params

Tensor type

BF16

F8_E4M3

Model tree for hungtrieu07/Qwen3-8B-NVFP4

Base model

Qwen/Qwen3-8B-Base

Finetuned

Qwen/Qwen3-8B

Quantized

(329)

this model