GGUF
conversational

β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘
β–‘β–‘β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–‘β–‘
β–‘β–‘β–’β–’β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–’β–’β–‘β–‘
β–‘β–‘β–’β–’β–“β–“                                                          β–“β–“β–’β–’β–‘β–‘
β–‘β–‘β–’β–’β–“β–“    .                    *            .          Β·        β–“β–“β–’β–’β–‘β–‘
β–‘β–‘β–’β–’β–“β–“                                                          β–“β–“β–’β–’β–‘β–‘
β–‘β–‘β–’β–’β–“β–“   β–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ•— β–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ•—β–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ•—β–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ•—  β–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ•— β–ˆβ–ˆβ•— β–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ•—     β–“β–“β–’β–’β–‘β–‘
β–‘β–‘β–’β–’β–“β–“  β–ˆβ–ˆβ•”β•β•β–ˆβ–ˆβ•—β–ˆβ–ˆβ•”β•β•β•β•β•β•šβ•β•β–ˆβ–ˆβ•”β•β•β•β–ˆβ–ˆβ•”β•β•β–ˆβ–ˆβ•—β–ˆβ–ˆβ•”β•β•β–ˆβ–ˆβ•—β–ˆβ–ˆβ•‘β–ˆβ–ˆβ•”β•β•β–ˆβ–ˆβ•—    β–“β–“β–’β–’β–‘β–‘
β–‘β–‘β–’β–’β–“β–“  β–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ•‘β–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ•—   β–ˆβ–ˆβ•‘   β–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ•”β•β–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ•‘β–ˆβ–ˆβ•‘β–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ•‘    β–“β–“β–’β–’β–‘β–‘
β–‘β–‘β–’β–’β–“β–“  β–ˆβ–ˆβ•”β•β•β–ˆβ–ˆβ•‘β•šβ•β•β•β•β–ˆβ–ˆβ•‘   β–ˆβ–ˆβ•‘   β–ˆβ–ˆβ•”β•β•β–ˆβ–ˆβ•—β–ˆβ–ˆβ•”β•β•β–ˆβ–ˆβ•‘β–ˆβ–ˆβ•‘β–ˆβ–ˆβ•”β•β•β–ˆβ–ˆβ•‘    β–“β–“β–’β–’β–‘β–‘
β–‘β–‘β–’β–’β–“β–“  β–ˆβ–ˆβ•‘  β–ˆβ–ˆβ•‘β–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ•‘   β–ˆβ–ˆβ•‘   β–ˆβ–ˆβ•‘  β–ˆβ–ˆβ•‘β–ˆβ–ˆβ•‘  β–ˆβ–ˆβ•‘β–ˆβ–ˆβ•‘β–ˆβ–ˆβ•‘  β–ˆβ–ˆβ•‘    β–“β–“β–’β–’β–‘β–‘
β–‘β–‘β–’β–’β–“β–“  β•šβ•β•  β•šβ•β•β•šβ•β•β•β•β•β•β•   β•šβ•β•   β•šβ•β•  β•šβ•β•β•šβ•β•  β•šβ•β•β•šβ•β•β•šβ•β•  β•šβ•β•    β–“β–“β–’β–’β–‘β–‘
β–‘β–‘β–’β–’β–“β–“                                                          β–“β–“β–’β–’β–‘β–‘
β–‘β–‘β–’β–’β–“β–“                     -  MMXXVI  -                         β–“β–“β–’β–’β–‘β–‘
β–‘β–‘β–’β–’β–“β–“                                                          β–“β–“β–’β–’β–‘β–‘
β–‘β–‘β–’β–’β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–“β–’β–’β–‘β–‘
β–‘β–‘β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–’β–‘β–‘
β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘β–‘
╔══════════════════════════════════════════════════════════════════════╗
β•‘                                                                      β•‘
β•‘      β–‘β–’β–“β–ˆ  Q W E N 3 . 5 - 4 B  Β·  G G U F  R E L E A S E  β–ˆβ–“β–’β–‘      β•‘
β•‘                                                                      β•‘
β•‘   ──────────────────────────────────────────────────────────────     β•‘
β•‘                a   s   t   r   a   i   a       a   i                 β•‘
β•‘   ──────────────────────────────────────────────────────────────     β•‘
β•‘                                                                      β•‘
β•‘         release ...: Qwen3.5-4B-GGUF                                 β•‘
β•‘         format ....: GGUF (llama.cpp / ggml)                         β•‘
β•‘         params ....: ~4.0B                                           β•‘
β•‘         base model : Qwen/Qwen3.5-4B                                 β•‘
β•‘         Improvised by ....: AstraiaAI                                β•‘
β•‘         size .pkg .: 21.9 GB total                                   β•‘
β•‘                                                                      β•‘
β•šβ•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•

Overall Model Intelligence Score: 0.765 Stirlings (Equivalent to roughly 76% of human expert performance). Complete report: Engram.md

   .------------------------------------------------------------------.
  /  > 0x01   A B O U T   T H I S   R E L E A S E                      \
 /____________________________________________________________________/

These are GGUF quantizations of Qwen3.5-4B, intended for fast local inference with llama.cpp, LM Studio, Ollama, text-generation-webui, koboldcpp, and anything else that speaks ggml.

Two flavors ship in this repo:

   β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”¬β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”
   β”‚  FLAVOR                   β”‚  BEHAVIOR                              β”‚
   β”œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”Όβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€
   β”‚  Qwen3.5-4B               β”‚   stock build β€” reasoning / thinking   β”‚
   β”‚                           β”‚   traces enabled per upstream config   β”‚
   β”œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”Όβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€
   β”‚  _NO_REASONING_DEFAULTS   β”‚   same weights, baked-in defaults set  β”‚
   β”‚                           β”‚   to suppress chain-of-thought output  β”‚
   β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”΄β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜

Pick the plain build if you want the model to "think" before answering. Pick NO_REASONING_DEFAULTS if you want terse, direct replies out of the box without flipping flags every session.

 β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”¬β”€β”€β”€β”€β”€β”€β”€β”€β”€β”¬β”€β”€β”€β”€β”€β”€β”
 β”‚  FILE                                                  β”‚  SIZE   β”‚ BITS β”‚
 β”œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”Όβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”Όβ”€β”€β”€β”€β”€β”€β”€
 β”‚  Qwen3.5-4B-Q4_K_M.gguf                                β”‚ 2.78 GB β”‚ ~4   β”‚
 β”‚  Qwen3.5-4B-Q6_K.gguf                                  β”‚ 3.56 GB β”‚ ~6   β”‚
 β”‚  Qwen3.5-4B-Q8_0.gguf                                  β”‚ 4.61 GB β”‚  8   β”‚
 β”œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”Όβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”Όβ”€β”€β”€β”€β”€β”€β”€
 β”‚  Qwen3.5-4B_NO_REASONING_DEFAULTS-Q4_K_M.gguf          β”‚ 2.78 GB β”‚ ~4   β”‚
 β”‚  Qwen3.5-4B_NO_REASONING_DEFAULTS-Q6_K.gguf            β”‚ 3.56 GB β”‚ ~6   β”‚
 β”‚  Qwen3.5-4B_NO_REASONING_DEFAULTS-Q8_0.gguf            β”‚ 4.61 GB β”‚  8   β”‚
 β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”΄β”€β”€β”€β”€β”€β”€β”€β”€β”€β”΄β”€β”€β”€β”€β”€β”€β”˜
                                              total ......: 21.9 GB
   .------------------------------------------------------------------.
  /  > 0x02   Q U A N T   S E L E C T I O N   G U I D E                \
 /____________________________________________________________________/
   Q4_K_M   β–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–‘β–‘β–‘   smallest / fastest. best for tight VRAM or RAM.
            quality is acceptable; some degradation present vs higher bits.

   Q6_K     β–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–‘   sweet spot. near-fp16 quality, modest footprint.
            recommended default for most users.

   Q8_0     β–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆβ–ˆ   Indistinguishable from full-precision. heaviest of the
            three. use when you want maximum accuracy and have strong hardware.
            ╔══════════════════════════════════════════════════╗
            β•‘   not sure? β†’ grab Q6_K and move on with life.   β•‘
            β•šβ•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•β•
   .------------------------------------------------------------------.
  /  > 0x03   Q U I C K   S T A R T                                    \
 /____________________________________________________________________/

llama.cpp (CLI)

# download a single quant
huggingface-cli download AstraiaAI/Qwen3.5-4B-GGUF \
    Qwen3.5-4B-Q6_K.gguf --local-dir . --local-dir-use-symlinks False

# run it
./llama-cli -m Qwen3.5-4B-Q6_K.gguf -p "Explain quantization in detail." -n 256

llama.cpp (OpenAI-compatible server)

./llama-server -m Qwen3.5-4B-Q6_K.gguf -c 8192 --port 8080
# β†’ http://localhost:8080

Ollama

# Modelfile
printf 'FROM ./Qwen3.5-4B-Q6_K.gguf\n' > Modelfile
ollama create qwen3.5-4b -f Modelfile
ollama run qwen3.5-4b

LM Studio / koboldcpp / text-generation-webui

Drop any .gguf above into your models folder and load it from the UI.

   .------------------------------------------------------------------.
  /  > 0x04   R E A S O N I N G   N O T E S                            \
 /____________________________________________________________________/
   β”Œβ”€[ stock build ]───────────────────────────────────────────────┐
   β”‚  emits thinking / reasoning content before the final answer.  β”‚
   β”‚  great for math, code, multi-step problems. slower per reply. β”‚
   β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜

   β”Œβ”€[ NO_REASONING_DEFAULTS build ]───────────────────────────────┐
   β”‚  defaults tuned to skip the chain-of-thought and answer       β”‚
   β”‚  directly. faster, cleaner for chat / RAG / agents that don't β”‚
   β”‚  want to parse <think> blocks. same underlying weights.       β”‚
   β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜
   .------------------------------------------------------------------.
  /  > 0x05   L I C E N S E   &   C R E D I T S                        \
 /____________________________________________________________________/
   base weights ....: Qwen Team  (Qwen3.5-4B)
   quantization ....: AstraiaAI
   tooling .........: llama.cpp / ggml
   license .........: Apache-2.0  (inherits from base model)

Use of these weights is subject to the upstream Qwen license terms. These GGUF files are conversions only; no weights were retrained or fine-tuned.

 β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”
 β”‚                                                                      β”‚
 β”‚         Salutes to everyone running 4B models on a potato   β˜•       β”‚
 β”‚                                                                      β”‚
 β”‚              β–‘β–’β–“  A S T R A I A   A I  Β·  MMXXVI  β–“β–’β–‘                β”‚
 β”‚                                                                      β”‚
 β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜
Downloads last month
699
GGUF
Model size
4B params
Architecture
qwen35
Hardware compatibility
Log In to add your hardware

4-bit

6-bit

8-bit

Inference Providers NEW
This model isn't deployed by any Inference Provider. πŸ™‹ Ask for provider support