Bielik-Minitron-7B-v3.0-Instruct — MLX bf16

Konwersja speakleash/Bielik-Minitron-7B-v3.0-Instruct do formatu MLX (Apple Silicon), kwantyzacja bf16.

Oryginalny model to skompresowana wersja Bielika-11B-v3.0 (z 11.04B do 7.35B parametrów, -33%) przez structured pruning + knowledge distillation z użyciem NVIDIA Model Optimizer i NeMo Framework. Podejście inspirowane techniką Minitron.

Paper: arxiv.org/abs/2603.11881

Warianty kwantyzacji

Wariant Rozmiar Use case
MLX-4bit ~4 GB Edge / MacBook Air, ograniczona pamięć
MLX-6bit ~5.5 GB Sweet spot quality/size
MLX-8bit ~8 GB Wysoka jakość, blisko bf16
MLX-bf16 ~15 GB Pełna precyzja, źródło do dalszych konwersji

Aktualne repo: bf16 (13.9 GB)

Użycie

Wymagane: macOS na Apple Silicon, Python 3.10+.

pip install mlx-lm
from mlx_lm import load, generate

model, tokenizer = load("agentGreg/Bielik-Minitron-7B-v3.0-Instruct-MLX-bf16")

messages = [
    {"role": "user", "content": "Wyjaśnij prosto czym różni się prędkość od przyspieszenia."},
]
prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)
print(generate(model, tokenizer, prompt=prompt, max_tokens=400, verbose=True))

Wydajność benchmarkowa

Bielik-Minitron 7B został przetestowany na oficjalnym arkuszu CKE z egzaminu ósmoklasisty z matematyki 2026 (12 maja 2026, 20 zadań, 30 pkt maksimum), w porównaniu z 7 innymi konfiguracjami modeli ~4-12B parametrów.

Wynik: 🥇 25/30 (83%) — pierwsze miejsce w stawce, jedyny model który przekroczył 80%.

Pozycja Model Wynik
🥇 Bielik-Minitron 7B v3 (MLX 8-bit) 25/30 (83%)
🥈 Bielik 4.5B v3 24/30 (80%)
🥈 Gemma 4 E4B (text-only) 24/30 (80%)
4 Gemma 4 E4B (multimodal) 23/30 (77%)
5 Gemma 3 4B (text-only) 18/30 (60%)
6 Gemma 3 4B (multimodal) 14/30 (47%)
7 Llama-PLLuM 8B 3/30 (10%)
7 PLLuM 12B 3/30 (10%)

Pełna metodyka, kod, klucz odpowiedzi i analiza per-zadaniowa: github.com/agentGreg/egzamin-8-klasisty-maly-llm

Atrybucja

Licencja

Apache 2.0 — zgodnie z licencją oryginalnego modelu.

Cytowanie

Jeśli używasz tego modelu w pracy naukowej lub komercyjnej, cytuj oryginalny paper SpeakLeash:

@article{bielik_minitron_2026,
  title={Compressing Polish LLMs with Hybrid Pruning and Distillation},
  author={SpeakLeash team},
  journal={arXiv preprint arXiv:2603.11881},
  year={2026}
}

Wagi MLX przygotowane w ramach benchmarku Egzamin ósmoklasisty z matematyki 2026 — benchmark małych LLM-ów by Prosit AS.

Downloads last month
172
Safetensors
Model size
7B params
Tensor type
BF16
·
MLX
Hardware compatibility
Log In to add your hardware

Quantized

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for agentGreg/Bielik-Minitron-7B-v3.0-Instruct-MLX-bf16

Paper for agentGreg/Bielik-Minitron-7B-v3.0-Instruct-MLX-bf16