Bielik-Minitron-7B-v3.0-Instruct — MLX bf16

Konwersja speakleash/Bielik-Minitron-7B-v3.0-Instruct do formatu MLX (Apple Silicon), kwantyzacja bf16.

Oryginalny model to skompresowana wersja Bielika-11B-v3.0 (z 11.04B do 7.35B parametrów, -33%) przez structured pruning + knowledge distillation z użyciem NVIDIA Model Optimizer i NeMo Framework. Podejście inspirowane techniką Minitron.

Paper: arxiv.org/abs/2603.11881

Warianty kwantyzacji

Wariant	Rozmiar	Use case
MLX-4bit	~4 GB	Edge / MacBook Air, ograniczona pamięć
MLX-6bit	~5.5 GB	Sweet spot quality/size
MLX-8bit	~8 GB	Wysoka jakość, blisko bf16
MLX-bf16	~15 GB	Pełna precyzja, źródło do dalszych konwersji

Aktualne repo: bf16 (13.9 GB)

Użycie

Wymagane: macOS na Apple Silicon, Python 3.10+.

pip install mlx-lm

from mlx_lm import load, generate

model, tokenizer = load("agentGreg/Bielik-Minitron-7B-v3.0-Instruct-MLX-bf16")

messages = [
    {"role": "user", "content": "Wyjaśnij prosto czym różni się prędkość od przyspieszenia."},
]
prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)
print(generate(model, tokenizer, prompt=prompt, max_tokens=400, verbose=True))

Wydajność benchmarkowa

Bielik-Minitron 7B został przetestowany na oficjalnym arkuszu CKE z egzaminu ósmoklasisty z matematyki 2026 (12 maja 2026, 20 zadań, 30 pkt maksimum), w porównaniu z 7 innymi konfiguracjami modeli ~4-12B parametrów.

Wynik: 🥇 25/30 (83%) — pierwsze miejsce w stawce, jedyny model który przekroczył 80%.

Pozycja	Model	Wynik
🥇	Bielik-Minitron 7B v3 (MLX 8-bit)	25/30 (83%)
🥈	Bielik 4.5B v3	24/30 (80%)
🥈	Gemma 4 E4B (text-only)	24/30 (80%)
4	Gemma 4 E4B (multimodal)	23/30 (77%)
5	Gemma 3 4B (text-only)	18/30 (60%)
6	Gemma 3 4B (multimodal)	14/30 (47%)
7	Llama-PLLuM 8B	3/30 (10%)
7	PLLuM 12B	3/30 (10%)

Pełna metodyka, kod, klucz odpowiedzi i analiza per-zadaniowa: github.com/agentGreg/egzamin-8-klasisty-maly-llm

Atrybucja

Model bazowy: speakleash/Bielik-Minitron-7B-v3.0-Instruct — © SpeakLeash team
Paper: Compressing Polish LLMs with Hybrid Pruning and Distillation
Konwersja do MLX: Grzegorz Brzezinka (Prosit AS), opublikowane za zgodą zespołu SpeakLeash
Narzędzie konwersji: mlx-lm (0.31.3)

Licencja

Apache 2.0 — zgodnie z licencją oryginalnego modelu.

Cytowanie

Jeśli używasz tego modelu w pracy naukowej lub komercyjnej, cytuj oryginalny paper SpeakLeash:

@article{bielik_minitron_2026,
  title={Compressing Polish LLMs with Hybrid Pruning and Distillation},
  author={SpeakLeash team},
  journal={arXiv preprint arXiv:2603.11881},
  year={2026}
}

Wagi MLX przygotowane w ramach benchmarku Egzamin ósmoklasisty z matematyki 2026 — benchmark małych LLM-ów by Prosit AS.