Instructions to use agentGreg/Bielik-Minitron-7B-v3.0-Instruct-MLX-4bit with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- MLX
How to use agentGreg/Bielik-Minitron-7B-v3.0-Instruct-MLX-4bit with MLX:
# Make sure mlx-lm is installed # pip install --upgrade mlx-lm # Generate text with mlx-lm from mlx_lm import load, generate model, tokenizer = load("agentGreg/Bielik-Minitron-7B-v3.0-Instruct-MLX-4bit") prompt = "Write a story about Einstein" messages = [{"role": "user", "content": prompt}] prompt = tokenizer.apply_chat_template( messages, add_generation_prompt=True ) text = generate(model, tokenizer, prompt=prompt, verbose=True) - Notebooks
- Google Colab
- Kaggle
- Local Apps
- LM Studio
- MLX LM
How to use agentGreg/Bielik-Minitron-7B-v3.0-Instruct-MLX-4bit with MLX LM:
Generate or start a chat session
# Install MLX LM uv tool install mlx-lm # Interactive chat REPL mlx_lm.chat --model "agentGreg/Bielik-Minitron-7B-v3.0-Instruct-MLX-4bit"
Run an OpenAI-compatible server
# Install MLX LM uv tool install mlx-lm # Start the server mlx_lm.server --model "agentGreg/Bielik-Minitron-7B-v3.0-Instruct-MLX-4bit" # Calling the OpenAI-compatible server with curl curl -X POST "http://localhost:8000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "agentGreg/Bielik-Minitron-7B-v3.0-Instruct-MLX-4bit", "messages": [ {"role": "user", "content": "Hello"} ] }'
Bielik-Minitron-7B-v3.0-Instruct — MLX 4bit
Konwersja speakleash/Bielik-Minitron-7B-v3.0-Instruct do formatu MLX (Apple Silicon), kwantyzacja 4bit.
Oryginalny model to skompresowana wersja Bielika-11B-v3.0 (z 11.04B do 7.35B parametrów, -33%) przez structured pruning + knowledge distillation z użyciem NVIDIA Model Optimizer i NeMo Framework. Podejście inspirowane techniką Minitron.
Paper: arxiv.org/abs/2603.11881
Warianty kwantyzacji
| Wariant | Rozmiar | Use case |
|---|---|---|
| MLX-4bit | ~4 GB | Edge / MacBook Air, ograniczona pamięć |
| MLX-6bit | ~5.5 GB | Sweet spot quality/size |
| MLX-8bit | ~8 GB | Wysoka jakość, blisko bf16 |
| MLX-bf16 | ~15 GB | Pełna precyzja, źródło do dalszych konwersji |
Aktualne repo: 4bit (3.9 GB)
Użycie
Wymagane: macOS na Apple Silicon, Python 3.10+.
pip install mlx-lm
from mlx_lm import load, generate
model, tokenizer = load("agentGreg/Bielik-Minitron-7B-v3.0-Instruct-MLX-4bit")
messages = [
{"role": "user", "content": "Wyjaśnij prosto czym różni się prędkość od przyspieszenia."},
]
prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)
print(generate(model, tokenizer, prompt=prompt, max_tokens=400, verbose=True))
Wydajność benchmarkowa
Bielik-Minitron 7B został przetestowany na oficjalnym arkuszu CKE z egzaminu ósmoklasisty z matematyki 2026 (12 maja 2026, 20 zadań, 30 pkt maksimum), w porównaniu z 7 innymi konfiguracjami modeli ~4-12B parametrów.
Wynik: 🥇 25/30 (83%) — pierwsze miejsce w stawce, jedyny model który przekroczył 80%.
| Pozycja | Model | Wynik |
|---|---|---|
| 🥇 | Bielik-Minitron 7B v3 (MLX 8-bit) | 25/30 (83%) |
| 🥈 | Bielik 4.5B v3 | 24/30 (80%) |
| 🥈 | Gemma 4 E4B (text-only) | 24/30 (80%) |
| 4 | Gemma 4 E4B (multimodal) | 23/30 (77%) |
| 5 | Gemma 3 4B (text-only) | 18/30 (60%) |
| 6 | Gemma 3 4B (multimodal) | 14/30 (47%) |
| 7 | Llama-PLLuM 8B | 3/30 (10%) |
| 7 | PLLuM 12B | 3/30 (10%) |
Pełna metodyka, kod, klucz odpowiedzi i analiza per-zadaniowa: github.com/agentGreg/egzamin-8-klasisty-maly-llm
Atrybucja
- Model bazowy:
speakleash/Bielik-Minitron-7B-v3.0-Instruct— © SpeakLeash team - Paper: Compressing Polish LLMs with Hybrid Pruning and Distillation
- Konwersja do MLX: Grzegorz Brzezinka (Prosit AS), opublikowane za zgodą zespołu SpeakLeash
- Narzędzie konwersji:
mlx-lm(0.31.3)
Licencja
Apache 2.0 — zgodnie z licencją oryginalnego modelu.
Cytowanie
Jeśli używasz tego modelu w pracy naukowej lub komercyjnej, cytuj oryginalny paper SpeakLeash:
@article{bielik_minitron_2026,
title={Compressing Polish LLMs with Hybrid Pruning and Distillation},
author={SpeakLeash team},
journal={arXiv preprint arXiv:2603.11881},
year={2026}
}
Wagi MLX przygotowane w ramach benchmarku Egzamin ósmoklasisty z matematyki 2026 — benchmark małych LLM-ów by Prosit AS.
- Downloads last month
- 71
4-bit
Model tree for agentGreg/Bielik-Minitron-7B-v3.0-Instruct-MLX-4bit
Base model
speakleash/Bielik-11B-v3-Base-20250730