Instructions to use MrMeOrYou/emma-5-GGUF with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- llama-cpp-python
How to use MrMeOrYou/emma-5-GGUF with llama-cpp-python:
# !pip install llama-cpp-python from llama_cpp import Llama llm = Llama.from_pretrained( repo_id="MrMeOrYou/emma-5-GGUF", filename="emma-5-BF16.gguf", )
llm.create_chat_completion( messages = [ { "role": "user", "content": "What is the capital of France?" } ] ) - Notebooks
- Google Colab
- Kaggle
- Local Apps Settings
- llama.cpp
How to use MrMeOrYou/emma-5-GGUF with llama.cpp:
Install (macOS, Linux)
curl -LsSf https://llama.app/install.sh | sh # Start a local OpenAI-compatible server with a web UI: llama serve -hf MrMeOrYou/emma-5-GGUF:Q4_K_M # Run inference directly in the terminal: llama cli -hf MrMeOrYou/emma-5-GGUF:Q4_K_M
Install from WinGet (Windows)
winget install llama.cpp # Start a local OpenAI-compatible server with a web UI: llama serve -hf MrMeOrYou/emma-5-GGUF:Q4_K_M # Run inference directly in the terminal: llama cli -hf MrMeOrYou/emma-5-GGUF:Q4_K_M
Use pre-built binary
# Download pre-built binary from: # https://github.com/ggerganov/llama.cpp/releases # Start a local OpenAI-compatible server with a web UI: ./llama-server -hf MrMeOrYou/emma-5-GGUF:Q4_K_M # Run inference directly in the terminal: ./llama-cli -hf MrMeOrYou/emma-5-GGUF:Q4_K_M
Build from source code
git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp cmake -B build cmake --build build -j --target llama-server llama-cli # Start a local OpenAI-compatible server with a web UI: ./build/bin/llama-server -hf MrMeOrYou/emma-5-GGUF:Q4_K_M # Run inference directly in the terminal: ./build/bin/llama-cli -hf MrMeOrYou/emma-5-GGUF:Q4_K_M
Use Docker
docker model run hf.co/MrMeOrYou/emma-5-GGUF:Q4_K_M
- LM Studio
- Jan
- vLLM
How to use MrMeOrYou/emma-5-GGUF with vLLM:
Install from pip and serve model
# Install vLLM from pip: pip install vllm # Start the vLLM server: vllm serve "MrMeOrYou/emma-5-GGUF" # Call the server using curl (OpenAI-compatible API): curl -X POST "http://localhost:8000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "MrMeOrYou/emma-5-GGUF", "messages": [ { "role": "user", "content": "What is the capital of France?" } ] }'Use Docker
docker model run hf.co/MrMeOrYou/emma-5-GGUF:Q4_K_M
- Ollama
How to use MrMeOrYou/emma-5-GGUF with Ollama:
ollama run hf.co/MrMeOrYou/emma-5-GGUF:Q4_K_M
- Unsloth Studio
How to use MrMeOrYou/emma-5-GGUF with Unsloth Studio:
Install Unsloth Studio (macOS, Linux, WSL)
curl -fsSL https://unsloth.ai/install.sh | sh # Run unsloth studio unsloth studio -H 0.0.0.0 -p 8888 # Then open http://localhost:8888 in your browser # Search for MrMeOrYou/emma-5-GGUF to start chatting
Install Unsloth Studio (Windows)
irm https://unsloth.ai/install.ps1 | iex # Run unsloth studio unsloth studio -H 0.0.0.0 -p 8888 # Then open http://localhost:8888 in your browser # Search for MrMeOrYou/emma-5-GGUF to start chatting
Using HuggingFace Spaces for Unsloth
# No setup required # Open https://huggingface.co/spaces/unsloth/studio in your browser # Search for MrMeOrYou/emma-5-GGUF to start chatting
- Atomic Chat new
- Docker Model Runner
How to use MrMeOrYou/emma-5-GGUF with Docker Model Runner:
docker model run hf.co/MrMeOrYou/emma-5-GGUF:Q4_K_M
- Lemonade
How to use MrMeOrYou/emma-5-GGUF with Lemonade:
Pull the model
# Download Lemonade from https://lemonade-server.ai/ lemonade pull MrMeOrYou/emma-5-GGUF:Q4_K_M
Run and chat with the model
lemonade run user.emma-5-GGUF-Q4_K_M
List all available models
lemonade list
- ๐ฎ๐น Emma-5 (GGUF)
- Premessa
- File disponibili
- Esecuzione con llama.cpp
- Adattamenti rispetto al checkpoint ONNX
- Formato del prompt
- Parametri di campionamento
- Nota sul tokenizer
- Nota sul multi-turno
- Informazioni sul modello originale
- Overview
- Architettura
- Contesto e vocabolario
- Dataset di training
- Training pipeline
- Export e ottimizzazione originali
- Uso non previsto
- Focus prestazionale
- Limitazioni
- Licenza
- Autore
- Sito ufficiale
๐ฎ๐น Emma-5 (GGUF)
Premessa
Questo repository contiene una conversione non ufficiale in formato GGUF di egomnia/emma-5, realizzata con llama.cpp.
Il modello originale Emma-5 รจ stato sviluppato da Egomnia S.p.A.. Questo repository non รจ affiliato a Egomnia S.p.A. e non modifica l'autorialitร del modello originale.
Provenienza dei pesi
La prima conversione GGUF รจ stata creata mentre il repository originale egomnia/emma-5 non era disponibile pubblicamente. In quel momento i pesi sono stati recuperati da eldavoo/emma-5, un reupload/archivio pubblico del modello.
Dopo la ripubblicazione di egomnia/emma-5, i file del modello e del tokenizer sono stati confrontati con quelli di eldavoo/emma-5 e verificati come byte-identici. Per questo motivo i metadata di questo repository puntano ora a egomnia/emma-5 come modello base originale.
Grazie a eldavoo per aver mantenuto disponibile l'archivio pubblico usato come sorgente al momento della conversione iniziale. L'autorialitร e i diritti sul modello restano attribuiti a Egomnia S.p.A. secondo la licenza e il model card originali.
File disponibili
Il file emma-5-F32.gguf รจ la conversione GGUF in F32 del modello originale. Le altre varianti sono state ricavate da questo file con llama-quantize, usando i tipi di quantizzazione supportati da llama.cpp.
Sono disponibili:
emma-5-F32.ggufemma-5-F16.ggufemma-5-BF16.ggufemma-5-Q8_0.ggufemma-5-Q6_K.ggufemma-5-Q5_K_M.ggufemma-5-Q5_K_S.ggufemma-5-Q5_1.ggufemma-5-Q5_0.ggufemma-5-Q4_K_M.ggufemma-5-Q4_K_S.ggufemma-5-Q4_1.ggufemma-5-Q4_0.ggufemma-5-IQ4_NL.ggufemma-5-IQ4_XS.ggufemma-5-Q3_K_L.ggufemma-5-Q3_K_M.ggufemma-5-Q3_K_S.ggufemma-5-IQ3_M.ggufemma-5-IQ3_S.ggufemma-5-Q2_K.ggufemma-5-TQ2_0.ggufemma-5-TQ1_0.ggufemma-5-Q1_0.ggufemma-5-MXFP4_MOE.gguf
Le quantizzazioni sono state verificate localmente come riproducibili a partire da emma-5-F32.gguf con llama.cpp: gli output generati coincidono byte-per-byte con i file pubblicati.
Esecuzione con llama.cpp
Chat interattiva
llama-cli -m emma-5-F32.gguf --jinja -ngl 99 -c 2048 -cnv
Prompt diretto
llama-cli -m emma-5-F32.gguf --jinja -ngl 99 -c 2048 -st -p "Qual รจ la capitale d'Italia?"
--jinja applica il chat template incorporato nel GGUF. -ngl 99 carica i layer in GPU, se disponibile; omettilo per usare solo la CPU. -c 2048 imposta la context length massima del modello.
Adattamenti rispetto al checkpoint ONNX
Per l'architettura llama di llama.cpp sono stati applicati due adattamenti:
- RoPE: le proiezioni Q e K sono permutate dal layout half-split (GPT-NeoX) al layout interleaved (GPT-J), come per i modelli LLaMA.
- Chat template: il formato di istruzione Alpaca italiano usato nell'SFT รจ incorporato nel file (
tokenizer.chat_template).
Formato del prompt
### Istruzione: <richiesta> ### Risposta:
Con --jinja il formato viene applicato automaticamente. Per il completamento grezzo, usa lo stesso formato su una sola riga.
Parametri di campionamento
Il runtime ONNX di riferimento usa:
temperature: 0.7top-p: 0.9top-k: 40
I default di llama.cpp sono diversi, quindi per avvicinarsi al comportamento ONNX conviene impostarli manualmente, incluso --min-p 0.
Il --repeat-penalty non va invece impostato: llama.cpp lo lascia giร a 1.0 (nessuna penalitร di ripetizione), esattamente come il runtime ONNX.
llama-cli -m emma-5-F32.gguf --jinja -c 2048 -ngl 99 -cnv \
--temp 0.7 --top-k 40 --top-p 0.9 --min-p 0
Server OpenAI-compatibile:
llama-server -m emma-5-F32.gguf --jinja -c 2048 -ngl 99 \
--temp 0.7 --top-k 40 --top-p 0.9 --min-p 0
Per un output deterministico e riproducibile usa --temp 0 (greedy); non corrisponde al comportamento di default del runtime ONNX.
Nota sul tokenizer
Il tokenizer SentencePiece originale normalizza i ritorni a capo (nmt_nfkc, remove_extra_whitespaces), mentre il tokenizer di llama.cpp non lo fa nello stesso modo. Per evitare differenze nella tokenizzazione usa --jinja, oppure, nei prompt grezzi, spazi singoli al posto dei caratteri di a capo.
Nota sul multi-turno
Emma-5 รจ stato addestrato (SFT) principalmente su singoli turni istruzione/risposta. ร quindi piรน affidabile a turno singolo. In conversazioni a piรน turni la qualitร puรฒ calare e l'output dipende da come viene ricostruita la cronologia del contesto.
Per risultati piรน fedeli conviene inviare una istruzione completa per ogni richiesta.
Informazioni sul modello originale
Le informazioni seguenti derivano dal model card di egomnia/emma-5.
Overview
Emma-5 รจ un "mini" Large Language Model decoder-only sperimentale sviluppato da Egomnia S.p.A., progettato per lingua italiana.
Sito ufficiale: https://emma.egomnia.com
Il modello รจ pensato per:
- comprensione contestuale moderata
- generazione di contenuti di media-piccola complessitร
Non รจ progettato per applicazioni safety-critical o reasoning avanzato multi-step.
Architettura
- Tipo: GPT decoder-only
- Transformer blocks: 28
- Hidden size: 1.280
- Attention heads: 16 query + 4 KV (GQA 4:1)
- Head dimension: 80
- Feed-forward dimension: 3.456 (SwiGLU, ff_mult 8/3)
- Activation function: SwiGLU
- Normalization: RMSNorm
- Positional encoding: RoPE (theta 10.000)
- Dropout: 0.0
- Embeddings: tied (token embedding = lm_head)
Contesto e vocabolario
- Context length: 2.048 token
- Vocabulary size: 50.000 token
- Tokenizer: SentencePiece BPE con byte fallback
Dataset di training
- Codice: 40,48%
- Generalista: 39,46%
- Enciclopedico: 15,68%
- Libri: 3,07%
- Colloquiale: 0,73%
- Politico: 0,55%
Training pipeline
- Pretraining: 200.000 step
- Fine-tuning: SFT (3 epoche)
- DPO: disabilitato
- Corpus pretraining: 54,36 GB raw (~10,8 miliardi token)
Export e ottimizzazione originali
- Framework originale: PyTorch
- Export originale: ONNX
- Opset: 18
- Quantizzazione ONNX: INT8
- Peso modello ONNX: 2,46 GB (FP32)
- Peso quantizzato INT8: ~560 MB
Uso non previsto
- applicazioni mediche, legali o finanziarie critiche
- sistemi ad alta affidabilitร o mission critical
- reasoning complesso multi-step
- ricerca scientifica avanzata senza supervisione
Focus prestazionale
Il modello รจ ottimizzato per:
- equilibrio tra qualitร e latenza
- inference su CPU/GPU entry-level
- contesti leggeri
Limitazioni
- capacitร di reasoning ancora limitata rispetto a modelli di grandi dimensioni
- possibile generazione di contenuti imprecisi o incompleti
- sensibilitร a prompt ambigui o molto lunghi
- contesto limitato a 2.048 token
Licenza
Distribuito sotto licenza OpenRAIL-M, con eventuali vincoli derivati dalle licenze dei dataset utilizzati. Questa licenza consente lโuso, la modifica e la distribuzione del modello anche in ambito commerciale, imponendo tuttavia restrizioni sullโutilizzo in scenari potenzialmente dannosi, illegali o non etici, secondo i principi di Responsible AI e nel rispetto delle eventuali restrizioni derivanti dalle licenze dei dataset utilizzati. Si richiede esprezzamente di citare Egomnia S.p.A. come autore del modello in caso di utilizzo di quest'ultimo per prodotti, servizi, pubblicazioni o documentazione tecnica.
Autore
Egomnia S.p.A.
Sito ufficiale
- Downloads last month
- 7
1-bit
2-bit
3-bit
4-bit
5-bit
6-bit
8-bit
16-bit
32-bit
Model tree for MrMeOrYou/emma-5-GGUF
Base model
egomnia/emma-5