Instructions to use Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- llama-cpp-python
How to use Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf with llama-cpp-python:
# !pip install llama-cpp-python from llama_cpp import Llama llm = Llama.from_pretrained( repo_id="Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf", filename="ΩFFΣLLIα_IQ4_XS_diffusiongemma-26B-A4B-it.gguf", )
llm.create_chat_completion( messages = [ { "role": "user", "content": [ { "type": "text", "text": "Describe this image in one sentence." }, { "type": "image_url", "image_url": { "url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg" } } ] } ] ) - Notebooks
- Google Colab
- Kaggle
- Local Apps Settings
- llama.cpp
How to use Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf with llama.cpp:
Install from brew
brew install llama.cpp # Start a local OpenAI-compatible server with a web UI: llama-server -hf Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf:IQ4_XS_DIFFUSIONGEMMA # Run inference directly in the terminal: llama-cli -hf Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf:IQ4_XS_DIFFUSIONGEMMA
Install from WinGet (Windows)
winget install llama.cpp # Start a local OpenAI-compatible server with a web UI: llama-server -hf Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf:IQ4_XS_DIFFUSIONGEMMA # Run inference directly in the terminal: llama-cli -hf Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf:IQ4_XS_DIFFUSIONGEMMA
Use pre-built binary
# Download pre-built binary from: # https://github.com/ggerganov/llama.cpp/releases # Start a local OpenAI-compatible server with a web UI: ./llama-server -hf Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf:IQ4_XS_DIFFUSIONGEMMA # Run inference directly in the terminal: ./llama-cli -hf Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf:IQ4_XS_DIFFUSIONGEMMA
Build from source code
git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp cmake -B build cmake --build build -j --target llama-server llama-cli # Start a local OpenAI-compatible server with a web UI: ./build/bin/llama-server -hf Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf:IQ4_XS_DIFFUSIONGEMMA # Run inference directly in the terminal: ./build/bin/llama-cli -hf Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf:IQ4_XS_DIFFUSIONGEMMA
Use Docker
docker model run hf.co/Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf:IQ4_XS_DIFFUSIONGEMMA
- LM Studio
- Jan
- vLLM
How to use Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf with vLLM:
Install from pip and serve model
# Install vLLM from pip: pip install vllm # Start the vLLM server: vllm serve "Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf" # Call the server using curl (OpenAI-compatible API): curl -X POST "http://localhost:8000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf", "messages": [ { "role": "user", "content": [ { "type": "text", "text": "Describe this image in one sentence." }, { "type": "image_url", "image_url": { "url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg" } } ] } ] }'Use Docker
docker model run hf.co/Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf:IQ4_XS_DIFFUSIONGEMMA
- Ollama
How to use Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf with Ollama:
ollama run hf.co/Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf:IQ4_XS_DIFFUSIONGEMMA
- Unsloth Studio
How to use Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf with Unsloth Studio:
Install Unsloth Studio (macOS, Linux, WSL)
curl -fsSL https://unsloth.ai/install.sh | sh # Run unsloth studio unsloth studio -H 0.0.0.0 -p 8888 # Then open http://localhost:8888 in your browser # Search for Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf to start chatting
Install Unsloth Studio (Windows)
irm https://unsloth.ai/install.ps1 | iex # Run unsloth studio unsloth studio -H 0.0.0.0 -p 8888 # Then open http://localhost:8888 in your browser # Search for Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf to start chatting
Using HuggingFace Spaces for Unsloth
# No setup required # Open https://huggingface.co/spaces/unsloth/studio in your browser # Search for Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf to start chatting
- Pi
How to use Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf with Pi:
Start the llama.cpp server
# Install llama.cpp: brew install llama.cpp # Start a local OpenAI-compatible server: llama-server -hf Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf:IQ4_XS_DIFFUSIONGEMMA
Configure the model in Pi
# Install Pi: npm install -g @mariozechner/pi-coding-agent # Add to ~/.pi/agent/models.json: { "providers": { "llama-cpp": { "baseUrl": "http://localhost:8080/v1", "api": "openai-completions", "apiKey": "none", "models": [ { "id": "Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf:IQ4_XS_DIFFUSIONGEMMA" } ] } } }Run Pi
# Start Pi in your project directory: pi
- Hermes Agent new
How to use Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf with Hermes Agent:
Start the llama.cpp server
# Install llama.cpp: brew install llama.cpp # Start a local OpenAI-compatible server: llama-server -hf Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf:IQ4_XS_DIFFUSIONGEMMA
Configure Hermes
# Install Hermes: curl -fsSL https://hermes-agent.nousresearch.com/install.sh | bash hermes setup # Point Hermes at the local server: hermes config set model.provider custom hermes config set model.base_url http://127.0.0.1:8080/v1 hermes config set model.default Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf:IQ4_XS_DIFFUSIONGEMMA
Run Hermes
hermes
- Atomic Chat new
- Docker Model Runner
How to use Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf with Docker Model Runner:
docker model run hf.co/Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf:IQ4_XS_DIFFUSIONGEMMA
- Lemonade
How to use Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf with Lemonade:
Pull the model
# Download Lemonade from https://lemonade-server.ai/ lemonade pull Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf:IQ4_XS_DIFFUSIONGEMMA
Run and chat with the model
lemonade run user.OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf-IQ4_XS_DIFFUSIONGEMMA
List all available models
lemonade list
ΩFFΣLLIα_DiffusionGemma-26B-A4B-it
Derivado do modelo oficial da Google google/diffusiongemma-26B-A4B-it, otimizado para inferência local e fluxos de trabalho multimodais.
Este é um modelo derivado. Todos os créditos de pesos e arquitetura pertencem ao Google DeepMind.
📌 Visão geral
| Item | Valor |
|---|---|
| Nome do modelo | ΩFFΣLLIα_DiffusionGemma-26B-A4B-it |
| Formato | Safetensors (BF16) |
| Arquitetura | DiffusionGemma (MoE encoder-decoder, difusão discreta) |
| Parâmetros totais | 25.2B |
| Parâmetros ativos | 3.8B (por token) |
| Especialistas (Experts) | 8 ativos / 128 totais + 1 compartilhado |
| Camadas | 30 |
| Sliding window | 1024 tokens |
| Contexto máximo | 256K tokens |
| Canvas de geração | 256 tokens |
| Vocabulário | 262K |
| Vision Encoder | ~550M parâmetros |
| Modalidades | Texto, Imagem, Vídeo (como frames) |
| Modelo base | google/diffusiongemma-26B-A4B-it |
| Autores | Google DeepMind |
| Licença | Apache 2.0 (Gemma 4 License) |
🌐 Idiomas suportados
Suporte nativo para mais de 35 idiomas, pré-treinado em mais de 140 línguas.
Tags principais: Inglês, Português, Alemão, Espanhol, Francês, Italiano, Japonês e Chinês.
(en, pt, de, es, fr, it, ja, zh)
🧠 Sobre o DiffusionGemma 26B-A4B
O DiffusionGemma é um modelo generativo multimodal construído pela Google DeepMind sobre a arquitetura Gemma 4 26B A4B Mixture-of-Experts (MoE), utilizando difusão discreta para geração de tokens. Diferente de modelos autoregressivos tradicionais, ele gera texto por meio de multi-canvas sampling — denoising iterativo de blocos de 256 tokens em paralelo, o que reduz drasticamente os gargalos sequenciais e acelera a inferência.
A arquitetura é composta por:
- Encoder autoregressivo — processa o prompt e gera o KV cache (prefill).
- Decoder com atenção bidirecional — opera sobre o canvas de geração, acessando o contexto via cross-attention.
- MoE esparso — 8 de 128 especialistas ativados por token, combinando alta capacidade de raciocínio com baixo footprint de memória.
Capacidades principais
- Geração de alta velocidade — denoising paralelo de 256 tokens via difusão, alcançando 15–20 tokens por forward pass e velocidades superiores a 1100 tokens/s em batch-size reduzido (H100, FP8).
- Inferência adaptativa — prompts simples e tarefas estruturadas (ex.: código) requerem menos passos de denoising, ajustando dinamicamente a velocidade conforme a complexidade da tarefa.
- Thinking (Raciocínio) — modo de raciocínio passo a passo configurável via token
<|think|>. - Long context — janela de até 256K tokens.
- Visão — detecção de objetos, OCR multilíngue, parsing de documentos/PDF, gráficos, UI, reconhecimento de caligrafia e apontamento. Suporta aspect ratios e resoluções variáveis.
- Vídeo — análise de conteúdo de vídeo processando sequências de frames (até 60 segundos a 1 fps).
- Entrada multimodal entrelaçada — imagens, vídeo e texto podem ser combinados em um único prompt.
- Function calling — suporte nativo a uso de ferramentas para fluxos agênticos.
- Código e raciocínio — geração, completação e raciocínio lógico passo a passo.
- System prompt nativo — suporte ao papel
systempara conversas mais controláveis.
📊 Benchmarks (DiffusionGemma 26B A4B instruction-tuned)
| Benchmark | DiffusionGemma 26B A4B |
|---|---|
| MMLU Pro | 77.6% |
| AIME 2026 (sem tools) | 69.1% |
| LiveCodeBench v6 | 69.1% |
| Codeforces ELO | 1429 |
| GPQA Diamond | 73.2% |
| HLE (sem tools) | 11.0% |
| HLE (com search) | 11.9% |
| BigBench Extra Hard | 47.6% |
| MMMLU | 81.5% |
| MMMU Pro (visão) | 54.3% |
| MATH-Vision | 70.5% |
| MedXPertQA MM | 49.0% |
| MRCR v2 8 needle 128k (média) | 32.0% |
🚀 Uso rápido com Transformers
from transformers import DiffusionGemmaForBlockDiffusion, AutoProcessor
MODEL_ID = "google/diffusiongemma-26B-A4B-it"
# Carregar modelo
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = DiffusionGemmaForBlockDiffusion.from_pretrained(
MODEL_ID,
dtype="auto",
device_map="auto",
)
# Prompt
message = [
{"role": "user", "content": "Explique a teoria dos números primos."}
]
# Processar entrada
input_ids = processor.apply_chat_template(
message,
tokenize=True,
add_generation_prompt=True,
return_dict=True,
return_tensors="pt"
).to(model.device)
output = model.generate(**input_ids, max_new_tokens=512)
# Decodificar saída
text = processor.decode(output[0], skip_special_tokens=False)
print(text)
Parâmetros recomendados de amostragem por difusão
- Método: Diffusion sampling com Entropy-Bounded Denoising e Adaptive Stopping.
- Máximo de passos de denoising: 48.
- Temperatura: decaimento linear de 0.8 → 0.4.
- Entropy bound: 0.1 (seleção de tokens de menor entropia por passo).
- Adaptive Stopping: encerra quando a entropia média do canvas < 0.005 e as previsões de maior probabilidade permanecem idênticas entre dois passos consecutivos.
Modo de raciocínio (thinking)
Habilitado incluindo o token <|think|> no início do system prompt; remova o token para desativar. Bibliotecas como Transformers cuidam das complexidades do chat template automaticamente.
Ordem das modalidades
Para melhor desempenho com entradas multimodais, coloque imagens antes do texto no prompt.
Resolução variável de imagem
Orçamentos de tokens visuais suportados: 70, 140, 280, 560 e 1120.
- Use orçamentos menores para classificação, legendagem ou vídeo (mais velocidade).
- Use orçamentos maiores para OCR, parsing de documentos ou leitura de texto pequeno.
🎯 Casos de uso
Geração de texto, chatbots e IA conversacional, sumarização, extração de dados de imagens, análise de vídeo, pesquisa em NLP/VLM, ferramentas educacionais, agentes com function calling e aplicações que demandam alta velocidade de geração com baixa latência.
⚖️ Licença e termos
O uso é regido pela Gemma 4 License / Apache 2.0. Recomenda-se seguir o Responsible Generative AI Toolkit e implementar salvaguardas de segurança adequadas ao seu caso de uso.
📚 Referências
- Modelo oficial: https://huggingface.co/google/diffusiongemma-26B-A4B-it
- Coleção Gemma 4: https://huggingface.co/collections/google/gemma-4
- GitHub: https://github.com/google-gemma
- Documentação: https://ai.google.dev/gemma/docs/core
- Blog de lançamento: https://developers.googleblog.com/diffusiongemma-the-developer-guide/
🙏 Créditos
- Modelo original: Google DeepMind
- Derivação e adaptação: Brunobkr (ΩFFΣLLIα)
- Downloads last month
- 1,158
4-bit
Model tree for Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf
Base model
google/diffusiongemma-26B-A4B-it