Instructions to use Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf with llama-cpp-python:

# !pip install llama-cpp-python

from llama_cpp import Llama

llm = Llama.from_pretrained(
	repo_id="Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf",
	filename="ΩFFΣLLIα_IQ4_XS_diffusiongemma-26B-A4B-it.gguf",
)

llm.create_chat_completion(
	messages = [
		{
			"role": "user",
			"content": [
				{
					"type": "text",
					"text": "Describe this image in one sentence."
				},
				{
					"type": "image_url",
					"image_url": {
						"url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg"
					}
				}
			]
		}
	]
)

Notebooks
Google Colab
Kaggle
Local Apps Settings

llama.cpp

How to use Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf with llama.cpp:

Install from brew

brew install llama.cpp
# Start a local OpenAI-compatible server with a web UI:
llama-server -hf Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf:IQ4_XS_DIFFUSIONGEMMA
# Run inference directly in the terminal:
llama-cli -hf Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf:IQ4_XS_DIFFUSIONGEMMA

Install from WinGet (Windows)

winget install llama.cpp
# Start a local OpenAI-compatible server with a web UI:
llama-server -hf Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf:IQ4_XS_DIFFUSIONGEMMA
# Run inference directly in the terminal:
llama-cli -hf Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf:IQ4_XS_DIFFUSIONGEMMA

Use pre-built binary

# Download pre-built binary from:
# https://github.com/ggerganov/llama.cpp/releases
# Start a local OpenAI-compatible server with a web UI:
./llama-server -hf Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf:IQ4_XS_DIFFUSIONGEMMA
# Run inference directly in the terminal:
./llama-cli -hf Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf:IQ4_XS_DIFFUSIONGEMMA

Build from source code

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
cmake -B build
cmake --build build -j --target llama-server llama-cli
# Start a local OpenAI-compatible server with a web UI:
./build/bin/llama-server -hf Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf:IQ4_XS_DIFFUSIONGEMMA
# Run inference directly in the terminal:
./build/bin/llama-cli -hf Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf:IQ4_XS_DIFFUSIONGEMMA

Use Docker

docker model run hf.co/Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf:IQ4_XS_DIFFUSIONGEMMA

LM Studio
Jan

vLLM

How to use Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf",
		"messages": [
			{
				"role": "user",
				"content": [
					{
						"type": "text",
						"text": "Describe this image in one sentence."
					},
					{
						"type": "image_url",
						"image_url": {
							"url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg"
						}
					}
				]
			}
		]
	}'

Use Docker

docker model run hf.co/Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf:IQ4_XS_DIFFUSIONGEMMA

Ollama

How to use Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf with Ollama:

ollama run hf.co/Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf:IQ4_XS_DIFFUSIONGEMMA

Unsloth Studio

How to use Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf with Unsloth Studio:

Install Unsloth Studio (macOS, Linux, WSL)

curl -fsSL https://unsloth.ai/install.sh | sh
# Run unsloth studio
unsloth studio -H 0.0.0.0 -p 8888
# Then open http://localhost:8888 in your browser
# Search for Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf to start chatting

Install Unsloth Studio (Windows)

irm https://unsloth.ai/install.ps1 | iex
# Run unsloth studio
unsloth studio -H 0.0.0.0 -p 8888
# Then open http://localhost:8888 in your browser
# Search for Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf to start chatting

Using HuggingFace Spaces for Unsloth

# No setup required
# Open https://huggingface.co/spaces/unsloth/studio in your browser
# Search for Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf to start chatting

How to use Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf with Pi:

Start the llama.cpp server

# Install llama.cpp:
brew install llama.cpp
# Start a local OpenAI-compatible server:
llama-server -hf Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf:IQ4_XS_DIFFUSIONGEMMA

Configure the model in Pi

# Install Pi:
npm install -g @mariozechner/pi-coding-agent
# Add to ~/.pi/agent/models.json:
{
  "providers": {
    "llama-cpp": {
      "baseUrl": "http://localhost:8080/v1",
      "api": "openai-completions",
      "apiKey": "none",
      "models": [
        {
          "id": "Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf:IQ4_XS_DIFFUSIONGEMMA"
        }
      ]
    }
  }
}

Run Pi

# Start Pi in your project directory:
pi

Hermes Agent new

How to use Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf with Hermes Agent:

Start the llama.cpp server

# Install llama.cpp:
brew install llama.cpp
# Start a local OpenAI-compatible server:
llama-server -hf Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf:IQ4_XS_DIFFUSIONGEMMA

Configure Hermes

# Install Hermes:
curl -fsSL https://hermes-agent.nousresearch.com/install.sh | bash
hermes setup
# Point Hermes at the local server:
hermes config set model.provider custom
hermes config set model.base_url http://127.0.0.1:8080/v1
hermes config set model.default Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf:IQ4_XS_DIFFUSIONGEMMA

Run Hermes

hermes

Atomic Chat new
Docker Model Runner
How to use Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf with Docker Model Runner:
```
docker model run hf.co/Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf:IQ4_XS_DIFFUSIONGEMMA
```

Lemonade

How to use Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf with Lemonade:

Pull the model

# Download Lemonade from https://lemonade-server.ai/
lemonade pull Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf:IQ4_XS_DIFFUSIONGEMMA

Run and chat with the model

lemonade run user.OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf-IQ4_XS_DIFFUSIONGEMMA

List all available models

lemonade list

ΩFFΣLLIα × DiffusionGemma

ΩFFΣLLIα_DiffusionGemma-26B-A4B-it

Derivado do modelo oficial da Google google/diffusiongemma-26B-A4B-it, otimizado para inferência local e fluxos de trabalho multimodais.

Este é um modelo derivado. Todos os créditos de pesos e arquitetura pertencem ao Google DeepMind.

📌 Visão geral

Item	Valor
Nome do modelo	ΩFFΣLLIα_DiffusionGemma-26B-A4B-it
Formato	Safetensors (BF16)
Arquitetura	DiffusionGemma (MoE encoder-decoder, difusão discreta)
Parâmetros totais	25.2B
Parâmetros ativos	3.8B (por token)
Especialistas (Experts)	8 ativos / 128 totais + 1 compartilhado
Camadas	30
Sliding window	1024 tokens
Contexto máximo	256K tokens
Canvas de geração	256 tokens
Vocabulário	262K
Vision Encoder	~550M parâmetros
Modalidades	Texto, Imagem, Vídeo (como frames)
Modelo base	google/diffusiongemma-26B-A4B-it
Autores	Google DeepMind
Licença	Apache 2.0 (Gemma 4 License)

🌐 Idiomas suportados

Suporte nativo para mais de 35 idiomas, pré-treinado em mais de 140 línguas. Tags principais: Inglês, Português, Alemão, Espanhol, Francês, Italiano, Japonês e Chinês. (en, pt, de, es, fr, it, ja, zh)

🧠 Sobre o DiffusionGemma 26B-A4B

O DiffusionGemma é um modelo generativo multimodal construído pela Google DeepMind sobre a arquitetura Gemma 4 26B A4B Mixture-of-Experts (MoE), utilizando difusão discreta para geração de tokens. Diferente de modelos autoregressivos tradicionais, ele gera texto por meio de multi-canvas sampling — denoising iterativo de blocos de 256 tokens em paralelo, o que reduz drasticamente os gargalos sequenciais e acelera a inferência.

A arquitetura é composta por:

Encoder autoregressivo — processa o prompt e gera o KV cache (prefill).
Decoder com atenção bidirecional — opera sobre o canvas de geração, acessando o contexto via cross-attention.
MoE esparso — 8 de 128 especialistas ativados por token, combinando alta capacidade de raciocínio com baixo footprint de memória.

Capacidades principais

Geração de alta velocidade — denoising paralelo de 256 tokens via difusão, alcançando 15–20 tokens por forward pass e velocidades superiores a 1100 tokens/s em batch-size reduzido (H100, FP8).
Inferência adaptativa — prompts simples e tarefas estruturadas (ex.: código) requerem menos passos de denoising, ajustando dinamicamente a velocidade conforme a complexidade da tarefa.
Thinking (Raciocínio) — modo de raciocínio passo a passo configurável via token <|think|>.
Long context — janela de até 256K tokens.
Visão — detecção de objetos, OCR multilíngue, parsing de documentos/PDF, gráficos, UI, reconhecimento de caligrafia e apontamento. Suporta aspect ratios e resoluções variáveis.
Vídeo — análise de conteúdo de vídeo processando sequências de frames (até 60 segundos a 1 fps).
Entrada multimodal entrelaçada — imagens, vídeo e texto podem ser combinados em um único prompt.
Function calling — suporte nativo a uso de ferramentas para fluxos agênticos.
Código e raciocínio — geração, completação e raciocínio lógico passo a passo.
System prompt nativo — suporte ao papel system para conversas mais controláveis.

📊 Benchmarks (DiffusionGemma 26B A4B instruction-tuned)

Benchmark	DiffusionGemma 26B A4B
MMLU Pro	77.6%
AIME 2026 (sem tools)	69.1%
LiveCodeBench v6	69.1%
Codeforces ELO	1429
GPQA Diamond	73.2%
HLE (sem tools)	11.0%
HLE (com search)	11.9%
BigBench Extra Hard	47.6%
MMMLU	81.5%
MMMU Pro (visão)	54.3%
MATH-Vision	70.5%
MedXPertQA MM	49.0%
MRCR v2 8 needle 128k (média)	32.0%

🚀 Uso rápido com Transformers

from transformers import DiffusionGemmaForBlockDiffusion, AutoProcessor

MODEL_ID = "google/diffusiongemma-26B-A4B-it"

# Carregar modelo
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = DiffusionGemmaForBlockDiffusion.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto",
)

# Prompt
message = [
    {"role": "user", "content": "Explique a teoria dos números primos."}
]

# Processar entrada
input_ids = processor.apply_chat_template(
    message,
    tokenize=True,
    add_generation_prompt=True,
    return_dict=True,
    return_tensors="pt"
).to(model.device)

output = model.generate(**input_ids, max_new_tokens=512)

# Decodificar saída
text = processor.decode(output[0], skip_special_tokens=False)
print(text)

Parâmetros recomendados de amostragem por difusão

Método: Diffusion sampling com Entropy-Bounded Denoising e Adaptive Stopping.
Máximo de passos de denoising: 48.
Temperatura: decaimento linear de 0.8 → 0.4.
Entropy bound: 0.1 (seleção de tokens de menor entropia por passo).
Adaptive Stopping: encerra quando a entropia média do canvas < 0.005 e as previsões de maior probabilidade permanecem idênticas entre dois passos consecutivos.

Modo de raciocínio (thinking)

Habilitado incluindo o token <|think|> no início do system prompt; remova o token para desativar. Bibliotecas como Transformers cuidam das complexidades do chat template automaticamente.

Ordem das modalidades

Para melhor desempenho com entradas multimodais, coloque imagens antes do texto no prompt.

Resolução variável de imagem

Orçamentos de tokens visuais suportados: 70, 140, 280, 560 e 1120.

Use orçamentos menores para classificação, legendagem ou vídeo (mais velocidade).
Use orçamentos maiores para OCR, parsing de documentos ou leitura de texto pequeno.

🎯 Casos de uso

Geração de texto, chatbots e IA conversacional, sumarização, extração de dados de imagens, análise de vídeo, pesquisa em NLP/VLM, ferramentas educacionais, agentes com function calling e aplicações que demandam alta velocidade de geração com baixa latência.

⚖️ Licença e termos

O uso é regido pela Gemma 4 License / Apache 2.0. Recomenda-se seguir o Responsible Generative AI Toolkit e implementar salvaguardas de segurança adequadas ao seu caso de uso.

📚 Referências

Modelo oficial: https://huggingface.co/google/diffusiongemma-26B-A4B-it
Coleção Gemma 4: https://huggingface.co/collections/google/gemma-4
GitHub: https://github.com/google-gemma
Documentação: https://ai.google.dev/gemma/docs/core
Blog de lançamento: https://developers.googleblog.com/diffusiongemma-the-developer-guide/

🙏 Créditos

Modelo original: Google DeepMind
Derivação e adaptação: Brunobkr (ΩFFΣLLIα)

Downloads last month: 1,158

GGUF

Model size

25B params

Architecture

diffusion-gemma

Hardware compatibility

4-bit

Model tree for Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf

Base model

google/diffusiongemma-26B-A4B-it

Quantized

(23)

this model