ΩFFΣLLIα × DiffusionGemma

ΩFFΣLLIα_DiffusionGemma-26B-A4B-it

Derivado do modelo oficial da Google google/diffusiongemma-26B-A4B-it, otimizado para inferência local e fluxos de trabalho multimodais.

Este é um modelo derivado. Todos os créditos de pesos e arquitetura pertencem ao Google DeepMind.

📌 Visão geral

Item Valor
Nome do modelo ΩFFΣLLIα_DiffusionGemma-26B-A4B-it
Formato Safetensors (BF16)
Arquitetura DiffusionGemma (MoE encoder-decoder, difusão discreta)
Parâmetros totais 25.2B
Parâmetros ativos 3.8B (por token)
Especialistas (Experts) 8 ativos / 128 totais + 1 compartilhado
Camadas 30
Sliding window 1024 tokens
Contexto máximo 256K tokens
Canvas de geração 256 tokens
Vocabulário 262K
Vision Encoder ~550M parâmetros
Modalidades Texto, Imagem, Vídeo (como frames)
Modelo base google/diffusiongemma-26B-A4B-it
Autores Google DeepMind
Licença Apache 2.0 (Gemma 4 License)

🌐 Idiomas suportados

Suporte nativo para mais de 35 idiomas, pré-treinado em mais de 140 línguas. Tags principais: Inglês, Português, Alemão, Espanhol, Francês, Italiano, Japonês e Chinês. (en, pt, de, es, fr, it, ja, zh)

🧠 Sobre o DiffusionGemma 26B-A4B

O DiffusionGemma é um modelo generativo multimodal construído pela Google DeepMind sobre a arquitetura Gemma 4 26B A4B Mixture-of-Experts (MoE), utilizando difusão discreta para geração de tokens. Diferente de modelos autoregressivos tradicionais, ele gera texto por meio de multi-canvas sampling — denoising iterativo de blocos de 256 tokens em paralelo, o que reduz drasticamente os gargalos sequenciais e acelera a inferência.

A arquitetura é composta por:

  • Encoder autoregressivo — processa o prompt e gera o KV cache (prefill).
  • Decoder com atenção bidirecional — opera sobre o canvas de geração, acessando o contexto via cross-attention.
  • MoE esparso — 8 de 128 especialistas ativados por token, combinando alta capacidade de raciocínio com baixo footprint de memória.

Capacidades principais

  • Geração de alta velocidade — denoising paralelo de 256 tokens via difusão, alcançando 15–20 tokens por forward pass e velocidades superiores a 1100 tokens/s em batch-size reduzido (H100, FP8).
  • Inferência adaptativa — prompts simples e tarefas estruturadas (ex.: código) requerem menos passos de denoising, ajustando dinamicamente a velocidade conforme a complexidade da tarefa.
  • Thinking (Raciocínio) — modo de raciocínio passo a passo configurável via token <|think|>.
  • Long context — janela de até 256K tokens.
  • Visão — detecção de objetos, OCR multilíngue, parsing de documentos/PDF, gráficos, UI, reconhecimento de caligrafia e apontamento. Suporta aspect ratios e resoluções variáveis.
  • Vídeo — análise de conteúdo de vídeo processando sequências de frames (até 60 segundos a 1 fps).
  • Entrada multimodal entrelaçada — imagens, vídeo e texto podem ser combinados em um único prompt.
  • Function calling — suporte nativo a uso de ferramentas para fluxos agênticos.
  • Código e raciocínio — geração, completação e raciocínio lógico passo a passo.
  • System prompt nativo — suporte ao papel system para conversas mais controláveis.

📊 Benchmarks (DiffusionGemma 26B A4B instruction-tuned)

Benchmark DiffusionGemma 26B A4B
MMLU Pro 77.6%
AIME 2026 (sem tools) 69.1%
LiveCodeBench v6 69.1%
Codeforces ELO 1429
GPQA Diamond 73.2%
HLE (sem tools) 11.0%
HLE (com search) 11.9%
BigBench Extra Hard 47.6%
MMMLU 81.5%
MMMU Pro (visão) 54.3%
MATH-Vision 70.5%
MedXPertQA MM 49.0%
MRCR v2 8 needle 128k (média) 32.0%

🚀 Uso rápido com Transformers

from transformers import DiffusionGemmaForBlockDiffusion, AutoProcessor

MODEL_ID = "google/diffusiongemma-26B-A4B-it"

# Carregar modelo
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = DiffusionGemmaForBlockDiffusion.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto",
)

# Prompt
message = [
    {"role": "user", "content": "Explique a teoria dos números primos."}
]

# Processar entrada
input_ids = processor.apply_chat_template(
    message,
    tokenize=True,
    add_generation_prompt=True,
    return_dict=True,
    return_tensors="pt"
).to(model.device)

output = model.generate(**input_ids, max_new_tokens=512)

# Decodificar saída
text = processor.decode(output[0], skip_special_tokens=False)
print(text)

Parâmetros recomendados de amostragem por difusão

  • Método: Diffusion sampling com Entropy-Bounded Denoising e Adaptive Stopping.
  • Máximo de passos de denoising: 48.
  • Temperatura: decaimento linear de 0.8 → 0.4.
  • Entropy bound: 0.1 (seleção de tokens de menor entropia por passo).
  • Adaptive Stopping: encerra quando a entropia média do canvas < 0.005 e as previsões de maior probabilidade permanecem idênticas entre dois passos consecutivos.

Modo de raciocínio (thinking)

Habilitado incluindo o token <|think|> no início do system prompt; remova o token para desativar. Bibliotecas como Transformers cuidam das complexidades do chat template automaticamente.

Ordem das modalidades

Para melhor desempenho com entradas multimodais, coloque imagens antes do texto no prompt.

Resolução variável de imagem

Orçamentos de tokens visuais suportados: 70, 140, 280, 560 e 1120.

  • Use orçamentos menores para classificação, legendagem ou vídeo (mais velocidade).
  • Use orçamentos maiores para OCR, parsing de documentos ou leitura de texto pequeno.

🎯 Casos de uso

Geração de texto, chatbots e IA conversacional, sumarização, extração de dados de imagens, análise de vídeo, pesquisa em NLP/VLM, ferramentas educacionais, agentes com function calling e aplicações que demandam alta velocidade de geração com baixa latência.

⚖️ Licença e termos

O uso é regido pela Gemma 4 License / Apache 2.0. Recomenda-se seguir o Responsible Generative AI Toolkit e implementar salvaguardas de segurança adequadas ao seu caso de uso.

📚 Referências

🙏 Créditos

  • Modelo original: Google DeepMind
  • Derivação e adaptação: Brunobkr (ΩFFΣLLIα)
Downloads last month
1,158
GGUF
Model size
25B params
Architecture
diffusion-gemma
Hardware compatibility
Log In to add your hardware

4-bit

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Brunobkr/OFFELLIA_IQ4_XS_diffusiongemma-26B-A4B-it.gguf

Quantized
(23)
this model