Gemma-4-E4B-it : Pruned with Mutual Information (30%)

Ce modèle est une version compressée (élaguée) de google/gemma-4-E4B-it. L'élagage a été réalisé de manière non supervisée en supprimant 30% des neurones des couches FFN (Feed-Forward Networks / MLP) en se basant sur une analyse de la redondance par Information Mutuelle.

Le modèle est sauvegardé au format safetensors avec les poids en bfloat16, et la configuration de l'architecture (intermediate_size pour la vision et le texte) a été mise à jour dynamiquement pour garantir une compatibilité totale avec vLLM.

🚀 Utilisation avec Transformers

Vous pouvez charger et utiliser ce modèle exactement comme le modèle Gemma 4 standard :

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_id = "Jaja07/gemma4-pruned-mi"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",
    torch_dtype=torch.bfloat16
)

prompt = "Explique-moi ce qu'est le pruning de réseaux de neurones."
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

outputs = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
Downloads last month
36
Safetensors
Model size
7B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Jaja07/gemma4-pruned-mi

Finetuned
(221)
this model