Test Model Demo - BERT con Vocabolario Personalizzato

Modello BERT ridotto creato con un vocabolario personalizzato italiano di 50,000 parole.

Descrizione

Questo è un modello BERT (Bidirectional Encoder Representations from Transformers) ridotto con:

Architettura: 2 layer transformer, hidden size 128, 2 attention heads
Parametri: 6.9 milioni di parametri
Vocabolario: 50,005 token (incl. token speciali BERT)
Vocabolario personalizzato: Basato su un dataset italiano di 4.2+ milioni di parole

Caratteristiche

Tokenizer personalizzato con vocabolario italiano
Modello BERT ottimizzato per risorse limitate
Formato safetensors per sicurezza
Compatibile con Hugging Face Transformers

Utilizzo

from transformers import BertForMaskedLM, PreTrainedTokenizerFast

# Carica il modello e tokenizer
model = BertForMaskedLM.from_pretrained("Tonysar/test-model-demo")
tokenizer = PreTrainedTokenizerFast.from_pretrained("Tonysar/test-model-demo")

# Esempio di utilizzo
text = "a ab abc"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)

Specifiche Tecniche

Model Type: BERT for Masked Language Modeling
Vocab Size: 50,005
Hidden Size: 128
Num Hidden Layers: 2
Num Attention Heads: 2
Intermediate Size: 512
Max Position Embeddings: 128
Parameters: 6,880,853

Note

Questo modello è stato creato come demo e non ha completato il training completo. È ottimizzato per test e sviluppo su sistemi con risorse limitate.

Licenza

MIT License

Downloads last month: 93

Safetensors

Model size

6.88M params

Tensor type

F32

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support