Test Model Demo - BERT con Vocabolario Personalizzato

Modello BERT ridotto creato con un vocabolario personalizzato italiano di 50,000 parole.

Descrizione

Questo è un modello BERT (Bidirectional Encoder Representations from Transformers) ridotto con:

  • Architettura: 2 layer transformer, hidden size 128, 2 attention heads
  • Parametri: 6.9 milioni di parametri
  • Vocabolario: 50,005 token (incl. token speciali BERT)
  • Vocabolario personalizzato: Basato su un dataset italiano di 4.2+ milioni di parole

Caratteristiche

  • Tokenizer personalizzato con vocabolario italiano
  • Modello BERT ottimizzato per risorse limitate
  • Formato safetensors per sicurezza
  • Compatibile con Hugging Face Transformers

Utilizzo

from transformers import BertForMaskedLM, PreTrainedTokenizerFast

# Carica il modello e tokenizer
model = BertForMaskedLM.from_pretrained("Tonysar/test-model-demo")
tokenizer = PreTrainedTokenizerFast.from_pretrained("Tonysar/test-model-demo")

# Esempio di utilizzo
text = "a ab abc"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)

Specifiche Tecniche

  • Model Type: BERT for Masked Language Modeling
  • Vocab Size: 50,005
  • Hidden Size: 128
  • Num Hidden Layers: 2
  • Num Attention Heads: 2
  • Intermediate Size: 512
  • Max Position Embeddings: 128
  • Parameters: 6,880,853

Note

Questo modello è stato creato come demo e non ha completato il training completo. È ottimizzato per test e sviluppo su sistemi con risorse limitate.

Licenza

MIT License

Downloads last month
93
Safetensors
Model size
6.88M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support