fabiogpt's picture
Upload tokenizer
43a64e1 verified
---
language:
- en
library_name: transformers
---
# Model Card for Model ID
Questo modello fornisce informazioni base sull'ADR-2023 in lingua inglese
### Descrizione modello
Questo è un modello pre-addestrato GPT2 a cui è stato effettuato il fine tuning con informazioni testuali riguardanti l'ADR-2023.
E' stata utilizzata la lingua inglese per ottimizzare la resa output del modello.
Il framework utilizzato è pytorch.
Il processo di addestramento ha avuto l'obiettivo di istruire il modello a generare testo in modo coerente utilizzando un dataset composto da informazioni generali sull'ADR-2023
## Utilizzo
Si può utilizzare il modello utilizzando pytorch e richiamandolo:
from transformers import GPT2Tokenizer, GPT2LMHeadModel
tokenizer = GPT2Tokenizer.from_pretrained('fabiogpt/modello_addestrato_adr')
model = GPT2LMHeadModel.from_pretrained("fabiogpt/modello_addestrato_adr")
text = "Inizia il tuo testo qui."
encoded_input = tokenizer(text, return_tensors='pt')
output = model.generate(encoded_input['input_ids'], max_length=50)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)
## Rischi e Limitazioni
<!-- This section is meant to convey both technical and sociotechnical limitations. -->
Il modello potrebbe produrre contenuti inappropriati poiché apprende dai dati su cui è stato addestrato.
È principalmente rivolto alla generazione di testo in inglese e potrebbe non performare bene con altre lingue.
Le informazioni fornite potrebbero non essere corrette, pertanto è opportuno verificarle.
### Risultati della valutazione
Nell'utilizzo il modello raggiunge risultati soddisfacenti nella generazione di testo coerente.
Se addestrato ulteriormente con informazioni più ampie e specifiche può migliorare le prestazioni.
### Dati di addestramento
Il modello è stato addestrato con lo scopo di provare a dare informazioni aggiuntive al modello pre-addestrato.
Le informaizioni utilizzate non sono esaustive ma sono servite come base per raggiungere lo scopo e valutare la qualità dell'addestramento.
#### Pre-processing
Preprocessing:
I testi sono stati tokenizzati utilizzando il tokenizer GPT-2, che suddivide il testo in token compatibili con il modello GPT-2.
Gli input al modello sono sequenze di questi token.