BETO-finetuned-ner-BM
Este modelo es un finetuning de BERT base sobre el dataset conll2002. Este modelo logra los siguientes resultados sobre el conjunto de testeo:
Loss: 0.1271
Precision: 0.8705
Recall: 0.8786
F1: 0.8746
Accuracy: 0.9819
Descripción
CoNLL2002 es el conjunto de datos español de la Tarea Compartida CoNLL-2002 (Tjong Kim Sang, 2002). El conjunto de datos está anotado con cuatro tipos de entidades nombradas (personas, ubicaciones, organizaciones y otras entidades diversas) formateadas en el formato estándar Beginning-Inside-Outside (BIO). El corpus consta de 8.324 sentencias de tren con 19.400 entidades nombradas, 1.916 sentencias de desarrollo con 4.568 entidades nombradas y 1.518 sentencias de prueba con 3.644 entidades nombradas. Training and evaluation data
El modelo fue entrenado con una GPU 3060ti de 8GB a 10 épocas y con un batch-seize de 16 y evaluado con F1-score por cada una de las épocas.
Hiperparámetro
learning_rate: 2e-5
train_batch_size: 16
eval_batch_size: 16
optimizer: Adam with epsilon=1e-5
max_grad_norm: 1.0
num_epochs: 10
Framework versions
Transformers 4.41.1
Pytorch 2.3.0+cu118
Datasets 2.19.1
Tokenizers 0.19.1
- Downloads last month
- 2