BERT-finetuned-ner-BM

Este modelo es un finetuning de BERT base sobre el dataset conll2002. Este modelo logra los siguientes resultados sobre el conjunto de testeo:

Loss:  0.115
Precision: 0.8105
Recall: 0.838
F1: 0.824
Accuracy: 0.9792

Descripción

CoNLL2002 es el conjunto de datos español de la Tarea Compartida CoNLL-2002 (Tjong Kim Sang, 2002). El conjunto de datos está anotado con cuatro tipos de entidades nombradas (personas, ubicaciones, organizaciones y otras entidades diversas) formateadas en el formato estándar Beginning-Inside-Outside (BIO). El corpus consta de 8.324 sentencias de tren con 19.400 entidades nombradas, 1.916 sentencias de desarrollo con 4.568 entidades nombradas y 1.518 sentencias de prueba con 3.644 entidades nombradas. Training and evaluation data

El modelo fue entrenado con una TPU 4 de Google Colab a 5 épocas y con un batch-size de 8 y 4 para training y evaluation respectivamente y evaluado con F1-score por cada una de las épocas.

Hiperparámetro

learning_rate=2e-5,
per_device_train_batch_size=4,
per_device_eval_batch_size=8,
num_train_epochs=5,
weight_decay=0.1,
max_grad_norm=1.0,
adam_epsilon=1e-8,
save_total_limit=2,
load_best_model_at_end=True,
push_to_hub=True,
metric_for_best_model="f1",

Framework versions

Transformers 4.41.1
Pytorch 2.3.0+cu118
Datasets 2.19.1
Tokenizers 0.19.1