raulgdp's picture
Update README.md
0996689 verified
metadata
license: apache-2.0
tags:
  - generated_from_trainer
datasets:
  - conll2002
metrics:
  - precision
  - recall
  - f1
  - accuracy
model-index:
  - name: roberta-base-bne-capitel-ner
    results:
      - task:
          name: Token Classification
          type: token-classification
        dataset:
          name: conll2002
          type: conll2002
          config: es
          split: validation
          args: es
        metrics:
          - name: Precision
            type: precision
            value: 0.8637694213015087
          - name: Recall
            type: recall
            value: 0.8814338235294118
          - name: F1
            type: f1
            value: 0.8725122256340272
          - name: Accuracy
            type: accuracy
            value: 0.9780298635072827

roberta-base-bne-capitel-ner

Este modelo es un finetuning de BSC-LT/roberta-base-bne-capitel-ner sobre el dataset conll2002. Este modelo logra los siguientes resultados sobre el conjunto de testeo:

  • Loss: 0.1137
  • Precision: 0.8638
  • Recall: 0.8814
  • F1: 0.8725
  • Accuracy: 0.9780

Model description

Intended uses & limitations

CoNLL2002 es el conjunto de datos español de la Tarea Compartida CoNLL-2002 (Tjong Kim Sang, 2002). El conjunto de datos está anotado con cuatro tipos de entidades nombradas (personas, ubicaciones, organizaciones y otras entidades diversas) formateadas en el formato estándar Beginning-Inside-Outside (BIO). El corpus consta de 8.324 sentencias de tren con 19.400 entidades nombradas, 1.916 sentencias de desarrollo con 4.568 entidades nombradas y 1.518 sentencias de prueba con 3.644 entidades nombradas.

Training and evaluation data

El modelo fue entrenado con una GPU 3080 TI de 10 Gz a 5 épocas y con un batch-seize de 8 y evaluado con F1-score por cada una de las épocas.

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 2e-05
  • train_batch_size: 8
  • eval_batch_size: 8
  • seed: 42
  • optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
  • lr_scheduler_type: linear
  • num_epochs: 5

Training results

Training Loss Epoch Step Validation Loss Precision Recall F1 Accuracy
0.0041 1.0 1041 0.1137 0.8638 0.8814 0.8725 0.9780
0.004 2.0 2082 0.1137 0.8638 0.8814 0.8725 0.9780
0.0039 3.0 3123 0.1137 0.8638 0.8814 0.8725 0.9780
0.003 4.0 4164 0.1137 0.8638 0.8814 0.8725 0.9780
0.0032 5.0 5205 0.1137 0.8638 0.8814 0.8725 0.9780

Framework versions

  • Transformers 4.30.0
  • Pytorch 2.0.1+cu117
  • Datasets 2.14.4
  • Tokenizers 0.13.3