Spanish
PAG-BERT / README.md
rwheel's picture
Update README.md
f163e53
metadata
license: apache-2.0
datasets:
  - hackathon-somos-nlp-2023/informes_discriminacion_gitana
language:
  - es
metrics:
  - perplexity

PAG-BERT: Protocolo Antiracismo Gitano basado en BERT

Detalles del adaptador

Este modelo ha sido creado con la librería PEFT, que nos ha permitido hacer fine tuning al modelo base bertin-project/bertin-gpt-j-6B sobre el dataset hackathon-somos-nlp-2023/informes_discriminacion_gitana usando el método LoRA.

Fuentes del modelo

Usos

El objetivo del modelo consiste en generar un conjunto de acciones ante un hecho de discriminación hacia el pueblo gitano, así como tratar de predecir si dicha acción tendrá un resultado positivo, negativo o neutro. Por ejemplo, ante el hecho "Una joven gitana fue a hacer la compra acompañada de su hija de 12 años y su sobrina de ocho. Mientras compraban, el vigilante de seguridad no dejó de seguirlas en todo momento.", el modelo debe sugerir una posible intervención ante este supuesto caso: "Desde la FSG se asesoró a la joven de sus derechos y de cómo actuar ante un incidente de este tipo." y el posible resultado esperado tras aplicar dicha intervención.

Cómo empezar a utilizar el modelo

Use el código mostrado a continuación para comenzar a utilizar el modelo.

import torch
from peft import PeftModel, PeftConfig
from transformers import AutoModelForCausalLM, AutoTokenizer

peft_model_id = "hackathon-somos-nlp-2023/discriminacion_gitana_intervenciones_balanceado"
config = PeftConfig.from_pretrained(peft_model_id)
model = AutoModelForCausalLM.from_pretrained(config.base_model_name_or_path, return_dict=True, load_in_8bit=True, device_map='auto')
tokenizer = AutoTokenizer.from_pretrained(peft_model_id)
# Load the Lora model
model = PeftModel.from_pretrained(model, peft_model_id)

def predecir_intervencion(text):
    text = "<SH>" + text + " Intervención: "
    batch = tokenizer(text, return_tensors='pt')
    with torch.cuda.amp.autocast():
        output_tokens = model.generate(**batch, max_new_tokens=256, eos_token_id=50258)

    output = tokenizer.decode(output_tokens[0], skip_special_tokens=False)

    aux = output.split("Intervención:")[1].strip()
    intervencion = aux.split("Resultado:")[0].strip()
    resultado = aux.split("Resultado:")[1].split("<EH>")[0].strip()
    
    return intervencion, resultado

hechos = "Una joven gitana fue a hacer la compra acompañada de su hija de 12 años y su sobrina de ocho. Mientras compraban, el vigilante de seguridad no dejó de seguirlas en todo momento."
intervencion, resultado = predecir_intervencion(hechos)
print(f"Intervención: {intervencion}")
print(f"Resultado: {resultado}")

Detalles del entrenamiento

Datos de entrenamiento

Se han utilizado los datos del dataset informes_discriminacion_gitana. Cabe destacar que el conjunto de datos no está balanceado y hay un mayor número de muestras con resultado negativo y neutro que positivo. Para conseguir un entrenamiento más equilibrado hemos seleccionado de forma aleatoria el mismo número de muestras negativas y neutras que positivas y hemos realizado el entrenamiento con este subconjunto de datos.

Hiperparámetros del entrenamiento

  • Training regime: fp16
  • Step: 1000
  • Learning rate: 2e-4
  • num_epochs: 21
  • train_batch_size: 4

Métricas

  • Loss: 0.6538
  • Perplexity: 9.2

Frameworks

  • bitsandbytes 0.37.2
  • datasets 2.11.0
  • loralib 0.1.1
  • peft 0.3.0.dev0
  • pytorch 2.0.0
  • tokenizers 0.13.2
  • transformers 4.28.0.dev0

Impacto medioambiental

Las emisiones de CO2 a la hora de entrenar el modelo han sido estimadas usando la plataforma Machine Learning Impact calculator presentada en Lacoste et al. (2019). A continuación es muestran los detalles del impacto:

  • Hardware Type: RTX 3090
  • Hours used: 2.5
  • Cloud Provider: Private infrastructure
  • Compute Region: Belgium
  • Carbon Emitted: 0.38 kg

Autores