Model Card for BERT Uncased Fine-Tuned on Toxicity Detection

Model Details

Model Description

Este modelo é um BERT base uncased fine-tuned para a detecção de toxicidade em tweets. Ele foi treinado em um dataset anotado com classificação binária: 0 para tweets não tóxicos e 1 para tweets tóxicos.

  • Desenvolvido por: Carlos André Dos Santos Lima
  • Tipo de modelo: BERT (base-uncased)
  • Idiomas: Portugês
  • Licença: MIT
  • Fine-tuned a partir de: bert-base-uncased

Uses

Uso Direto

Este modelo pode ser usado para identificar tweets tóxicos em Português. Pode ser aplicado diretamente em moderação de conteúdo, análise de sentimentos e detecção de discurso de ódio.

Uso Fora do Escopo

O modelo pode apresentar viés ao classificar tweets fora do contexto do dataset de treinamento. Ele não é adequado para tomada de decisões críticas sem revisão humana.

Bias, Risks, and Limitations

  • O modelo pode apresentar viés em suas predições devido à distribuição do dataset de treinamento.
  • Pode não generalizar bem para contextos diferentes daqueles presentes no dataset.
  • Recomenda-se revisão humana para evitar classificações injustas.

How to Get Started with the Model

from transformers import pipeline

toxicity_classifier = pipeline("text-classification", model="[modelo no Hugging Face]")

text = "This is an example tweet."
result = toxicity_classifier(text)
print(result)

Training Details

Training Data

O modelo foi treinado em um dataset contendo tweets anotados manualmente como tóxicos ou não tóxicos.

Arquivos do dataset:

  • train.csv - Dados de treino
  • test.csv - Dados de teste
  • sample_submission.csv - Exemplo de submissão

Colunas:

  • id - Identificador do tweet
  • text - Conteúdo do tweet
  • label - 0: não tóxico, 1: tóxico

Training Procedure

  • Hardware: GPU T4
  • Hiperparâmetros:
    • Batch size: 64
    • Learning rate: 2e-5
    • Epochs: 5
    • Otimizador: AdamW

Evaluation

Dados e Métricas

  • Dataset de teste utilizado para avaliação.
  • Principais métricas:
    • Acurácia
    • Precisão
    • Recall
    • F1-score

Citation

Se usar este modelo, cite da seguinte forma:

@article{Carlos2025,
  title={Fine-Tuning BERT for Toxicity Detection},
  author={Carlos André Dos Santos Lima},
  journal={Hugging Face Model Hub},
  year={2025}
}

Contato

Caso tenha dúvidas ou sugestões, entre em contato pelo e-mail: casl@aluno.ifal.edu.br ou abra uma issue no repositório do modelo no Hugging Face.

Downloads last month
21
Safetensors
Model size
109M params
Tensor type
F32
·
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.

Model tree for CASLL/Bert-TwitterToxicClassification

Finetuned
(2875)
this model