tbluhm/clf-sentimentos-cmts

Model Card: CLF-SENTIMENTOS-CMTS finetuned XLM-RoBERTa

Descrição:

O modelo clf-sentimentos-cmts representa aplicação de técnicas de aprendizado de máquina para tarefas específicas de processamento de linguagem natural (PLN), em particular, a classificação de sentimentos em textos extraídos de redes sociais em português do Brasil, incluindo o processamento de emojis. Este modelo é uma adaptação do XLM-RoBERTa, uma arquitetura de Transformer altamente eficaz e robusta pré-treinada em uma vasta gama de dados multilíngues.

Ao contrário do treinamento padrão de um modelo de linguagem, o processo de fine-tuning do tbluhm/clf-sentimentos-cmts envolve ajustar os parâmetros do XLM-RoBERTa em um conjunto de dados específico, otimizando-o para a tarefa de classificação de texto de sentimentos em português do Brasil e incluindo a interpretação de emojis. Esse conjunto de dados diversificado inclui comentários de perfis de políticos, artistas e empresas do ramo automobilístico, refletindo uma ampla variedade de contextos e expressões linguísticas encontradas nas redes sociais brasileiras.

Quando alimentado com um comentário de rede social, o modelo realiza uma análise profunda de cada palavra e emoji, levando em consideração o contexto global do texto. Utilizando mecanismos de atenção, ele é capaz de ponderar a importância de cada elemento em relação ao sentimento geral expresso no comentário. Essa abordagem permite uma classificação precisa, atribuindo um rótulo de sentimento com base na compreensão contextual e semântica do texto, incluindo interpretação de emojis.

Por exemplo, se um usuário expressa satisfação em relação a um produto ou serviço usando emojis de sorriso, o modelo será capaz de reconhecer esse sentimento como positivo. Da mesma forma, se um usuário expressa insatisfação ou crítica com emojis tristes, o modelo categorizará o sentimento como negativo. No caso de comentários que não expressam claramente uma emoção ou são puramente informativos, o modelo os rotulará como neutros.

Além de sua aplicação direta na classificação de sentimentos em comentários de redes sociais em português do Brasil, o modelo tbluhm/clf-sentimentos-cmts tem uma ampla gama de aplicações potenciais. Empresas podem utilizar esse modelo para monitorar a percepção do público em relação a seus produtos e serviços em plataformas de mídia social, identificando tendências emergentes e áreas de melhoria. Além disso, o modelo pode ser empregado para automatizar a moderação de conteúdo, filtrando automaticamente comentários negativos ou inadequados.

Em resumo, o modelo tbluhm/clf-sentimentos-cmts representa um avanço significativo na análise de sentimentos em texto, combinando a robustez do XLM-RoBERTa com o poder do fine-tuning para tarefas específicas em português do Brasil e incluindo a interpretação de emojis. Sua capacidade de compreender o contexto e a emoção por trás das palavras e emojis o torna uma ferramenta valiosa para empresas que desejam entender e responder eficazmente às opiniões expressas em plataformas de mídia social brasileiras.

Origem do Modelo:

Este modelo é uma versão finetuned do xlm-roberta-base-tweet-sentiment-pt.

Métricas de Desempenho:

O modelo alcança os seguintes resultados no conjunto de avaliação:

Loss: 0.7189

Accuracy: 0.6467

F1: 0.5588

Objetivo do Modelo:

O objetivo deste modelo é classificar o sentimento de textos curtos em categorias como positivo, negativo ou neutro. Ele pode ser usado em uma variedade de aplicações, incluindo análise de sentimentos em redes sociais, avaliações de produtos e feedback do cliente.

Uso Pretendido:

Para usar o modelo, basta fornecer um texto curto como entrada para o Pipeline de Análise de Sentimentos. O modelo irá classificar o sentimento do texto como: Positivo, Negativo ou Neutro.

Dados de Treinamento:

O modelo foi finetuned em um conjunto de dados composto por avaliações de produtos, tweets e outras fontes de texto curto em uma variedade de idiomas. O conjunto de dados de treinamento inclui mais de 1 milhão de exemplos rotulados.

Limitações e Considerações Éticas:

É importante ter em mente que o modelo pode não capturar todos os aspectos do sentimento humano e pode não ser perfeito em todas as situações. Além disso, o modelo pode refletir vieses presentes nos dados de treinamento. Portanto, recomenda-se usar o modelo com cautela e considerar suas limitações.

Exemplo de Uso:

Aqui está um exemplo de como usar o modelo em Python com a biblioteca Transformers:

from transformers import pipeline

# Carregar o modelo tbluhm/clf-sentimentos-cmts
analise_sentimento =  pipeline("text-classification", model="tbluhm/clf-sentimentos-cmts")

# Exemplo de texto para análise de sentimento
texto = "Excelente notícia para todos os brasileiros!"

# Realizar análise de sentimentos no texto
resultado = analise_sentimento(texto)

# Imprimir o resultado
print(resultado)

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 2e-05
train_batch_size: 64
eval_batch_size: 64
seed: 42
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: linear
num_epochs: 2

Training results

Training Loss	Epoch	Step	Validation Loss	Accuracy	F1
0.7039	1.0	9	0.7650	0.6413	0.5526
0.6487	2.0	18	0.7189	0.6467	0.5588

Framework versions

Transformers 4.38.2
Pytorch 2.2.1+cpu
Datasets 2.18.0
Tokenizers 0.15.2

Citation:

Author: Thiago D. Faria Bluhm. (2024). Adaptado de: XLM-ROBERTA.

Agredecimentos pela contribuição:

Colaboradores: Wesley Dos Anjos, Pedro Lustosa, Amanda Rangel, Audrey Marx, Gabriel Leal e Tiago Vettorazi.