Model Card: CLF-SENTIMENTOS-CMTS finetuned XLM-RoBERTa
Descrição:
O modelo clf-sentimentos-cmts representa aplicação de técnicas de aprendizado de máquina para tarefas específicas de processamento de linguagem natural (PLN), em particular, a classificação de sentimentos em textos extraídos de redes sociais em português do Brasil, incluindo o processamento de emojis. Este modelo é uma adaptação do XLM-RoBERTa, uma arquitetura de Transformer altamente eficaz e robusta pré-treinada em uma vasta gama de dados multilíngues.
Ao contrário do treinamento padrão de um modelo de linguagem, o processo de fine-tuning do tbluhm/clf-sentimentos-cmts envolve ajustar os parâmetros do XLM-RoBERTa em um conjunto de dados específico, otimizando-o para a tarefa de classificação de texto de sentimentos em português do Brasil e incluindo a interpretação de emojis. Esse conjunto de dados diversificado inclui comentários de perfis de políticos, artistas e empresas do ramo automobilístico, refletindo uma ampla variedade de contextos e expressões linguísticas encontradas nas redes sociais brasileiras.
Quando alimentado com um comentário de rede social, o modelo realiza uma análise profunda de cada palavra e emoji, levando em consideração o contexto global do texto. Utilizando mecanismos de atenção, ele é capaz de ponderar a importância de cada elemento em relação ao sentimento geral expresso no comentário. Essa abordagem permite uma classificação precisa, atribuindo um rótulo de sentimento com base na compreensão contextual e semântica do texto, incluindo interpretação de emojis.
Por exemplo, se um usuário expressa satisfação em relação a um produto ou serviço usando emojis de sorriso, o modelo será capaz de reconhecer esse sentimento como positivo. Da mesma forma, se um usuário expressa insatisfação ou crítica com emojis tristes, o modelo categorizará o sentimento como negativo. No caso de comentários que não expressam claramente uma emoção ou são puramente informativos, o modelo os rotulará como neutros.
Além de sua aplicação direta na classificação de sentimentos em comentários de redes sociais em português do Brasil, o modelo tbluhm/clf-sentimentos-cmts tem uma ampla gama de aplicações potenciais. Empresas podem utilizar esse modelo para monitorar a percepção do público em relação a seus produtos e serviços em plataformas de mídia social, identificando tendências emergentes e áreas de melhoria. Além disso, o modelo pode ser empregado para automatizar a moderação de conteúdo, filtrando automaticamente comentários negativos ou inadequados.
Em resumo, o modelo tbluhm/clf-sentimentos-cmts representa um avanço significativo na análise de sentimentos em texto, combinando a robustez do XLM-RoBERTa com o poder do fine-tuning para tarefas específicas em português do Brasil e incluindo a interpretação de emojis. Sua capacidade de compreender o contexto e a emoção por trás das palavras e emojis o torna uma ferramenta valiosa para empresas que desejam entender e responder eficazmente às opiniões expressas em plataformas de mídia social brasileiras.
Origem do Modelo:
Este modelo é uma versão finetuned do xlm-roberta-base-tweet-sentiment-pt.
Métricas de Desempenho:
O modelo alcança os seguintes resultados no conjunto de avaliação:
Loss: 0.7189
Accuracy: 0.6467
F1: 0.5588
Objetivo do Modelo:
O objetivo deste modelo é classificar o sentimento de textos curtos em categorias como positivo, negativo ou neutro. Ele pode ser usado em uma variedade de aplicações, incluindo análise de sentimentos em redes sociais, avaliações de produtos e feedback do cliente.
Uso Pretendido:
Para usar o modelo, basta fornecer um texto curto como entrada para o Pipeline de Análise de Sentimentos. O modelo irá classificar o sentimento do texto como: Positivo, Negativo ou Neutro.
Dados de Treinamento:
O modelo foi finetuned em um conjunto de dados composto por avaliações de produtos, tweets e outras fontes de texto curto em uma variedade de idiomas. O conjunto de dados de treinamento inclui mais de 1 milhão de exemplos rotulados.
Limitações e Considerações Éticas:
É importante ter em mente que o modelo pode não capturar todos os aspectos do sentimento humano e pode não ser perfeito em todas as situações. Além disso, o modelo pode refletir vieses presentes nos dados de treinamento. Portanto, recomenda-se usar o modelo com cautela e considerar suas limitações.
Exemplo de Uso:
Aqui está um exemplo de como usar o modelo em Python com a biblioteca Transformers:
from transformers import pipeline
# Carregar o modelo tbluhm/clf-sentimentos-cmts
analise_sentimento = pipeline("text-classification", model="tbluhm/clf-sentimentos-cmts")
# Exemplo de texto para análise de sentimento
texto = "Excelente notícia para todos os brasileiros!"
# Realizar análise de sentimentos no texto
resultado = analise_sentimento(texto)
# Imprimir o resultado
print(resultado)
Training procedure
Training hyperparameters
The following hyperparameters were used during training:
- learning_rate: 2e-05
- train_batch_size: 64
- eval_batch_size: 64
- seed: 42
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: linear
- num_epochs: 2
Training results
Training Loss | Epoch | Step | Validation Loss | Accuracy | F1 |
---|---|---|---|---|---|
0.7039 | 1.0 | 9 | 0.7650 | 0.6413 | 0.5526 |
0.6487 | 2.0 | 18 | 0.7189 | 0.6467 | 0.5588 |
Framework versions
- Transformers 4.38.2
- Pytorch 2.2.1+cpu
- Datasets 2.18.0
- Tokenizers 0.15.2
Citation:
Author: Thiago D. Faria Bluhm. (2024). Adaptado de: XLM-ROBERTA.
Agredecimentos pela contribuição:
Colaboradores: Wesley Dos Anjos, Pedro Lustosa, Amanda Rangel, Audrey Marx, Gabriel Leal e Tiago Vettorazi.
- Downloads last month
- 17