anatel/cross-encoder-pt-sentence-similarity

A base de dados utilizada para treinar o modelo cross-encoder foram duas bases públicas em português. Os corpus ASSIN e ASSIN2 (Avaliação de Similaridade Semântica e inferência textual. Resumo dos conjuntos de dados:

ASSIN - O corpus contém pares de frases extraídas de notícias escritas em português europeu (PE) e português brasileiro (PB), obtidas no Google Notícias Portugal e Brasil, respetivamente. Para a criação do corpus, os autores começaram por recolher um conjunto de notícias que descrevem o mesmo evento (uma notícia do Google Notícias Portugal e outra do Google Notícias Brasil) do Google Notícias. O conjunto de dados completo possui 10.000 pares de frases, metade em português brasileiro (ptbr) e metade em português europeu (ptpt). Qualquer variante de idioma tem 2.500 pares para treinamento, 500 para validação e 2.000 para teste.

ASSIN 2 - O corpus ASSIN 2 é composto por frases bastante simples. Seguindo os procedimentos do SemEval 2014 Tarefa 1. Os dados de treinamento e validação são compostos, respectivamente, por 6.500 e 500 pares de frases em português brasileiro, anotados para vinculação e similaridade semântica. Os valores de similaridade semântica variam de 1 a 5, e as classes de vinculação de texto são vinculação ou nenhuma. Os dados do teste são compostos por aproximadamente 3.000 pares de frases com a mesma anotação. Todos os dados foram anotados manualmente.

Usamos os dados de treinamento, teste e validação da base ASSIN para treinar o modelo, e os dados de test do ASSIN 2 para avaliar.

Config :

Total de exemplos de treino = 10000
Total de exemplos de validação = 2448.
Epochs = 12
max_length = 512
train_batch_size = 16
Tempo de duração ~ 1:30h
Métricas = Correlation:	Pearson: 0.7782	Spearman: 0.7086