Sensasional!

#3
by nicolasdec - opened

Obrigado @eduagarcia por esse leaderboard!

Fico feliz que tenha gostado :) Obrigado

Os evals rodam no spaces? ou tem um componente externo? Queria fork para testar finetunes.

Os evals rodam em um cluster de gpu externo, esse space mostra apenas os resultados e a fila de modelos.
No "About" tem um mini tutorial de como reproduzir o mesmo benchmark localmente, basta instalar o meu fork do Eleuther AI Language Model Evaluation Harness - https://github.com/eduagarcia/lm-evaluation-harness-pt
Pegando o exemplo do @nicholasKluge , você pode rodar o seguinte comando no Colab:

!git clone --branch main https://github.com/eduagarcia/lm-evaluation-harness-pt.git
!cd lm-evaluation-harness-pt && pip install -e . -q
!pip install cohere tiktoken sentencepiece -q

!cd lm-evaluation-harness-pt && python lm_eval \
    --model huggingface \
    --model_args pretrained="nicholasKluge/TeenyTinyLlama-160m",revision="main" \
    --tasks enem_challenge,bluex,oab_exams,assin2_rte,assin2_sts,faquad_nli,hatebr_offensive,portuguese_hate_speech \
    --device cuda:0 \
    --output_path "./"

O único benchmark não disponível publicamente é o tweetsentbr como discutido aqui: #2

Muito obrigado! Ficou perfeito, esse leaderboard vale ouro para a comunidade. Vi que tem um backlog grande de modelos a serem avaliados, se precisar ajuda com credito de colab, etc para acelerar, estou a disposição.

eduagarcia changed discussion status to closed
eduagarcia changed discussion status to open
eduagarcia changed discussion status to closed

Sign up or log in to comment