Spaces:
Running
on
CPU Upgrade
Sensasional!
Obrigado @eduagarcia por esse leaderboard!
Fico feliz que tenha gostado :) Obrigado
Os evals rodam no spaces? ou tem um componente externo? Queria fork para testar finetunes.
Os evals rodam em um cluster de gpu externo, esse space mostra apenas os resultados e a fila de modelos.
No "About" tem um mini tutorial de como reproduzir o mesmo benchmark localmente, basta instalar o meu fork do Eleuther AI Language Model Evaluation Harness - https://github.com/eduagarcia/lm-evaluation-harness-pt
Pegando o exemplo do
@nicholasKluge
, você pode rodar o seguinte comando no Colab:
!git clone --branch main https://github.com/eduagarcia/lm-evaluation-harness-pt.git
!cd lm-evaluation-harness-pt && pip install -e . -q
!pip install cohere tiktoken sentencepiece -q
!cd lm-evaluation-harness-pt && python lm_eval \
--model huggingface \
--model_args pretrained="nicholasKluge/TeenyTinyLlama-160m",revision="main" \
--tasks enem_challenge,bluex,oab_exams,assin2_rte,assin2_sts,faquad_nli,hatebr_offensive,portuguese_hate_speech \
--device cuda:0 \
--output_path "./"
O único benchmark não disponível publicamente é o tweetsentbr
como discutido aqui: #2
Muito obrigado! Ficou perfeito, esse leaderboard vale ouro para a comunidade. Vi que tem um backlog grande de modelos a serem avaliados, se precisar ajuda com credito de colab, etc para acelerar, estou a disposição.