eduagarcia/open_pt_llm_leaderboard

nicolasdec

Feb 22

Obrigado @eduagarcia por esse leaderboard!

eduagarcia

Owner Feb 23

Fico feliz que tenha gostado :) Obrigado

nicolasdec

Feb 24

Os evals rodam no spaces? ou tem um componente externo? Queria fork para testar finetunes.

eduagarcia

Owner Feb 24

Os evals rodam em um cluster de gpu externo, esse space mostra apenas os resultados e a fila de modelos.
No "About" tem um mini tutorial de como reproduzir o mesmo benchmark localmente, basta instalar o meu fork do Eleuther AI Language Model Evaluation Harness - https://github.com/eduagarcia/lm-evaluation-harness-pt
Pegando o exemplo do @nicholasKluge , você pode rodar o seguinte comando no Colab:

!git clone --branch main https://github.com/eduagarcia/lm-evaluation-harness-pt.git
!cd lm-evaluation-harness-pt && pip install -e . -q
!pip install cohere tiktoken sentencepiece -q

!cd lm-evaluation-harness-pt && python lm_eval \
    --model huggingface \
    --model_args pretrained="nicholasKluge/TeenyTinyLlama-160m",revision="main" \
    --tasks enem_challenge,bluex,oab_exams,assin2_rte,assin2_sts,faquad_nli,hatebr_offensive,portuguese_hate_speech \
    --device cuda:0 \
    --output_path "./"

O único benchmark não disponível publicamente é o tweetsentbr como discutido aqui: #2

nicolasdec

Feb 27

Muito obrigado! Ficou perfeito, esse leaderboard vale ouro para a comunidade. Vi que tem um backlog grande de modelos a serem avaliados, se precisar ajuda com credito de colab, etc para acelerar, estou a disposição.

eduagarcia changed discussion status to closed Feb 29

eduagarcia changed discussion status to open Feb 29

eduagarcia changed discussion status to closed Apr 2

Spaces:
Duplicated from datalawyer/legal_pt_llm_leaderboard

eduagarcia
/

open_pt_llm_leaderboard

Running on CPU Upgrade

Sensasional!