Spaces:

mii-llm
/

open_ita_llm_leaderboard

Running on CPU Upgrade

FinancialSupport commited on May 14

Commit

1edf76f

•

1 Parent(s): bf9eaed

Update src/about.py

Files changed (1) hide show

src/about.py CHANGED Viewed

@@ -40,17 +40,17 @@ LLM_BENCHMARKS_TEXT = f"""
 ## Come funziona
 Valutiamo i modelli tramite <a href="https://github.com/EleutherAI/lm-evaluation-harness" target="_blank">  Eleuther AI Language Model Evaluation Harness </a>, il framework più utilizzato dalla community internazionale per l'evaluation dei modelli
 Nella classifica troverete i dataset di benchmark più famosi, adatti alla lingua italiana. I task sono:
-- <a href="https://huggingface.co/datasets/alexandrainst/m_hellaswag" target="_blank"> hellaswag_it
-- <a href="https://huggingface.co/datasets/alexandrainst/m_arc" target="_blank"> arc_it
-- <a href="https://huggingface.co/datasets/alexandrainst/m_mmlu" target="_blank"> m_mmlu_it (5 shots)
 Per tutti questi task, a un punteggio migliore corrisponde una performance maggiore
 ## Reproducibility
-Per riprodurre i risultati scaricate la [repo](https://github.com/EleutherAI/lm-evaluation-harness) eseguite:
-lm-eval --model hf --model_args pretrained=<vostro modello> --tasks hellaswag_it,arc_it --device cuda:0 --batch_size auto:2;
-lm-eval --model hf --model_args pretrained=<vostro modello>, --tasks m_mmlu_it --num_fewshot 5 --device cuda:0 --batch_size auto:2
 """
 EVALUATION_QUEUE_TEXT = """

 ## Come funziona
 Valutiamo i modelli tramite <a href="https://github.com/EleutherAI/lm-evaluation-harness" target="_blank">  Eleuther AI Language Model Evaluation Harness </a>, il framework più utilizzato dalla community internazionale per l'evaluation dei modelli
 Nella classifica troverete i dataset di benchmark più famosi, adatti alla lingua italiana. I task sono:
+- <a href="https://huggingface.co/datasets/alexandrainst/m_hellaswag" target="_blank"> hellaswag_it </a>
+- <a href="https://huggingface.co/datasets/alexandrainst/m_arc" target="_blank"> arc_it </a>
+- <a href="https://huggingface.co/datasets/alexandrainst/m_mmlu" target="_blank"> m_mmlu_it </a> (5 shots)
 Per tutti questi task, a un punteggio migliore corrisponde una performance maggiore
 ## Reproducibility
+Per riprodurre i risultati scaricate la <a href="https://github.com/EleutherAI/lm-evaluation-harness" target="_blank">  Eleuther AI Language Model Evaluation Harness </a> ed eseguite:
+* lm-eval --model hf --model_args pretrained=<vostro modello> --tasks hellaswag_it,arc_it --device cuda:0 --batch_size auto:2;
+* lm-eval --model hf --model_args pretrained=<vostro modello>, --tasks m_mmlu_it --num_fewshot 5 --device cuda:0 --batch_size auto:2
 """
 EVALUATION_QUEUE_TEXT = """