Spaces:
Running
on
CPU Upgrade
Running
on
CPU Upgrade
FinancialSupport
commited on
Commit
•
1edf76f
1
Parent(s):
bf9eaed
Update src/about.py
Browse files- src/about.py +6 -6
src/about.py
CHANGED
@@ -40,17 +40,17 @@ LLM_BENCHMARKS_TEXT = f"""
|
|
40 |
## Come funziona
|
41 |
Valutiamo i modelli tramite <a href="https://github.com/EleutherAI/lm-evaluation-harness" target="_blank"> Eleuther AI Language Model Evaluation Harness </a>, il framework più utilizzato dalla community internazionale per l'evaluation dei modelli
|
42 |
Nella classifica troverete i dataset di benchmark più famosi, adatti alla lingua italiana. I task sono:
|
43 |
-
- <a href="https://huggingface.co/datasets/alexandrainst/m_hellaswag" target="_blank"> hellaswag_it
|
44 |
-
- <a href="https://huggingface.co/datasets/alexandrainst/m_arc" target="_blank"> arc_it
|
45 |
-
- <a href="https://huggingface.co/datasets/alexandrainst/m_mmlu" target="_blank"> m_mmlu_it (5 shots)
|
46 |
|
47 |
Per tutti questi task, a un punteggio migliore corrisponde una performance maggiore
|
48 |
|
49 |
|
50 |
## Reproducibility
|
51 |
-
Per riprodurre i risultati scaricate la
|
52 |
-
lm-eval --model hf --model_args pretrained=<vostro modello> --tasks hellaswag_it,arc_it --device cuda:0 --batch_size auto:2;
|
53 |
-
lm-eval --model hf --model_args pretrained=<vostro modello>, --tasks m_mmlu_it --num_fewshot 5 --device cuda:0 --batch_size auto:2
|
54 |
"""
|
55 |
|
56 |
EVALUATION_QUEUE_TEXT = """
|
|
|
40 |
## Come funziona
|
41 |
Valutiamo i modelli tramite <a href="https://github.com/EleutherAI/lm-evaluation-harness" target="_blank"> Eleuther AI Language Model Evaluation Harness </a>, il framework più utilizzato dalla community internazionale per l'evaluation dei modelli
|
42 |
Nella classifica troverete i dataset di benchmark più famosi, adatti alla lingua italiana. I task sono:
|
43 |
+
- <a href="https://huggingface.co/datasets/alexandrainst/m_hellaswag" target="_blank"> hellaswag_it </a>
|
44 |
+
- <a href="https://huggingface.co/datasets/alexandrainst/m_arc" target="_blank"> arc_it </a>
|
45 |
+
- <a href="https://huggingface.co/datasets/alexandrainst/m_mmlu" target="_blank"> m_mmlu_it </a> (5 shots)
|
46 |
|
47 |
Per tutti questi task, a un punteggio migliore corrisponde una performance maggiore
|
48 |
|
49 |
|
50 |
## Reproducibility
|
51 |
+
Per riprodurre i risultati scaricate la <a href="https://github.com/EleutherAI/lm-evaluation-harness" target="_blank"> Eleuther AI Language Model Evaluation Harness </a> ed eseguite:
|
52 |
+
* lm-eval --model hf --model_args pretrained=<vostro modello> --tasks hellaswag_it,arc_it --device cuda:0 --batch_size auto:2;
|
53 |
+
* lm-eval --model hf --model_args pretrained=<vostro modello>, --tasks m_mmlu_it --num_fewshot 5 --device cuda:0 --batch_size auto:2
|
54 |
"""
|
55 |
|
56 |
EVALUATION_QUEUE_TEXT = """
|