File size: 7,698 Bytes
6ee7257
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
a7ea338
 
 
 
 
 
 
 
 
6ee7257
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
from src.display.utils import ModelType

TITLE = """<h1 style="text-align:left;float:left; id="space-title">DeathMath Leaderboard</h1> <h3 style="text-align:left;float:left;"> Оценка моделей на сложных математических и физических задачах </h3>"""

INTRODUCTION_TEXT = """
# DeathMath Benchmark

DeathMath - это бенчмарк для оценки способности моделей решать сложные математические и физические задачи на русском языке.

## Что оценивает бенчмарк?

- **RussianMath Score**: Оценка способности решать математические задачи на русском языке
- **RussianPhysics Score**: Оценка способности решать задачи по физике на русском языке
- **Combined Score**: Общая оценка (среднее математики и физики)
"""

# Определяем переменную icons для использования в EVALUATION_QUEUE_TEXT
icons = """
- 🟢 pretrained model: базовые модели
- 🟩 continuously pretrained model: модели с продолженным предобучением
- 🔶 fine-tuned model: дообученные модели на специфических данных
- 💬 chat model: модели для диалогов (RLHF, DPO, IFT)
- 🤝 merged model: объединенные модели
"""

LLM_BENCHMARKS_TEXT = """
## Как запустить бенчмарк DeathMath

Для оценки вашей модели на бенчмарке DeathMath вам нужно:

### Установка
Клонируйте репозиторий DeathMath и установите необходимые зависимости:
```bash
git clone https://github.com/DeathMath/benchmark.git
cd DeathMath
pip install -r requirements.txt
```

### Запуск
Для запуска оценки используйте скрипт runner.py:
```bash
python runner.py --config configs/run.yaml --model your_model_name_or_path
```

### Формат результатов
После выполнения оценки, результаты будут сохранены в директории `results/`. Вам нужно будет подготовить JSON файл с результатами в следующем формате:

```json
{
  "score": 0.586,
  "math_score": 0.8,
  "physics_score": 0.373,
  "total_tokens": 1394299,
  "evaluation_time": 4533.2,
  "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
}
```

### Загрузка результатов
Загрузите полученный JSON файл через вкладку "Submit Model" на этом лидерборде.

### Политика против читерства
При обнаружении попыток манипуляции результатами или модификации выходного файла, мы оставляем за собой право удалить ваш результат из лидерборда.
"""

FAQ_TEXT = """
## Часто задаваемые вопросы

### Общие вопросы
**Q: Какие типы моделей поддерживаются?**  
A: Мы поддерживаем любые языковые модели, которые можно запустить локально или через API, и которые могут решать задачи на русском языке.

**Q: Как оцениваются модели в бенчмарке?**  
A: Модели оцениваются по способности решать математические и физические задачи на русском языке. Оценки выставляются на основе правильности решений.

### Отправка результатов
**Q: Как отправить результаты моей модели?**  
A: Запустите оценку, подготовьте JSON файл с результатами и загрузите его через вкладку "Submit Model".

**Q: Могу ли я обновить результаты моей модели?**  
A: Да, вы можете отправить новые результаты той же модели, если, например, вы улучшили ее работу.

### Технические вопросы
**Q: Что делать, если возникли проблемы с запуском оценки?**  
A: Проверьте правильность установки всех зависимостей и конфигурации. Если проблема не решается, создайте issue в репозитории проекта.

**Q: Как проверяются результаты на достоверность?**  
A: Мы анализируем распределение результатов и подозрительные результаты могут быть проверены дополнительно.
"""

EVALUATION_QUEUE_TEXT = f"""
# Evaluation Queue for the 🤗 Open LLM Leaderboard

Models added here will be automatically evaluated on the 🤗 cluster.

## Don't forget to read the FAQ and the About tabs for more information!

## First steps before submitting a model

### 1) Make sure you can load your model and tokenizer using AutoClasses:
```python
from transformers import AutoConfig, AutoModel, AutoTokenizer
config = AutoConfig.from_pretrained("your model name", revision=revision)
model = AutoModel.from_pretrained("your model name", revision=revision)
tokenizer = AutoTokenizer.from_pretrained("your model name", revision=revision)
```
If this step fails, follow the error messages to debug your model before submitting it. It's likely your model has been improperly uploaded.

Note: make sure your model is public!
Note: if your model needs `use_remote_code=True`, we do not support this option yet but we are working on adding it, stay posted!

### 2) Convert your model weights to [safetensors](https://huggingface.co/docs/safetensors/index)
It's a new format for storing weights which is safer and faster to load and use. It will also allow us to add the number of parameters of your model to the `Extended Viewer`!

### 3) Make sure your model has an open license!
This is a leaderboard for Open LLMs, and we'd love for as many people as possible to know they can use your model 🤗

### 4) Fill up your model card
When we add extra information about models to the leaderboard, it will be automatically taken from the model card

### 5) Select the correct precision
Not all models are converted properly from `float16` to `bfloat16`, and selecting the wrong precision can sometimes cause evaluation error (as loading a `bf16` model in `fp16` can sometimes generate NaNs, depending on the weight range).

<b>Note:</b> Please be advised that when submitting, git <b>branches</b> and <b>tags</b> will be strictly tied to the <b>specific commit</b> present at the time of submission. This ensures revision consistency.
## Model types
{icons}
"""

CITATION_BUTTON_LABEL = "Цитирование бенчмарка DeathMath"
CITATION_BUTTON_TEXT = r"""
@misc{deathmathbenchmark,
  title = {DeathMath: A Benchmark for Mathematical and Physics Problem Solving in Russian},
  year = {2025},
  publisher = {DeathMath Team},
  howpublished = {\url{https://huggingface.co/spaces/DeathMath/leaderboard}}
}
"""