File size: 3,940 Bytes
1aa060b
 
 
 
 
 
 
478c405
 
1aa060b
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
478c405
 
 
 
bed5d60
478c405
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
import streamlit as st

st.title("SLAVA")
st.write('### Бенчмарк социально-политического ландшафта и ценностного анализа')

html_code = '''
<div style="text-align: center;">
    <a href="https://huggingface.co/datasets/RANEPA-ai/SLAVA-OpenData-2800-v1">
        <img src="https://raw.githubusercontent.com/Y1OV/project_lab/refs/heads/main/data/logo_ru.png" alt="Foo" style="width: 50%; height: auto;">
    </a>
</div>
'''

st.markdown(html_code, unsafe_allow_html=True)


st.write("""

С 2024 года был разработан бенчмарк SLAVA, содержащий около 14 тысяч вопросов для российского домена из таких областей, как история, политология, социология, политическая география и основы национальной безопасности. Этот бенчмарк оценивает способности больших языковых моделей (LLM) справляться с чувствительными темами, важными для российского информационного пространства.

#### Основные задачи:
- Проверка фактических знаний LLM в российских доменах.
- Оценка чувствительности (провокативности) вопросов.
- Создание комплексной системы оценки на основе точности ответов.

#### Структура:
Вопросы делятся на следующие типы:
- Мультивыбор с одним или несколькими правильными ответами.
- Последовательности и соответствия.
- Открытые ответы.

#### Провокативность вопросов:
- **1 балл**: Низкая чувствительность — общепризнанные факты.
- **2 балла**: Средняя чувствительность — спорные темы.
- **3 балла**: Высокая чувствительность — политические и культурные вопросы, вызывающие конфликты.

#### Результаты:
Были протестированы 24 LLM, поддерживающие русский язык. Модели от компаний **GigaChat**, **YandexGPT** и **qwen2** показали наивысшую точность и способность справляться с сложными, провокативными вопросами. В то время как некоторые модели, такие как **llama2** и **mixtral**, продемонстрировали более слабые результаты.

Этот бенчмарк подчеркивает необходимость дальнейших исследований в области надежности LLM, особенно в контексте социально-политических тем, значимых для России.
""")

st.write("### `Ссылки/контакты`")

st.write("[GitHub](https://github.com/ikanam-ai/slava)")
st.write("[Dataset](https://huggingface.co/datasets/RANEPA-ai/SLAVA-OpenData-2800-v1)")

st.write("### `Цитирование`")

code = r'''
@misc{SLAVA: Benchmark of Sociopolitical Landscape and Value Analysis,
  author = {A. S. Chetvergov, 
R. S. Sharafetdinov, 
M. M. Polukoshko, 
V. A. Akhmetov, 
N. A. Oruzheynikova,
I. S. Alekseevskaya,
E. S. Anichkov, 
S. V. Bolovtsov},
  title = {SLAVA: Benchmark of Sociopolitical Landscape and Value Analysis (2024)},
  year = {2024},
  publisher = {Hugging Face},
  howpublished = "\url{https://huggingface.co/datasets/RANEPA-ai/SLAVA-OpenData-2800-v1}"
}
    '''

st.code(code, language='python')