File size: 3,378 Bytes
1aa060b
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
import streamlit as st

st.title("SLAVA")
st.write('### Бенчмарк социально-политического ландшафта и ценностного анализа')

html_code = '''
<div style="text-align: center;">
    <a href="https://raw.githubusercontent.com/Y1OV/project_lab/main/data/ranepa.png">
        <img src="https://raw.githubusercontent.com/Y1OV/project_lab/main/data/ranepa.png" alt="Foo" style="width: 50%; height: auto;">
    </a>
</div>
'''

st.markdown(html_code, unsafe_allow_html=True)


st.write("""

С 2024 года был разработан бенчмарк SLAVA, содержащий около 14 тысяч вопросов для российского домена из таких областей, как история, политология, социология, политическая география и основы национальной безопасности. Этот бенчмарк оценивает способности больших языковых моделей (LLM) справляться с чувствительными темами, важными для российского информационного пространства.

#### Основные задачи:
- Проверка фактических знаний LLM в российских доменах.
- Оценка чувствительности (провокативности) вопросов.
- Создание комплексной системы оценки на основе точности ответов.

#### Структура:
Вопросы делятся на следующие типы:
- Мультивыбор с одним или несколькими правильными ответами.
- Последовательности и соответствия.
- Открытые ответы.

#### Провокативность вопросов:
- **1 балл**: Низкая чувствительность — общепризнанные факты.
- **2 балла**: Средняя чувствительность — спорные темы.
- **3 балла**: Высокая чувствительность — политические и культурные вопросы, вызывающие конфликты.

#### Результаты:
Были протестированы 24 LLM, поддерживающие русский язык. Модели от компаний **GigaChat**, **YandexGPT** и **qwen2** показали наивысшую точность и способность справляться с сложными, провокативными вопросами. В то время как некоторые модели, такие как **llama2** и **mixtral**, продемонстрировали более слабые результаты.

Этот бенчмарк подчеркивает необходимость дальнейших исследований в области надежности LLM, особенно в контексте социально-политических тем, значимых для России.
""")

st.write("### `Ссылки/контакты`")

st.write("[GitHub](https://github.com/ikanam-ai/slava)")
st.write("[Dataset](https://huggingface.co/datasets/RANEPA-ai/SLAVA-OpenData-2800-v1)")