File size: 3,940 Bytes
1aa060b 478c405 1aa060b 478c405 bed5d60 478c405 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 |
import streamlit as st
st.title("SLAVA")
st.write('### Бенчмарк социально-политического ландшафта и ценностного анализа')
html_code = '''
<div style="text-align: center;">
<a href="https://huggingface.co/datasets/RANEPA-ai/SLAVA-OpenData-2800-v1">
<img src="https://raw.githubusercontent.com/Y1OV/project_lab/refs/heads/main/data/logo_ru.png" alt="Foo" style="width: 50%; height: auto;">
</a>
</div>
'''
st.markdown(html_code, unsafe_allow_html=True)
st.write("""
С 2024 года был разработан бенчмарк SLAVA, содержащий около 14 тысяч вопросов для российского домена из таких областей, как история, политология, социология, политическая география и основы национальной безопасности. Этот бенчмарк оценивает способности больших языковых моделей (LLM) справляться с чувствительными темами, важными для российского информационного пространства.
#### Основные задачи:
- Проверка фактических знаний LLM в российских доменах.
- Оценка чувствительности (провокативности) вопросов.
- Создание комплексной системы оценки на основе точности ответов.
#### Структура:
Вопросы делятся на следующие типы:
- Мультивыбор с одним или несколькими правильными ответами.
- Последовательности и соответствия.
- Открытые ответы.
#### Провокативность вопросов:
- **1 балл**: Низкая чувствительность — общепризнанные факты.
- **2 балла**: Средняя чувствительность — спорные темы.
- **3 балла**: Высокая чувствительность — политические и культурные вопросы, вызывающие конфликты.
#### Результаты:
Были протестированы 24 LLM, поддерживающие русский язык. Модели от компаний **GigaChat**, **YandexGPT** и **qwen2** показали наивысшую точность и способность справляться с сложными, провокативными вопросами. В то время как некоторые модели, такие как **llama2** и **mixtral**, продемонстрировали более слабые результаты.
Этот бенчмарк подчеркивает необходимость дальнейших исследований в области надежности LLM, особенно в контексте социально-политических тем, значимых для России.
""")
st.write("### `Ссылки/контакты`")
st.write("[GitHub](https://github.com/ikanam-ai/slava)")
st.write("[Dataset](https://huggingface.co/datasets/RANEPA-ai/SLAVA-OpenData-2800-v1)")
st.write("### `Цитирование`")
code = r'''
@misc{SLAVA: Benchmark of Sociopolitical Landscape and Value Analysis,
author = {A. S. Chetvergov,
R. S. Sharafetdinov,
M. M. Polukoshko,
V. A. Akhmetov,
N. A. Oruzheynikova,
I. S. Alekseevskaya,
E. S. Anichkov,
S. V. Bolovtsov},
title = {SLAVA: Benchmark of Sociopolitical Landscape and Value Analysis (2024)},
year = {2024},
publisher = {Hugging Face},
howpublished = "\url{https://huggingface.co/datasets/RANEPA-ai/SLAVA-OpenData-2800-v1}"
}
'''
st.code(code, language='python') |