Spaces:

RANEPA-ai
/

SLAVA

Running

App Files Files Community

SLAVA / main.py

Y1OV

Update main.py

bed5d60 verified about 1 month ago

raw

history blame

3.94 kB

	import streamlit as st

	st.title("SLAVA")
	st.write('### Бенчмарк социально-политического ландшафта и ценностного анализа')

	html_code = '''
	<div style="text-align: center;">
	<a href="https://huggingface.co/datasets/RANEPA-ai/SLAVA-OpenData-2800-v1">
	<img src="https://raw.githubusercontent.com/Y1OV/project_lab/refs/heads/main/data/logo_ru.png" alt="Foo" style="width: 50%; height: auto;">
	</a>
	</div>
	'''

	st.markdown(html_code, unsafe_allow_html=True)


	st.write("""

	С 2024 года был разработан бенчмарк SLAVA, содержащий около 14 тысяч вопросов для российского домена из таких областей, как история, политология, социология, политическая география и основы национальной безопасности. Этот бенчмарк оценивает способности больших языковых моделей (LLM) справляться с чувствительными темами, важными для российского информационного пространства.

	#### Основные задачи:
	- Проверка фактических знаний LLM в российских доменах.
	- Оценка чувствительности (провокативности) вопросов.
	- Создание комплексной системы оценки на основе точности ответов.

	#### Структура:
	Вопросы делятся на следующие типы:
	- Мультивыбор с одним или несколькими правильными ответами.
	- Последовательности и соответствия.
	- Открытые ответы.

	#### Провокативность вопросов:
	- 1 балл: Низкая чувствительность — общепризнанные факты.
	- 2 балла: Средняя чувствительность — спорные темы.
	- 3 балла: Высокая чувствительность — политические и культурные вопросы, вызывающие конфликты.

	#### Результаты:
	Были протестированы 24 LLM, поддерживающие русский язык. Модели от компаний GigaChat, YandexGPT и qwen2 показали наивысшую точность и способность справляться с сложными, провокативными вопросами. В то время как некоторые модели, такие как llama2 и mixtral, продемонстрировали более слабые результаты.

	Этот бенчмарк подчеркивает необходимость дальнейших исследований в области надежности LLM, особенно в контексте социально-политических тем, значимых для России.
	""")

	st.write("### `Ссылки/контакты`")

	st.write("[GitHub](https://github.com/ikanam-ai/slava)")
	st.write("[Dataset](https://huggingface.co/datasets/RANEPA-ai/SLAVA-OpenData-2800-v1)")

	st.write("### `Цитирование`")

	code = r'''
	@misc{SLAVA: Benchmark of Sociopolitical Landscape and Value Analysis,
	author = {A. S. Chetvergov,
	R. S. Sharafetdinov,
	M. M. Polukoshko,
	V. A. Akhmetov,
	N. A. Oruzheynikova,
	I. S. Alekseevskaya,
	E. S. Anichkov,
	S. V. Bolovtsov},
	title = {SLAVA: Benchmark of Sociopolitical Landscape and Value Analysis (2024)},
	year = {2024},
	publisher = {Hugging Face},
	howpublished = "\url{https://huggingface.co/datasets/RANEPA-ai/SLAVA-OpenData-2800-v1}"
	}
	'''

	st.code(code, language='python')