Russian_ASR_Leaderboard / constants.py
Anonumous's picture
Update benchmark
20b4d4f
import os
INTRODUCTION_TEXT = """
# Русский ASR-лидерборд
Площадка для честного сравнения моделей распознавания русской речи. Мы считаем WER и CER на единых тестовых наборах и сортируем модели по среднему WER (ниже — лучше). Наведите курсор на значение WER в колонке датасета, чтобы увидеть CER. Все метрики указаны в процентах.
"""
REPO_ID = "Vikhrmodels/russian-asr-leaderboard"
HF_TOKEN = os.getenv("HF_TOKEN")
DATASETS = [
"Russian_LibriSpeech",
"Common_Voice_Corpus_22.0",
"Tone_Webinars",
"Tone_Books",
"Tone_Speak",
"Sova_RuDevices",
]
SHORT_DATASET_NAMES = ["RuLS", "CV 22.0", "Webinars", "Books", "Speak", "Sova"]
DATASET_DESCRIPTIONS = {
"RuLS": {
"full_name": "Russian_LibriSpeech",
"description": "Корпус на основе русскоязычных аудиокниг LibriVox. Около 98 часов речи с верифицированными транскрипциями.",
"num_rows": 1352,
},
"CV 22.0": {
"full_name": "Common_Voice_Corpus_22.0",
"description": "Краудсорсинговый многоязычный корпус Mozilla Common Voice. Версия 22.0 содержит русскую речь с транскрипциями.",
"num_rows": 10244,
},
"Webinars": {
"full_name": "Tone_Webinars",
"description": "Речь из образовательных вебинаров. Разнообразные дикторы и темы, близкие к реальным сценариям.",
"num_rows": 21587,
},
"Books": {
"full_name": "Tone_Books",
"description": "Фрагменты русских аудиокниг. Чистая дикторская речь и аккуратные транскрипции.",
"num_rows": 4930,
},
"Speak": {
"full_name": "Tone_Speak",
"description": "Синтетическая русская речь. Полезна для оценки устойчивости к TTS-голосам.",
"num_rows": 700,
},
"Sova": {
"full_name": "Sova_RuDevices",
"description": "Около 100 часов живой русской речи, записанной на устройствах 16 kHz. Тщательно размеченные транскрипции.",
"num_rows": 5799,
},
}