File size: 2,609 Bytes
			
			| 3b7d44a 20b4d4f 3b7d44a 20b4d4f 3b7d44a 20b4d4f 3b7d44a 20b4d4f 3b7d44a 20b4d4f 3b7d44a 20b4d4f 3b7d44a 20b4d4f 3b7d44a 20b4d4f 3b7d44a 20b4d4f 3b7d44a 20b4d4f 3b7d44a | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 | import os
INTRODUCTION_TEXT = """
# Русский ASR-лидерборд
Площадка для честного сравнения моделей распознавания русской речи. Мы считаем WER и CER на единых тестовых наборах и сортируем модели по среднему WER (ниже — лучше). Наведите курсор на значение WER в колонке датасета, чтобы увидеть CER. Все метрики указаны в процентах.
"""
REPO_ID = "Vikhrmodels/russian-asr-leaderboard"
HF_TOKEN = os.getenv("HF_TOKEN")
DATASETS = [
    "Russian_LibriSpeech",
    "Common_Voice_Corpus_22.0",
    "Tone_Webinars",
    "Tone_Books",
    "Tone_Speak",
    "Sova_RuDevices",
]
SHORT_DATASET_NAMES = ["RuLS", "CV 22.0", "Webinars", "Books", "Speak", "Sova"]
DATASET_DESCRIPTIONS = {
    "RuLS": {
        "full_name": "Russian_LibriSpeech",
        "description": "Корпус на основе русскоязычных аудиокниг LibriVox. Около 98 часов речи с верифицированными транскрипциями.",
        "num_rows": 1352,
    },
    "CV 22.0": {
        "full_name": "Common_Voice_Corpus_22.0",
        "description": "Краудсорсинговый многоязычный корпус Mozilla Common Voice. Версия 22.0 содержит русскую речь с транскрипциями.",
        "num_rows": 10244,
    },
    "Webinars": {
        "full_name": "Tone_Webinars",
        "description": "Речь из образовательных вебинаров. Разнообразные дикторы и темы, близкие к реальным сценариям.",
        "num_rows": 21587,
    },
    "Books": {
        "full_name": "Tone_Books",
        "description": "Фрагменты русских аудиокниг. Чистая дикторская речь и аккуратные транскрипции.",
        "num_rows": 4930,
    },
    "Speak": {
        "full_name": "Tone_Speak",
        "description": "Синтетическая русская речь. Полезна для оценки устойчивости к TTS-голосам.",
        "num_rows": 700,
    },
    "Sova": {
        "full_name": "Sova_RuDevices",
        "description": "Около 100 часов живой русской речи, записанной на устройствах 16 kHz. Тщательно размеченные транскрипции.",
        "num_rows": 5799,
    },
}
 | 
