Audio Course documentation

Дополнительные материалы и ресурсы

Hugging Face's logo
Join the Hugging Face community

and get access to the augmented documentation experience

to get started

Дополнительные материалы и ресурсы

Этот раздел предоставил практическое введение в распознавание речи, одну из самых популярных задач в области аудио. Хотите узнать больше? Здесь вы найдете дополнительные ресурсы, которые помогут вам углубить свое понимание темы и повысить качество обучения.

  • Whisper Talk by Jong Wook Kim: презентация о модели Whisper, в которой объясняются мотивация, архитектура, обучение и результаты, представленные автором Whisper - Джонг Вук Кимом.
  • End-to-End Speech Benchmark (ESB): научная статья, в которой обосновывается использование орфографического WER вместо нормализованного WER для оценки систем распознавания речи и представляется соответствующий бенчмарк.
  • Fine-Tuning Whisper for Multilingual ASR: подробный блог-пост, который объясняет, как работает модель Whisper, и подробно описывает пред- и пост-обработку с использованием извлекателя призников и токенизатора.
  • Fine-tuning MMS Adapter Models for Multi-Lingual ASR: полное руководство по дообучению новых многоязычных моделей распознавания речи Meta AI MMS, при этом замораживая веса базовой модели и обучая только небольшое количество адаптерных слоев.
  • Boosting Wav2Vec2 with n-grams in 🤗 Transformers: блог-пост о сочетании моделей CTC с внешними языковыми моделями (LM) для борьбы со смысловыми и пунктуационными ошибками.