Audio Course documentation

Практическое занятие

Hugging Face's logo
Join the Hugging Face community

and get access to the augmented documentation experience

to get started

Практическое занятие

Это упражнение не оценивается и предназначено для ознакомления с инструментами и библиотеками, которые вы будете использовать на протяжении всего курса. Если вы уже имеете опыт работы с Google Colab, 🤗 Datasets, librosa и 🤗 Transformers, вы можете пропустить это упражнение.

  1. Создайте блокнот Google Colab.
  2. Используйте 🤗 Datasets для загрузки train split набора данных facebook/voxpopuli на выбранном вами языке в потоковом режиме.
  3. Получите третий пример из части train набора данных и исследуйте его. Учитывая особенности этого примера, для решения каких аудиозадач можно использовать этот набор данных?
  4. Постройте осциллограмму и спектрограмму этого примера.
  5. Перейдите на сайт 🤗 Hugging Face Hub, изучите предварительно обученные модели и найдите ту, которая может быть использована для автоматического распознавания речи на выбранном ранее языке. Инстанцируйте соответствующий конвейер с найденной моделью и транскрибируйте пример.

Если вы затрудняетесь с выполнением этого упражнения, не стесняйтесь заглянуть в пример решения. Открыли для себя что-то интересное? Нашли классную модель? Получили красивую спектрограмму? Не стесняйтесь делиться своими работами и открытиями в Twitter!

В следующих главах вы узнаете больше о различных архитектурах аудиотрансформеров и создадите свою собственную модель!

< > Update on GitHub