Практическое занятие
Это упражнение не оценивается и предназначено для ознакомления с инструментами и библиотеками, которые вы будете использовать на протяжении всего курса. Если вы уже имеете опыт работы с Google Colab, 🤗 Datasets, librosa и 🤗 Transformers, вы можете пропустить это упражнение.
- Создайте блокнот Google Colab.
- Используйте 🤗 Datasets для загрузки train split набора данных
facebook/voxpopuli
на выбранном вами языке в потоковом режиме. - Получите третий пример из части
train
набора данных и исследуйте его. Учитывая особенности этого примера, для решения каких аудиозадач можно использовать этот набор данных? - Постройте осциллограмму и спектрограмму этого примера.
- Перейдите на сайт 🤗 Hugging Face Hub, изучите предварительно обученные модели и найдите ту, которая может быть использована для автоматического распознавания речи на выбранном ранее языке. Инстанцируйте соответствующий конвейер с найденной моделью и транскрибируйте пример.
Если вы затрудняетесь с выполнением этого упражнения, не стесняйтесь заглянуть в пример решения. Открыли для себя что-то интересное? Нашли классную модель? Получили красивую спектрограмму? Не стесняйтесь делиться своими работами и открытиями в Twitter!
В следующих главах вы узнаете больше о различных архитектурах аудиотрансформеров и создадите свою собственную модель!