Audio Course

Раздел 0. Добро пожаловать на курс!

Раздел 1. Работа с аудиоданными

Чему вы научитесь Введение в аудиоданные Загрузка и исследование набора аудиоданных Предварительная обработка Потоковая передача аудиоданных Контрольный опрос Дополнительные материалы и ресурсы

Раздел 2. Краткое введение в аудиоприложения

Раздел 3. Архитектуры трансформеров для аудио

Раздел 4. Создание классификатора музыкальных жанров

Раздел 5. Automatic Speech Recognition

Раздел 6. От текста к речи

Раздел 7. Собираем все воедино

Раздел 8. Финишная прямая

Мероприятия в рамках курса

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

Проверьте свое понимание материала курса

1. В каких единицах измеряется частота дискретизации?

дБ Гц бит

2. При потоковой передаче большого набора аудиоданных как скоро можно начать его использовать?

Как только набор данных будет загружен полностью. Как только первые 16 образцов будут загружены. Как только первый образец будет загружен.

3. Что такое спектрограмма?

Устройство, используемое для оцифровки звука, который сначала улавливается микрофоном, преобразующим звуковые волны в электрический сигнал. График, показывающий изменение амплитуды звукового сигнала с течением времени. Он также известен как *временная область* представления звука. Визуальное представление частотного спектра сигнала при его изменении во времени.

4. Как проще всего преобразовать сырые аудиоданные в лог-мел спектрограмму, ожидаемую Whisper?

librosa.feature.melspectrogram(audio["array"])

feature_extractor = WhisperFeatureExtractor.from_pretrained("openai/whisper-small")
feature_extractor(audio["array"])

dataset.feature(audio["array"], model="whisper")

A B C

5. Как загрузить набор данных из 🤗 Hub?

from datasets import load_dataset

dataset = load_dataset(DATASET_NAME_ON_HUB)

import librosa

dataset = librosa.load(PATH_TO_DATASET)

from transformers import load_dataset

dataset = load_dataset(DATASET_NAME_ON_HUB)

A B C

6. Ваш пользовательский набор данных содержит высококачественные аудиозаписи с частотой дискретизации 32 кГц. Вы хотите обучить модель распознавания речи, которая ожидает, что аудиопримеры будут иметь частоту дискретизации 16 кГц. Что нужно сделать?

Используйте примеры как есть, модель легко обобщится на более качественные аудиопримеры. Используйте модуль Audio из библиотеки 🤗 Datasets для понижения частоты дискретизации примеров в пользовательском наборе данных Уменьшите выборку в 2 раза, отбросив все остальные образцы.

7. Как преобразовать спектрограмму, сгенерированную моделью машинного обучения, в форму волны?

Для восстановления формы волны из спектрограммы мы можем использовать нейронную сеть, называемую вокодером. Мы можем использовать обратное ОПФ для преобразования сгенерированной спектрограммы в форму волны Вы не можете преобразовать спектрограмму, сгенерированную моделью машинного обучения, в форму волны.

< > Update on GitHub

←Потоковая передача аудиоданных

Next chapter

Проверьте свое понимание материала курса 1. В каких единицах измеряется частота дискретизации? 2. При потоковой передаче большого набора аудиоданных как скоро можно начать его использовать? 3. Что такое спектрограмма? 4. Как проще всего преобразовать сырые аудиоданные в лог-мел спектрограмму, ожидаемую Whisper? 5. Как загрузить набор данных из 🤗 Hub? 6. Ваш пользовательский набор данных содержит высококачественные аудиозаписи с частотой дискретизации 32 кГц. Вы хотите обучить модель распознавания речи, которая ожидает, что аудиопримеры будут иметь частоту дискретизации 16 кГц. Что нужно сделать? 7. Как преобразовать спектрограмму, сгенерированную моделью машинного обучения, в форму волны?