Audio Course documentation

Выбор набора данных

Hugging Face's logo
Join the Hugging Face community

and get access to the augmented documentation experience

to get started

Выбор набора данных

Как и в любой другой задаче машинного обучения, наша модель хороша лишь настолько, насколько хороши данные, на которых мы ее обучаем. Наборы данных для распознавания речи существенно различаются по способу их формирования и областям, которые они охватывают. Чтобы выбрать правильный набор данных, необходимо сопоставить наши критерии с возможностями, которые предоставляет набор данных.

Прежде чем выбрать набор данных, необходимо понять его ключевые определяющие характеристики.

Характеристики речевых наборов данных

1. Количество часов

Проще говоря, количество часов обучения показывает, насколько велик набор данных. Это аналогично количеству обучающих примеров в наборе данных для обработки естественного языка (NLP). Однако, большой набор данных не означает что этот набор лучший. Если мы хотим получить модель, которая хорошо обобщает, нам нужна разнообразный набор данных с большим количеством различных дикторов, источников и стилей речи.

2. Источник данных

Источник данных означает, откуда были взяты данные, будь то аудиокниги, подкасты, YouTube или финансовые встречи. Для каждого источника характерно свое распределение данных. Например, аудиокниги записываются в качественных студийных условиях (без посторонних шумов), а текст берется из письменной литературы. В то время как для YouTube аудиозапись, скорее всего, содержит больше фонового шума и более неформальный стиль речи.

Мы должны соотнести наш источник с условиями, которые мы ожидаем в момент вывода. Например, если мы обучаем нашу модель на аудиокнигах, мы не можем ожидать, что она будет хорошо работать в шумной обстановке.

3. Стиль речи

Стиль речи относится к одной из двух категорий:

  • Дикторская: чтение по сценарию
  • Спонтанная: речь без сценария, разговорная речь

Аудио- и текстовые данные отражают стиль речи. Поскольку дикторский текст написан по сценарию, он, как правило, произносится внятно и без ошибок:

“Рассмотрим задачу обучения модели на наборе данных распознавания речи”

В то время как для спонтанной речи можно ожидать более разговорного стиля речи, с повторениями, запинаниями и других речевых сбоев:

Let’s uhh let's take a look at how you'd go about training a model on uhm a sp- speech recognition dataset”

4. Стиль транскрипции

Стиль транскрипции относится к тому, есть ли в целевом тексте пунктуация, регистр или и то, и другое. Если мы хотим, чтобы система генерировала полностью отформатированный текст, который можно было бы использовать для публикации или транскрипции собрания, нам нужны обучающие данные с пунктуацией и регистром. Если нам просто нужны произносимые слова в неформатированной структуре, ни пунктуация, ни регистр не нужны. В этом случае мы можем либо выбрать набор данных без знаков препинания и регистра, либо выбрать тот, в котором есть знаки препинания и регистр, а затем впоследствии удалить их из целевого текста с помощью предварительной обработки.

Сводная информация о наборах данных на Hugging Face Hub

Ниже приведен обзор наиболее популярных наборов данных для распознавания английской речи на Hugging Face Hub:

Dataset Train Hours Domain Speaking Style Casing Punctuation License Recommended Use
LibriSpeech 960 Audiobook Narrated CC-BY-4.0 Academic benchmarks
Common Voice 11 3000 Wikipedia Narrated CC0-1.0 Non-native speakers
VoxPopuli 540 European Parliament Oratory CC0 Non-native speakers
TED-LIUM 450 TED talks Oratory CC-BY-NC-ND 3.0 Technical topics
GigaSpeech 10000 Audiobook, podcast, YouTube Narrated, spontaneous apache-2.0 Robustness over multiple domains
SPGISpeech 5000 Financial meetings Oratory, spontaneous User Agreement Fully formatted transcriptions
Earnings-22 119 Financial meetings Oratory, spontaneous CC-BY-SA-4.0 Diversity of accents
AMI 100 Meetings Spontaneous CC-BY-4.0 Noisy speech conditions

Эта таблица служит справочной информацией для выбора набора данных на основе вашего критерия. Ниже приведена эквивалентная таблица для многоязычного распознавания речи. Обратите внимание, что мы опускаем столбец “Время обучения”, поскольку оно зависит от языка для каждого набора данных, и заменяем его на количество языков для каждого набора данных:

Dataset Languages Domain Speaking Style Casing Punctuation License Recommended Usage
Multilingual LibriSpeech 6 Audiobooks Narrated CC-BY-4.0 Academic benchmarks
Common Voice 13 108 Wikipedia text & crowd-sourced speech Narrated CC0-1.0 Diverse speaker set
VoxPopuli 15 European Parliament recordings Spontaneous CC0 European languages
FLEURS 101 European Parliament recordings Spontaneous CC-BY-4.0 Multilingual evaluation

Подробную информацию о наборах аудиоданных, представленных в обеих таблицах, можно найти в блоге Полное руководство по работе с наборами аудиоданных. Хотя на Hugging Face Hub имеется более 180 наборов данных для распознавания речи, может оказаться, что среди них нет такого, который соответствует вашим потребностям. Для создания пользовательского набора аудиоданных см. руководство Создание набора аудиоданных. При создании пользовательского набора аудиоданных подумайте о том, чтобы опубликовать окончательный набор данных в Hugging Face Hub, чтобы другие участники сообщества могли извлечь пользу из ваших усилий — сообщество аудио является обширно и многогранно, и другие оценят вашу работу так же, как и вы.

Хорошо! Теперь, когда мы рассмотрели все критерии выбора набора данных ASR, давайте выберем один из них для целей данного руководства. Мы знаем, что Whisper уже достаточно хорошо справляется с транскрибацией данных на ресурсоемких языках(таких как английский и испанский), поэтому мы сосредоточимся на многоязычной транскрибации данных с низким уровнем ресурсов. Мы хотим сохранить способность Whisper предсказывать знаки препинания и регистр, поэтому из второй таблицы видно, что Common Voice 13 является отличным набором данных!

Common Voice 13

Common Voice 13 - это набор данных, созданный на основе краудсорсинга, в котором дикторы записывают текст из Википедии на разных языках. Он является частью серии Common Voice - коллекции наборов данных Common Voice, выпускаемой Mozilla Foundation. На момент написания статьи Common Voice 13 является последней редакцией набора данных, содержащей наибольшее количество языков и часов на один язык из всех выпущенных на сегодняшний день.

Полный список языков для набора данных Common Voice 13 можно получить, заглянув на страницу набора данных на Hugging Face Hub: mozilla-foundation/common_voice_13_0. При первом просмотре этой страницы вам будет предложено принять условия использования. После этого вам будет предоставлен полный доступ к набору данных.

После того как мы выполнили аутентификацию для использования набора данных, нам будет представлен предварительный просмотр набора данных. Предварительный просмотр набора данных показывает нам первые 100 образцов набора данных для каждого языка. Более того, в него загружены аудиообразцы, которые мы можем прослушать в режиме реального времени. Для этого Раздела мы выберем Дивехи или (Мальдивский язык), это индоарийский язык, на котором разговаривают в островном государстве Мальдивы, расположенном в Южной Азии. Хотя для данного руководства мы выбрали Дивехи, описанные здесь шаги применимы к любому из 108 языков, входящих в набор данных Common Voice 13, и вообще к любому из 180 с лишним наборов аудиоданных на Hugging Face Hub, поэтому нет никаких ограничений по языку или диалекту.

Мы можем выбрать подмножество Дивехи в Common Voice 13, установив в выпадающем меню подмножество dv (dv - код идентификатора языка Dhivehi):

Selecting the Dhivehi split from the Dataset's Preview

Если мы нажмем кнопку воспроизведения на первом примере, то сможем прослушать звук и увидеть соответствующий текст. Пролистайте примеры обучающего и тестового наборов, чтобы лучше понять, с какими аудио- и текстовыми данными мы имеем дело. По интонации и стилю можно определить, что записи сделаны с дикторской речи. Вы также, вероятно, заметите большой разброс между дикторами и качеством записи, что является общей чертой что является общей чертой краудсорсинговых данных.

Предварительный просмотр данных - это отличный способ ознакомиться с наборами аудиоданных, прежде чем приступить к их использованию. Вы можете выбрать любой набор данных в Hugging Face Hub, просмотреть образцы и прослушать аудио для различных подмножеств и разбиений, оценив, подходит ли этот набор данных для ваших нужд. Выбрав набор данных, можно загрузить их и начать использовать.

Итак, я лично не владею Дивехи, и предполагаю, что подавляющее большинство читателей тоже! Чтобы узнать, насколько хороша наша дообученная модель, нам потребуется строгий способ оценить ее на невидимых данных и измерить достоверность транскрипции. Именно об этом мы расскажем в следующем разделе!