Audio Course documentation

Раздел 2. Краткое введение в аудиоприложения

Hugging Face's logo
Join the Hugging Face community

and get access to the augmented documentation experience

to get started

Раздел 2. Краткое введение в аудиоприложения

Добро пожаловать во второй раздел аудиокурса от Hugging Face! Ранее мы рассмотрели основы аудиоданных и научились работать с наборами аудиоданных с помощью библиотек 🤗 Datasets и 🤗 Transformers. Мы обсудили различные понятия, такие как частота дискретизации, амплитуда, битовая глубина, форма волны и спектрограммы, а также рассмотрели способы предварительной обработки данных для подготовки их к использованию в предварительно обученной модели.

К этому моменту вы, возможно, уже хотите узнать о том, с какими аудиозадачами могут справиться 🤗 Transformers, и у вас есть все необходимые базовые знания, необходимые для дальнейшего погружения! Давайте рассмотрим некоторые из примеров умопомрачительных аудиозадач:

  • Аудио классификация: простая классификация аудиоклипов по различным категориям. Вы можете определить, лает ли на записи собака или мяукает кошка, или к какому музыкальному жанру относится та или иная композиция.
  • Автоматическое распознавание речи: преобразование аудиоклипов в текст путем их автоматической транскрибации. Вы можете получить текстовое представление записи разговора, например, “Как дела?“. Очень полезно для ведения заметок!
  • Диаризация диктора: Вы когда-нибудь задумывались, кто говорит в записи? С помощью 🤗 Transformers вы сможете определить, кто из дикторов говорит в тот или иной момент времени в аудиоклипе. Представьте себе, что вы можете различить Алису и Боба в записи их разговора.
  • Перевод текста в речь: создать дикторскую версию текста, которая может быть использована для создания аудиокниги, помочь в обеспечении доступности (для людей с ограниченными возможностями) или дать голос NPC в игре. С 🤗 Transformers вы легко сможете это сделать!

В этом разделе вы узнаете, как использовать предварительно обученные модели для решения некоторых из этих задач с помощью функции pipeline() из 🤗 Transformers. В частности, мы увидим, как предварительно обученные модели могут быть использованы для классификации звука и автоматического распознавания речи. Давайте начнем!