Audio Course documentation

Наборах данных Text-to-speech

Hugging Face's logo
Join the Hugging Face community

and get access to the augmented documentation experience

to get started

Наборах данных Text-to-speech

Задача преобразования текста в речь (называемая также синтезом речи) сопряжена с целым рядом трудностей.

Во-первых, как и в ранее рассмотренном случае автоматического распознавания речи, согласование текста и речи может быть затруднено. Однако, в отличие от ASR, TTS - это проблема отображения одного ко многим, т.е. один и тот же текст может быть синтезирован множеством различных способов. Подумайте о разнообразии голосов и стилей речи, которые вы слышите ежедневно - каждый человек по-своему произносит одно и то же предложение, но все они правильные и верные! Даже разные выходные данные (спектрограммы или формы волны звука) могут соответствовать одной и той же истине. Модель должна научиться генерировать правильную длительность и время для каждой фонемы, слова или предложения, что может оказаться непростой задачей, особенно для длинных и сложных предложений.

Далее, существует проблема дальних зависимостей: язык имеет временной аспект, и понимание смысла предложения часто требует учета контекста окружающих слов. Убедиться в том, что модель TTS улавливает и сохраняет контекстную информацию в длинных последовательностях, очень важно для создания связной и естественно звучащей речи.

Наконец, для обучения TTS-моделей обычно требуются пары из текста и соответствующих записей речи. Кроме того, для того чтобы модель могла генерировать речь, звучащую естественно для различных дикторов и стилей речи, данные должны содержать разнообразные и репрезентативные образцы речи от различных дикторов. Сбор таких данных является дорогостоящим, трудоемким и для некоторых языков нецелесообразным. Вы можете подумать, почему бы просто не взять набор данных, предназначенный для ASR (автоматического распознавания речи), и не использовать его для обучения модели TTS? К сожалению, наборы данных автоматического распознавания речи (ASR) - не самый лучший вариант. Особенности, которые делают его полезным для ASR, например, чрезмерный фоновый шум, обычно нежелательны в TTS. Очень хорошо, если вы можете выделить речь из шумной уличной записи, но не очень хорошо, если ваш голосовой помощник отвечает вам на фоне гудка машин и бурного строительства на заднем плане. Тем не менее, некоторые наборы данных ASR иногда могут быть полезны для дообучения, так как найти высококачественные, многоязычные и многоголосые наборы данных TTS может быть довольно сложно.

Рассмотрим несколько наборов данных, подходящих для TTS, которые можно найти на 🤗 Hub.

LJSpeech

LJSpeech представляет собой набор данных, состоящий из 13 100 англоязычных аудиоклипов, сопоставленных с соответствующими транскрипциями. Набор содержит запись чтения одним диктором предложений из 7 нехудожественных книг на английском языке. LJSpeech часто используется в качестве эталона для оценки моделей TTS благодаря высокому качеству звука и разнообразию лингвистического контента.

Multilingual LibriSpeech

Multilingual LibriSpeech является многоязычным расширением набора данных LibriSpeech, представляющего собой крупномасштабную коллекцию прочитанных англоязычных аудиокниг. Многоязычный LibriSpeech расширяется за счет включения дополнительных языков, таких как немецкий, голландский, испанский, французский, итальянский, португальский и польский. Он предлагает аудиозаписи вместе с выверенными транскрипциями для каждого языка. Этот набор данных представляет собой ценный ресурс для разработки многоязычных систем TTS и изучения методов межъязыкового синтеза речи.

VCTK (Voice Cloning Toolkit)

VCTK - это набор данных, специально разработанный для исследований и разработок в области преобразования текста в речь. Он содержит аудиозаписи 110 дикторов английского языка с различными акцентами. Каждый диктор зачитывает около 400 предложений, которые были выбраны из газеты, радужного отрывка* и элективного абзаца, использованного для архива акцентов речи. VCTK представляет собой ценный ресурс для обучения TTS-моделей с различными голосами и акцентами, что позволяет осуществлять более естественный и разнообразный синтез речи.

Libri-TTS/ LibriTTS-R

Libri-TTS/ LibriTTS-R это многоголосный корпус английской речи, включающий около 585 часов чтения английской речи с частотой дискретизации 24 кГц, подготовленный компанией Heiga Zen при содействии членов команд Google Speech и Google Brain. Корпус LibriTTS предназначен для исследования TTS. Он создан на основе оригинальных материалов (аудиофайлов mp3 из LibriVox и текстовых файлов из Project Gutenberg) корпуса LibriSpeech. Основные отличия от корпуса LibriSpeech перечислены ниже:

  • Аудиофайлы имеют частоту дискретизации 24 кГц.
  • Речь разбита на фрагменты.
  • Включены как оригинальные, так и нормализованные тексты.
  • Контекстная информация (например, соседние предложения) может быть извлечена.
  • Исключены фразы со значительным фоновым шумом.

Собрать хороший набор данных для TTS - задача не из легких, поскольку такой набор должен обладать несколькими ключевыми характеристиками:

  • Качественные и разнообразные записи, охватывающие широкий спектр речевых паттернов, акцентов, языков и эмоций. Записи должны быть чистыми, без фоновых шумов и демонстрировать естественные характеристики речи.
  • Транскрипция: Каждая аудиозапись должна сопровождаться соответствующей текстовой транскрипцией.
  • Разнообразие лингвистического контента: Набор данных должен содержать разнообразный лингвистический контент, включая различные типы предложений, фраз и слов. Он должен охватывать различные темы, жанры и области, чтобы обеспечить способность модели работать с различными языковыми контекстами.

Хорошая новость заключается в том, что вряд ли вам придется обучать TTS-модель с нуля. В следующем разделе мы рассмотрим предварительно обученные модели, доступные на 🤗 Hub.


    • радужный отрывок - это конкретный фрагмент текста, который часто используется в англоязычных исследованиях речи и голоса для оценки различных аспектов речи. Он включает в себя различные фонетические звуки и лингвистические паттерны, которые могут помочь исследователям понять, как звуки речи произносятся людьми с различными акцентами или особенностями речи.