Дополнительные материалы и ресурсы

В этом разделе объединены многие компоненты из предыдущих разделов, представлены задачи перевода речи в речь, голосовые помощники и диаризация диктора. Для удобства чтения дополнительный материал разбит на эти три новые задачи:

Перевод речи в речь:

STST с дискретными блоками от Meta AI: прямой подход к STST через модели энкодер-декодер
Hokkien прямой перевод речи в речь от Meta AI: прямой подход к STST с использованием моделей энкодер-декодер с двухступенчатым декодером
Использование неконтролируемых и слабоконтролируемых данных для улучшения прямой STST от Google: предлагает новые подходы к использованию неконтролируемых (unsupervised) и слабоконтролируемых (weakly supervised) данных для обучения прямых STST-моделей и небольшие изменения в архитектуре Transformer
Translatotron-2 от Google: система, способная сохранять характеристики диктора в переведенной речи

Голосовой ассистент:

Точное обнаружение пробуждающих слов (wakeword) от Amazon: подход с низкой задержкой для обнаружения пробуждающих слов (wakeword) для приложений на устройствах
RNN-Transducer Архитектура от Google: модификация архитектуры CTC для потокового ASR на устройствах

Транскрипция встреч:

pyannote.audio Технический отчет Эрве Бредин: в этом докладе описываются основные принципы, лежащие в основе конвейера диаризации дикторов `pyannote.audio
Whisper X by Max Bain et al.: усовершенствованный подход к вычислению временных меток на уровне слов с использованием модели Whisper

< > Update on GitHub

Audio Course

Дополнительные материалы и ресурсы