Дополнительные материалы и ресурсы
В этом разделе объединены многие компоненты из предыдущих разделов, представлены задачи перевода речи в речь, голосовые помощники и диаризация диктора. Для удобства чтения дополнительный материал разбит на эти три новые задачи:
Перевод речи в речь:
- STST с дискретными блоками от Meta AI: прямой подход к STST через модели энкодер-декодер
- Hokkien прямой перевод речи в речь от Meta AI: прямой подход к STST с использованием моделей энкодер-декодер с двухступенчатым декодером
- Использование неконтролируемых и слабоконтролируемых данных для улучшения прямой STST от Google: предлагает новые подходы к использованию неконтролируемых (unsupervised) и слабоконтролируемых (weakly supervised) данных для обучения прямых STST-моделей и небольшие изменения в архитектуре Transformer
- Translatotron-2 от Google: система, способная сохранять характеристики диктора в переведенной речи
Голосовой ассистент:
- Точное обнаружение пробуждающих слов (wakeword) от Amazon: подход с низкой задержкой для обнаружения пробуждающих слов (wakeword) для приложений на устройствах
- RNN-Transducer Архитектура от Google: модификация архитектуры CTC для потокового ASR на устройствах
Транскрипция встреч:
- pyannote.audio Технический отчет Эрве Бредин: в этом докладе описываются основные принципы, лежащие в основе конвейера диаризации дикторов `pyannote.audio
- Whisper X by Max Bain et al.: усовершенствованный подход к вычислению временных меток на уровне слов с использованием модели Whisper