Lectures et ressources complémentaires
Cette unité a rassemblé de nombreux éléments des unités précédentes, en introduisant les tâches de traduction vocale (audio à audio), les assistants vocaux et séparation des locuteurs. Le matériel de lecture supplémentaire est donc divisé en ces trois nouvelles tâches :
Traduction vocale (audio à audio) :
- STST avec unités discrètes par Meta AI : une approche directe de la STST par le biais de modèles encodeur-décodeur.
- Hokkien direct speech-to-speech translation par Meta AI : une approche directe de STST en utilisant des modèles encodeur-décodeur avec un décodeur en deux étapes.
- Leveraging unsupervised and weakly-supervised data to improve direct STST par Google : propose de nouvelles approches pour tirer parti des données non supervisées et faiblement supervisées pour entraîner les modèles STST directs et une petite modification de l’architecture du transformer.
- Translatotron-2 par Google : un système capable de conserver les caractéristiques du locuteur dans la traduction de parole.
Assistant vocal :
- Accurate wakeword detection par Amazon : une approche à faible latence pour la détection des mots déclencheur pour les applications sur appareil.
- Architecture RNN-Transducteur par Google : une modification de l’architecture CTC pour l’ASR en streaming sur appareil.
Transcriptions de réunions :
- pyannote.audio Technical Report par Hervé Bredin : ce rapport décrit les principes fondamentaux du pipeline de séparation des locuteurs
pyannote.audio
. - Whisper X par Max Bain et al. : une approche supérieure pour calculer les horodatages au niveau des mots en utilisant le modèle Whisper.