Audio Course documentation

Lectures et ressources complémentaires

Hugging Face's logo
Join the Hugging Face community

and get access to the augmented documentation experience

to get started

Lectures et ressources complémentaires

Cette unité a rassemblé de nombreux éléments des unités précédentes, en introduisant les tâches de traduction vocale (audio à audio), les assistants vocaux et séparation des locuteurs. Le matériel de lecture supplémentaire est donc divisé en ces trois nouvelles tâches :

Traduction vocale (audio à audio) :

Assistant vocal :

Transcriptions de réunions :

  • pyannote.audio Technical Report par Hervé Bredin : ce rapport décrit les principes fondamentaux du pipeline de séparation des locuteurs pyannote.audio.
  • Whisper X par Max Bain et al. : une approche supérieure pour calculer les horodatages au niveau des mots en utilisant le modèle Whisper.