Choisir un jeu de données

Comme pour tout problème d’apprentissage automatique, la qualité de notre modèle dépend des données sur lesquelles nous l’entraînons. Les jeux de données de reconnaissance vocale varient considérablement dans la façon dont ils sont gérés et dans les domaines qu’ils couvrent. Pour choisir le bon jeu de données, nous devons faire correspondre nos critères aux caractéristiques offertes par un jeu de données.

Avant de choisir un jeu de données, nous devons d’abord comprendre les principales caractéristiques qui le définissent.

Caractéristiques des jeux de données vocaux

1. Nombre d’heures

En termes simples, le nombre d’heures d’entraînement indique la taille du jeu de données. Il est analogue au nombre d’exemples d’entraînement dans un jeu de données de NLP. Toutefois, les jeux de données plus importants ne sont pas nécessairement meilleurs. Si nous voulons un modèle qui généralise bien, nous avons besoin d’un jeu de données varié avec beaucoup de locuteurs, de domaines et de styles d’expression différents.

2. Domaine

Le domaine est l’endroit d’où proviennent les données, qu’il s’agisse de livres audio, de podcasts, de YouTube ou de réunions professionnelles. Chaque domaine a une distribution de données différente. Par exemple, les livres audio sont enregistrés dans des conditions de studio, en haute qualité (sans bruit de fond) et le texte est tiré de la littérature. En revanche, pour YouTube, l’audio contient probablement plus de bruits de fond et un style de discours plus informel.

Nous devons faire correspondre notre domaine aux conditions que nous prévoyons au moment de l’inférence. Par exemple, si nous entraînons notre modèle sur des livres audio, nous ne pouvons pas nous attendre à ce qu’il soit performant dans des environnements bruyants.

3. Style d’élocution

Le style d’élocution peut être classé dans l’une des deux catégories suivantes :

narré : lu à partir d’un script
spontané : discours non scénarisé, conversationnel.

Les données audio et textuelles reflètent le style d’élocution. Étant donné que le texte narré est écrit, il a tendance à être prononcé de manière articulée et sans erreur :

“Consider the task of training a model on a speech recognition dataset”

Dans le cas d’un discours spontané, on peut s’attendre à un style plus familier, avec des répétitions, des hésitations et des faux départs :

“Let’s uhh let's take a look at how you'd go about training a model on uhm a sp- speech recognition dataset”

4. Style de transcription

Le style de transcription indique si le texte cible comporte de la ponctuation, de la casse ou les deux. Si nous voulons qu’un système génère un texte entièrement formaté pouvant être utilisé pour la transcription d’une publication ou d’une réunion, nous avons besoin de données d’entraînement comportant de la ponctuation et des majuscules. Si nous avons simplement besoin des mots prononcés dans une structure non formatée, ni la ponctuation ni la casse ne sont nécessaires. Dans ce cas, nous pouvons soit choisir un jeu de données sans ponctuation ni casse, soit choisir un jeu de données avec ponctuation et casse, puis les supprimer du texte cible par le biais d’un prétraitement.

Résumé de jeux de données sur le Hub

Voici un résumé de jeux de données de reconnaissance vocale en anglais les plus populaires sur le Hub :

Jeu de données	Heures d’entraînement	Domaine	Style d’élocution	Casse	Ponctuation	Licence	Usage recommandé
LibriSpeech	960	Audiobook	Narrated	❌	❌	CC-BY-4.0	Academic benchmarks
Common Voice 11	3000	Wikipedia	Narrated	✅	✅	CC0-1.0	Non-native speakers
VoxPopuli	540	European Parliament	Oratory	❌	✅	CC0	Non-native speakers
TED-LIUM	450	TED talks	Oratory	❌	❌	CC-BY-NC-ND 3.0	Technical topics
GigaSpeech	10000	Audiobook, podcast, YouTube	Narrated, spontaneous	❌	✅	apache-2.0	Robustness over multiple domains
SPGISpeech	5000	Financial meetings	Oratory, spontaneous	✅	✅	User Agreement	Fully formatted transcriptions
Earnings-22	119	Financial meetings	Oratory, spontaneous	✅	✅	CC-BY-SA-4.0	Diversity of accents
AMI	100	Meetings	Spontaneous	✅	✅	CC-BY-4.0	Noisy speech conditions

Ce tableau sert de référence pour sélectionner un jeu de données en fonction de vos critères. Vous trouverez ci-dessous un tableau équivalent pour la reconnaissance vocale multilingue. Notez que nous omettons la colonne des heures d’entraînement, qui varie en fonction de la langue pour chaque jeu de données, et que nous la remplaçons par le nombre de langues par jeu de données :

Jeu de données	Langues	Domaine	Style d’élocution	Casse	Ponctuation	Licence	Usage recommandé
Multilingual LibriSpeech	6	Audiobooks	Narrated	❌	❌	CC-BY-4.0	Academic benchmarks
Common Voice 13	108	Wikipedia text & crowd-sourced speech	Narrated	✅	✅	CC0-1.0	Diverse speaker set
VoxPopuli	15	European Parliament recordings	Spontaneous	❌	✅	CC0	European languages
FLEURS	101	European Parliament recordings	Spontaneous	❌	❌	CC-BY-4.0	Multilingual evaluation

Pour une analyse détaillée des jeux de données audio couverts dans les deux tableaux, consultez l’article de blog A Complete Guide to Audio Datasets (en anglais). Bien qu’il existe plus de 180 jeux de données de reconnaissance vocale sur le Hub, il est possible qu’aucun jeu de données ne corresponde à vos besoins. Dans ce cas, il est également possible d’utiliser vos propres données audio avec 🤗 Datasets. Pour créer un jeu de données audio personnalisé, reportez-vous au guide Créer un jeu de données audio. Lorsque vous créez un jeu de données audio personnalisé, pensez à partager le jeu de données final sur le Hub afin que d’autres membres de la communauté puissent bénéficier de vos efforts et apprécieront votre travail comme vous appréciez le leur.

Très bien ! Maintenant que nous avons passé en revue tous les critères de sélection d’un jeu de données d’ASR, choisissons-en un pour les besoins de ce tutoriel. Nous savons que Whisper fait déjà un très bon travail de transcription de données dans des langues à hautes ressources (telles que l’anglais et l’espagnol), nous allons donc nous concentrer sur la transcription multilingue à faibles ressources. Nous voulons conserver la capacité de Whisper à prédire la ponctuation et la casse, donc il semble, d’après le deuxième tableau, que Common Voice 13 est un excellent jeu de données candidat !

Common Voice 13

Common Voice 13 est un jeu de données crown-sourcés dans lequel des locuteurs enregistrent des textes tirés de Wikipédia dans différentes langues. Il fait partie de la série Common Voice, une collection de jeux de données publiés par la Fondation Mozilla. À l’heure où nous écrivons ces lignes, Common Voice 13 est la dernière édition du jeu de données, avec le plus grand nombre de langues et d’heures par langue de toutes les versions à ce jour.

Nous pouvons obtenir la liste complète des langues pour le jeu de données Common Voice 13 en consultant la page du jeu de données sur le Hub : mozilla-foundation/common_voice_13_0. La première fois que vous consulterez cette page, il vous sera demandé d’accepter les conditions d’utilisation. Ensuite, vous aurez un accès complet au jeu de données.

Une fois que nous nous sommes authentifiés pour utiliser le jeu de données, son aperçu s’affiche montrant les 100 premiers échantillons du jeu de données pour chaque langue, prêts à être écoutés en temps réel. Pour cette unité, nous sélectionnerons le Dhivehi (ou Maldivien), une langue indo-aryenne parlée dans le pays insulaire d’Asie du Sud, les Maldives. Bien que nous choisissions le dhivehi pour ce tutoriel, les étapes couvertes ici s’appliquent à n’importe laquelle des 108 langues de l’ensemble de données Common Voice 13, et plus généralement à n’importe lequel des 180+ jeux de données audio du Hub. Il n’y a donc pas de restriction sur la langue ou le dialecte.

Nous pouvons sélectionner le sous-ensemble Dhivehi de Common Voice 13 en réglant le sous-ensemble sur dv à l’aide du menu déroulant (dv étant le code d’identification de la langue pour le Dhivehi) :

Selecting the Dhivehi split from the Dataset's Preview

Si nous appuyons sur le bouton de lecture du premier échantillon, nous pouvons écouter le son et voir le texte correspondant. Parcourez les échantillons des ensembles d’entraînement et de test pour vous faire une idée plus précise des données que nous traitons. L’intonation et le style indiquent que les enregistrements sont issus d’un discours narré. Vous remarquerez également la grande diversité des locuteurs et de la qualité des enregistrements, un trait commun aux données provenant de données crown-sourcées.

L’aperçu des données est un excellent moyen d’expérimenter les données audio avant de s’engager à les utiliser. Vous pouvez choisir n’importe quel jeu de données sur le Hub, faire défiler les échantillons et écouter l’audio pour les différents sous-ensembles et divisions, afin d’évaluer s’il s’agit du bon jeu de données pour vos besoins. Une fois que vous avez sélectionné un jeu de données, il est facile de charger les données afin de pouvoir commencer à les utiliser.

Personnellement, je ne parle pas le dhivehi et je m’attends à ce que la grande majorité des lecteurs ne le parlent pas non plus ! Pour savoir si notre modèle finetuné est bon, nous aurons besoin d’un moyen rigoureux de l’évaluer sur des données inédites et de mesurer sa précision de transcription. C’est exactement ce que nous allons faire dans la section suivante !

< > Update on GitHub

Audio Course