实战练习

在这个单元中，我们探讨了语音合成的音频任务，讨论了现有的 Datasets、预训练模型以及为新语言微调 SpeechT5 的细节。

正如您所见，为语音合成任务微调模型在资源较少的情况下可能比较有挑战性。同时，评估语音合成模型也不是一件容易的事。

因此，这个实践练习将侧重于练习技能，而不是达到特定的指标。

您在这个任务中的目标是在您选择的数据集上微调 SpeechT5。您可以从相同的 voxpopuli 数据集中选择另一种语言，或者选择本单元中列出的任何其他数据集。

注意训练数据的大小！如果在 Google Colab 免费版的 GPU 上训练，我们推荐将训练数据限制在大约 10-15 小时。

微调完成后，请上传到 Hub 来分享您的模型，并加上 text-to-speech 模型标签，可以通过 kwargs 或者在 Hub UI 中设置。

请记得，这个练习的主要目的是为您提供充分的实践，让您锻炼学到的技能并深入理解语音合成的音频任务。

Audio Course