Audio Course documentation

补充阅读

Audio Course

第0单元：欢迎来到Hugging Face音频课程！

第1单元：音频数据处理

第2单元：音频应用的入门介绍

第3单元：音频Transformer结构

第5单元：自动语音识别 (ASR)

第六单元：从文本到语音

单元简介语音合成数据集语音合成的预训练模型微调 SpeechT5 评估语音合成模型实战练习补充阅读

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

补充阅读

本单元介绍了语音合成任务，包含了很多内容。想要了解更多吗？在这里，您将找到额外的资源，帮助您深入理解这些主题并提升您的学习体验。

HiFi-GAN: 用于高效和高保真语音合成的生成对抗网络：介绍语音合成中的声码器 HiFi-GAN 的论文。
X-Vectors: 用于说话人识别的鲁棒 DNN 嵌入：介绍说话人嵌入的 X-Vector 方法的论文。
FastSpeech 2: 快速且高质量的端到端语音合成：介绍 FastSpeech 2 的论文，这是另一个流行的语音合成模型，它使用了一种非自回归的 TTS 方法。
文本到语音合成的一种基于真实自发语音的向量量化方法：介绍 MQTTS 的论文，这是一个自回归的 TTS 系统，它用量化的离散表示替换了梅尔谱。

< > Update on GitHub

←实战练习