第六单元：从文本到语音

在上一个单元中，您学习了如何使用 Transformers 将语音转换成文本。现在，让我们换一个方向，看看该如何将输入的文本转换成听起来像人类语音的音频输出。

我们在这个单元将学习的任务称为“语音合成”（Text-to-Speech，简称 TTS），要将文本转换为可听的人类语音。这样的模型具有广泛的潜在应用：

辅助 app：可以利用这些模型帮助视觉障碍人士通过声音媒介访问数字内容。
有声读物朗读：将文本的书籍转换成音频形式，使比起读喜欢听的或阅读有困难的人们能更容易地欣赏文学作品。
虚拟助手：TTS 模型是 Siri、Google Assistant 或 Amazon Alexa 等虚拟助手的基本组成部分。它们使用分类模型捕捉到唤醒词，并使用 ASR（语音识别）模型处理了您的请求之后，就可以使用 TTS 模型来回应您的问题。
娱乐、游戏和语言学习：为您的 NPC（非玩家角色）赋予声音，叙述游戏事件，或帮助语言学习者了解单词和短语的正确发音和语调。

这些只是一些例子，我相信您还可以想象出更多！然而，能力越大责任越大，需要强调 TTS 模型有可能被用于恶意目的。例如，有了足够的声音样本，不法分子可能会合成出足以以假乱真的假语音，未经授权使用他人的声音，甚至用于诈骗。如果想要收集数据以微调自己的系统，请仔细考虑隐私和知情同意。获取声音数据应获得个人的明确同意，确保他们理解声音在 TTS 系统中使用的目的、范围和潜在风险。请负责任地使用语音合成技术。

在这一章中，我们将介绍：

< > Update on GitHub

Audio Course

第六单元：从文本到语音