第六单元:从文本到语音
在上一个单元中,您学习了如何使用 Transformers 将语音转换成文本。现在,让我们换一个方向,看看该如何将输入的文本转换成听起来像人类语音的音频输出。
我们在这个单元将学习的任务称为“语音合成”(Text-to-Speech,简称 TTS),要将文本转换为可听的人类语音。这样的模型具有广泛的潜在应用:
- 辅助 app:可以利用这些模型帮助视觉障碍人士通过声音媒介访问数字内容。
- 有声读物朗读:将文本的书籍转换成音频形式,使比起读喜欢听的或阅读有困难的人们能更容易地欣赏文学作品。
- 虚拟助手:TTS 模型是 Siri、Google Assistant 或 Amazon Alexa 等虚拟助手的基本组成部分。它们使用分类模型捕捉到唤醒词,并使用 ASR(语音识别)模型处理了您的请求之后,就可以使用 TTS 模型来回应您的问题。
- 娱乐、游戏和语言学习:为您的 NPC(非玩家角色)赋予声音,叙述游戏事件,或帮助语言学习者了解单词和短语的正确发音和语调。
这些只是一些例子,我相信您还可以想象出更多!然而,能力越大责任越大,需要强调 TTS 模型有可能被用于恶意目的。例如,有了足够的声音样本, 不法分子可能会合成出足以以假乱真的假语音,未经授权使用他人的声音,甚至用于诈骗。如果想要收集数据以微调自己的系统,请仔细考虑隐私和知情同意。 获取声音数据应获得个人的明确同意,确保他们理解声音在 TTS 系统中使用的目的、范围和潜在风险。请负责任地使用语音合成技术。
在这一章中,我们将介绍:
< > Update on GitHub