Spaces:
Running
项目介绍
欢迎您使用我们的项目! 这是一个基于GPT-SoVITS开发的,专门为推理任务设计的插件:GSV是一款优秀的人工智能语音合成引擎,我们在此基础上提供了一个更用户友好的api接口。 我们的插件以一种子模块的方式附着在原始GPT-SoVITS项目之上,为用户带来更加丰富和便捷的体验。
套件说明
我们提供了一个统一的API接口,让所有语音合成任务都能轻松地通过这个接口来完成。它具备了一个语音合成引擎后端的基本功能,例如您可以指定发音人、语速、与角色情绪,或者选择返回的音频格式、是否使用流式合成;也有许多与GSV项目相关的参数可选,例如文字的切分方法,batch size 与一些GPT的扩散参数。 此外,我们还额外提供了两个配套的gradio程序:一个是前端界面,便于用户进行语音合成操作;另一个是模型管理界面,用户可以在此自定义角色预设情感的参考音频,让语音合成更加个性化。
核心特点
- 高级抽象接口:用户无需直接接触复杂的模型路径或技术参数,只需通过直观的“人物卡”导入与选择所需角色和情绪。
- 全面的TTS引擎支持:我们的插件支持所有基本的文本到语音(TTS)引擎功能,包括但不限于发音人选择、语速调节、音量控制等,确保用户可以根据具体需要调整语音输出。
- 一键式操作:简化的操作流程,让用户可以快速从角色导入到语音合成,实现一键运行。
- 用户友好设计:旨在为所有用户提供清晰、简单、易用的体验,无论技术背景如何。
- 高度的兼容性和扩展性:api接口的设计考虑到了与不同平台和应用的兼容性,无论是移动应用、桌面软件还是网络服务,都可以轻松集成和使用(需要您有一台正在运行后端服务的服务器/ 在您本地电脑上运行)。同时,我们也为开发者提供了丰富的API文档,支持自定义开发和扩展。
安装指南
安装我们的插件其实非常简单和直接,即使我们的方法相对来说更具创新性。下面是一个简化和明晰的步骤指南,旨在帮助您快速开始使用。 整体来说,您可以选择自行部署或者使用我们提供的Windows整合包
1. 自行部署
虽然说是以子模块的形式存在的,但是由于我们采取了相当激进的开发策略,大部分基于原项目的试验分支fast_inference_
进行开发,并进行了大量的定制化改进,包括对一些特性的增强(如自动文本切分),因此直接安装原始项目会导致出现一些函数定义与库的使用方面的问题。
因此推荐您直接使用我们为此目的专门准备的fork版本,即GSVI(GPT-SoVITS-Inference)。这个版本已经被优化以支持各种扩展功能,并且兼容了多个插件,非常适合各种创意应用,比如创建您自己的虚拟角色。
GSVI开源地址:https://github.com/X-T-E-R/GPT-SoVITS-Inference
按照页面提示逐步安装即可。
2. 整合包(对于Windows用户)
如果您是Windows用户,我们特别推荐使用专为Windows平台优化的整合包。这个包集成了预训练模型、Python环境以及一个由易语言编写的启动器,极大简化了安装和启动过程。
- 整合包下载:访问我们的中文语雀文档 https://www.yuque.com/xter/zibxlp/kkicvpiogcou5lgp,在这里您可以找到整合包的下载链接以及详细的安装和使用指南。
使用说明
Flask后端程序:src/tts_backend.py
Gradio前端程序:src/TTS_Webui.py
Gradio模型管理界面:src/Character_Manager.py
有关于api接口的文档,请访问我们的语雀文档界面:https://www.yuque.com/xter/zibxlp/knu8p82lb5ipufqy ,doc
文件夹内的md文件更新不是很及时
后续步骤
- 探索文档:我们强烈建议您在开始使用之前,仔细阅读我们的文档和使用说明。这将帮助您更好地了解所有功能和可用的定制选项。文档链接:https://www.yuque.com/xter/zibxlp
- 社区支持:如果在安装或使用过程中遇到任何问题,不要犹豫加入我们的社区或查阅FAQ。我们的社区非常活跃,很多经验丰富的用户和开发者都乐于帮助新手。QQ:
863760614
通过遵循这些步骤,您应该能够轻松地开始使用我们的项目,无论是进行语音合成实验,还是开发自己的应用。我们期待看到您如何使用GSVI来实现您的创意和项目!