Spaces:

mason369
/

AI-RVC

Running

App Files Files Community

AI-RVC / README_HF.md

mason369

Upload README_HF.md with huggingface_hub

2344a28 verified 5 days ago

preview code

raw

history blame contribute delete

5.19 kB

A newer version of the Gradio SDK is available: 6.9.0

Upgrade

metadata

title: AI-RVC 语音转换 & AI 翻唱
emoji: 🎤
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 3.50.2
app_file: app.py
pinned: false
license: mit

🎤 AI-RVC 语音转换 & AI 翻唱

基于 RVC v2 + RMVPE 的高质量语音转换系统，支持一键 AI 翻唱功能。

功能特点

AI 歌曲翻唱：上传歌曲自动分离人声、转换音色、混合伴奏，一键生成翻唱
人声分离：默认 Mel-Band Roformer (KimberleyJensen)，在 MVSEP 公开 Multisong 指标中为 Vocals SDR 11.01 / Instrum SDR 17.32
语音转换：RVC v2 架构 + FAISS 检索增强流程
RMVPE 音高提取：高精度 F0 提取，噪声鲁棒性强
角色模型：内置 117 个可下载角色模型
混音效果：支持人声混响、音量调节、4 种混音预设
卡拉OK模式：分离主唱和伴唱轨道
VC预处理：4 种模式（自动、直通、学习型DeEcho、旧版手工链）
双VC管道：支持当前实现和官方实现

使用方法

1. 下载角色模型

首次使用需要下载角色模型：

进入「歌曲翻唱」标签页
展开「下载角色模型」折叠面板
选择并下载一个角色（推荐：星空凛、芙宁娜、纳西妲等）

2. 开始翻唱

上传歌曲文件（支持 MP3/WAV/FLAC）
选择已下载的角色
调整参数：
- 音调偏移：男转女 +12，女转男 -12
- 混音预设：通用/人声突出/伴奏突出/现场感
- 卡拉OK模式：启用主唱/伴唱分离
点击「🚀 开始翻唱」
下载生成的翻唱作品

参数说明

基础参数

音调偏移：半音数，正数升调，负数降调（男转女: +12, 女转男: -12）
索引率：越高越像训练音色（建议 10-50%）
说话人ID：多说话人模型的说话人选择（通常为 0）

混音预设

通用：默认均衡设置
人声突出：人声 +15%，伴奏 -10%，混响 -5%
伴奏突出：人声 -10%，伴奏 +15%，混响 -5%
现场感：默认音量，混响 +10%

VC 预处理模式

自动：根据模型可用性自动选择（推荐）
直通：主唱直接进入 RVC
学习型 DeEcho：使用 UVR DeEcho/DeReverb
旧版手工链：仅用于对比测试

可用角色模型（117 个）

系列	角色示例
Love Live!	星空凛、园田海未、东条希、小泉花阳、南小鸟
Love Live! Sunshine!!	高海千歌、樱内梨子、黑泽黛雅、黑泽露比、国木田花丸
Love Live! 虹咲学园	上原步梦、中须霞、天王寺璃奈、近江彼方、优木雪菜
原神	芙宁娜、枫原万叶、纳西妲、八重神子、雷电将军
Hololive	Fuwawa、Mococo
偶像大师	神崎兰子、梦见莉亚梦、双叶杏、本田未央、岛村卯月

完整列表请在 UI 中查看「下载角色模型」面板

技术架构

音频输入 → CoverPipeline
              ↓
          人声分离 (Mel-Band Roformer)
              ↓
          RVC 语音转换 (HuBERT + RMVPE + FAISS)
              ↓
          混音 (音量调节 + 混响)
              ↓
          AI 翻唱成品

常见问题

Q: 首次运行很慢？

A: 首次运行会自动下载模型文件（HuBERT、RMVPE、Roformer 等），请耐心等待。

Q: 高音断音/撕裂？

A: 尝试降低保护系数（0.33 → 0.2），增大滤波半径（3 → 5）。

Q: 转换后声音失真？

A: 降低索引率，调整音调偏移，使用更高质量的输入音频。

Q: 如何选择合适的角色？

A: 建议选择与原唱性别、音色相近的角色，效果更自然。

性能说明

GPU 加速：自动检测并使用 GPU（CUDA/ROCm）
处理时间：一首 3-5 分钟的歌曲约需 2-5 分钟处理
显存需求：建议 4GB 以上显存

限制说明

音频长度：建议单次处理不超过 10 分钟
文件大小：建议上传文件不超过 50MB
并发处理：同时只能处理一个任务

免责声明

本项目仅供学习研究和个人娱乐用途，不得用于任何商业目的。严禁使用本软件进行欺诈、传播虚假信息或侵犯他人权益。用户对使用本软件产生的所有内容和后果承担全部责任。

致谢

RVC-Project - 原始 RVC 项目
Mel-Band RoFormer - 人声分离模型
audio-separator - 音源分离框架
RMVPE - F0 提取
Gradio - Web 界面框架

License: MIT Version: 2.0 Last Updated: 2026-03-10