14-26AA commited on
Commit
e0fe1af
1 Parent(s): 6e3fcfe

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +10 -3
app.py CHANGED
@@ -10,13 +10,20 @@ with app:
10
  with gr.Tabs():
11
  with gr.TabItem("Basic"):
12
  gr.Markdown(value="""
13
- 本模型为混合了aishell3(174说话人,共约80+h)和opencpop(1说话人,5+h)用A100单卡在60batchsize下训练了350左右epoch得到的。\n
14
- 模型对于纯粹的语音转换效果尚可,对于歌唱音频则只能在对应说话人音域范围内才有较好效果。且由于aishell3数据占比过大,训练epoch不足,导致opencpop说话人的高音部分发挥较差。\n
 
15
  模型中各说话人的适宜中心音域分别为:\n
16
  aishell3(0-173号) 女性说话:A3,男性说话:C3\n
17
  opencpop(174号) 女性唱歌:C4(超过C5基本失真)\n
18
- 如果转换通常说话音频,需要参考上面范围调key至目标说话人中心音域附近(如男性说话专为女性说话,key=8,反过来为-8)\n
19
  如果源音频为部分虚拟主播音频,通常音调会高于正常女性说话范围,可达到F4-A4左右,请适当降调\n
 
 
 
 
 
 
20
  """)
21
  sid = gr.Dropdown(label="说话人",choices=spkdict, value='speaker0')
22
  vc_audio = gr.Audio(label="上传音频,建议小于2分钟")
 
10
  with gr.Tabs():
11
  with gr.TabItem("Basic"):
12
  gr.Markdown(value="""
13
+ 本模型为基于soft-vc和vits的AI声线转换模型。\n
14
+ 模型混合了aishell3(174说话人,共约80+h)和opencpop(1说话人,5+h)数据集训练,用A100单卡在60batchsize下训练了350左右epoch得到的。\n
15
+ 模型对于通常的说话语音转换效果良好,唱歌的话需要在目标说话人音域范围内才能有较好效果。由于aishell3数据占比过大,训练epoch不足,opencpop说话人的高音部分质量不佳。\n
16
  模型中各说话人的适宜中心音域分别为:\n
17
  aishell3(0-173号) 女性说话:A3,男性说话:C3\n
18
  opencpop(174号) 女性唱歌:C4(超过C5基本失真)\n
19
+ 如果转换通常说话音频,需要参考上面范围调key至目标说话人中心音域附近(如男性说话转为女性说话,key=8,反过来为-8)\n
20
  如果源音频为部分虚拟主播音频,通常音调会高于正常女性说话范围,可达到F4-A4左右,请适当降调\n
21
+ 对于说话人的详细信息(如性别、年龄等),可以在文件目录的spkdic_new.json中查看
22
+ ============================================
23
+ 若合成效果不佳请首先考虑如下因素加以改善:
24
+ 1.音域范围是否合适,可参考上文调整调key的参数,或更换说话人进行尝试
25
+ 2.源音频是否存在杂音/bgm,请尽量使用干净的音源进行合成,录音时保持室内安静
26
+ 3.源音频是否存在混响。较强的混响会显著干扰合成效果,导致ai念错字/音调识别错误等
27
  """)
28
  sid = gr.Dropdown(label="说话人",choices=spkdict, value='speaker0')
29
  vc_audio = gr.Audio(label="上传音频,建议小于2分钟")