Spaces:
Build error
Build error
Update app.py
Browse files
app.py
CHANGED
@@ -10,10 +10,17 @@ with app:
|
|
10 |
with gr.Tabs():
|
11 |
with gr.TabItem("Basic"):
|
12 |
gr.Markdown(value="""
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
13 |
""")
|
14 |
-
sid = gr.Dropdown(label="
|
15 |
vc_audio = gr.Audio(label="上传音频,建议小于2分钟")
|
16 |
-
vc_transform = gr.Number(label="
|
17 |
vc_submit = gr.Button("转换", variant="primary")
|
18 |
vc_output1 = gr.Textbox(label="Output Message")
|
19 |
vc_output2 = gr.Audio(label="Output Audio")
|
|
|
10 |
with gr.Tabs():
|
11 |
with gr.TabItem("Basic"):
|
12 |
gr.Markdown(value="""
|
13 |
+
本模型为混合了aishell3(174说话人,共约80+h)和opencpop(1说话人,5+h)用A100单卡在60batchsize下训练了350左右epoch得到的
|
14 |
+
模型对于纯粹的语音转换效果尚可,对于歌唱音频则只能在对应说话人音域范围内才有较好效果。且由于aishell3数据占比过大,训练epoch不足,导致opencpop说话人的高音部分发挥较差。
|
15 |
+
模型中各说话人的适宜中心音域分别为:
|
16 |
+
aishell3(0-173号) 女性说话:A3,男性说话:C3
|
17 |
+
opencpop(174号) 女性唱歌:C4(超过C5基本失真)
|
18 |
+
如果转换通常说话音频,需要参考上面范围调key至目标说话人中心音域附近(如男性说话专为女性说话,key=8,反过来为-8)
|
19 |
+
如果源音频为部分虚拟主播音频,通常音调会高于正常女性说话范围,可达到F4-A4左右,请适当降调
|
20 |
""")
|
21 |
+
sid = gr.Dropdown(label="说话人",choices=spkdict, value='speaker174')
|
22 |
vc_audio = gr.Audio(label="上传音频,建议小于2分钟")
|
23 |
+
vc_transform = gr.Number(label="调key(按照十二平均律确定的半音,一整个8度就是12)",value=174)
|
24 |
vc_submit = gr.Button("转换", variant="primary")
|
25 |
vc_output1 = gr.Textbox(label="Output Message")
|
26 |
vc_output2 = gr.Audio(label="Output Audio")
|