Spaces:

TangRain
/

muskits-espnet-svs-demo

Running

TangRain commited on Oct 27, 2024

Commit

8db2907

1 Parent(s): 9794c19

add mos prediction

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,4 +1,6 @@
 import os
 import numpy as np
 import gradio as gr
 import pyopenjtalk
@@ -156,7 +158,14 @@ def gen_song(model_name, spk, texts, durs, pitchs):
         spk_embed = np.load(singer_embeddings[model_name][spk])
         output_dict = svs(batch, lids=lid, spembs=spk_embed)
     wav_info = output_dict["wav"].cpu().numpy()
-    return (fs, wav_info), "success!"
 # SP: silence, AP: aspirate.
@@ -276,6 +285,7 @@ Music score usually includes lyrics, as well as duration and pitch of each word
         with gr.Column(variant="panel"):
             gened_song = gr.Audio(label="Generated Song", type="numpy")
             run_status = gr.Textbox(label="Running Status")
     gr.Examples(
         examples=examples,
@@ -300,7 +310,7 @@ Music score usually includes lyrics, as well as duration and pitch of each word
     generate.click(
         fn=gen_song,
         inputs=[model_name, singer, lyrics, duration, pitch],
-        outputs=[gened_song, run_status],
     )
 demo.launch()

 import os
+import torch
+import librosa
 import numpy as np
 import gradio as gr
 import pyopenjtalk
         spk_embed = np.load(singer_embeddings[model_name][spk])
         output_dict = svs(batch, lids=lid, spembs=spk_embed)
     wav_info = output_dict["wav"].cpu().numpy()
+    # mos prediction with sr=16k
+    predictor = torch.hub.load("South-Twilight/SingMOS:v0.2.0", "singing_ssl_mos", trust_repo=True)
+    wav_mos = librosa.resample(wav_info, orig_sr=fs, target_sr=16000)
+    wav_mos = torch.from_numpy(wav_mos).unsqueeze(0)
+    len_mos = torch.tensor([wav_mos.shape[1]])
+    score = predictor(wav_mos, len_mos)
+    return (fs, wav_info), "success!", round(score.item(), 2)
 # SP: silence, AP: aspirate.
         with gr.Column(variant="panel"):
             gened_song = gr.Audio(label="Generated Song", type="numpy")
             run_status = gr.Textbox(label="Running Status")
+            pred_mos = gr.Textbox(label=" Pseudo MOS")
     gr.Examples(
         examples=examples,
     generate.click(
         fn=gen_song,
         inputs=[model_name, singer, lyrics, duration, pitch],
+        outputs=[gened_song, run_status, pred_mos],
     )
 demo.launch()