Spaces:

KevinGeng
/

Laronix_voice_quality_checking_system_MICROPHONE

Sleeping

KevinGeng commited on Dec 13, 2023

Commit

8dacb0a

•

1 Parent(s): 403b1ea

dis able PPM

Files changed (1) hide show

app.py CHANGED Viewed

@@ -23,8 +23,8 @@ transformation = jiwer.Compose([
 # WPM part
 from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
-processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-xlsr-53-espeak-cv-ft")
-phoneme_model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-xlsr-53-espeak-cv-ft")
 # phoneme_model =  pipeline(model="facebook/wav2vec2-xlsr-53-espeak-cv-ft")
 class ChangeSampleRate(nn.Module):
     def __init__(self, input_rate: int, output_rate: int):
@@ -79,10 +79,13 @@ def calc_mos(audio_path, ref):
     MOS_fig = Naturalness_Plot(AVA_MOS)
     # Phonemes per minute (PPM)
-    with torch.no_grad():
-        logits = phoneme_model(out_wavs).logits
-    phone_predicted_ids = torch.argmax(logits, dim=-1)
-    phone_transcription = processor.batch_decode(phone_predicted_ids)
     lst_phonemes = phone_transcription[0].split(" ")
     wav_vad = torchaudio.functional.vad(wav, sample_rate=sr)
@@ -92,7 +95,7 @@ def calc_mos(audio_path, ref):
     ppm = len(lst_phonemes) / (wav_vad.shape[-1] / sr) * 60
     # pdb.set_trace()
-    return AVA_MOS, MOS_fig, INTELI_score, INT_fig, trans, phone_transcription, ppm , f0_db_fig
 with open("local/description.md") as f:

 # WPM part
 from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
+# processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-xlsr-53-espeak-cv-ft")
+# phoneme_model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-xlsr-53-espeak-cv-ft")
 # phoneme_model =  pipeline(model="facebook/wav2vec2-xlsr-53-espeak-cv-ft")
 class ChangeSampleRate(nn.Module):
     def __init__(self, input_rate: int, output_rate: int):
     MOS_fig = Naturalness_Plot(AVA_MOS)
     # Phonemes per minute (PPM)
+    # with torch.no_grad():
+    #     logits = phoneme_model(out_wavs).logits
+    # phone_predicted_ids = torch.argmax(logits, dim=-1)
+    # phone_transcription = processor.batch_decode(phone_predicted_ids)
+    # Disable PPM for now
+    phone_transcription = None
     lst_phonemes = phone_transcription[0].split(" ")
     wav_vad = torchaudio.functional.vad(wav, sample_rate=sr)
     ppm = len(lst_phonemes) / (wav_vad.shape[-1] / sr) * 60
     # pdb.set_trace()
+    return AVA_MOS, MOS_fig, INTELI_score, INT_fig, trans, phone_transcription, ppm, f0_db_fig
 with open("local/description.md") as f: