Spaces:

patriotyk
/

pflowtts_ukr_demo

Runtime error

App Files Files Community

Serhiy Stetskovych commited on Mar 10, 2024

Commit

bd45f54

1 Parent(s): e42c405

Last changes

Browse files

Files changed (2) hide show

app.py +5 -70
prompt.wav +0 -0

app.py CHANGED Viewed

@@ -14,10 +14,6 @@ from hifigan.env import AttrDict
 from hifigan.models import Generator as HiFiGAN
-#from BigVGAN.models import BigVGAN
-#from BigVGAN.env import AttrDict as BigVGANAttrDict
 from pflow.models.pflow_tts import pflowTTS
 from pflow.text import  text_to_sequence, sequence_to_text
 from pflow.utils.utils import intersperse
@@ -26,60 +22,14 @@ from pflow.utils.model import normalize
-BIGVGAN_CONFIG = {
-    "resblock": "1",
-    "num_gpus": 0,
-    "batch_size": 32,
-    "learning_rate": 0.0001,
-    "adam_b1": 0.8,
-    "adam_b2": 0.99,
-    "lr_decay": 0.999,
-    "seed": 1234,
-    "upsample_rates": [4,4,2,2,2,2],
-    "upsample_kernel_sizes": [8,8,4,4,4,4],
-    "upsample_initial_channel": 1536,
-    "resblock_kernel_sizes": [3,7,11],
-    "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
-    "activation": "snakebeta",
-    "snake_logscale": True,
-    "resolutions": [[1024, 120, 600], [2048, 240, 1200], [512, 50, 240]],
-    "mpd_reshapes": [2, 3, 5, 7, 11],
-    "use_spectral_norm": False,
-    "discriminator_channel_mult": 1,
-    "segment_size": 8192,
-    "num_mels": 80,
-    "num_freq": 1025,
-    "n_fft": 1024,
-    "hop_size": 256,
-    "win_size": 1024,
-    "sampling_rate": 22050,
-    "fmin": 0,
-    "fmax": 8000,
-    "fmax_for_loss": None,
-    "num_workers": 4,
-    "dist_config": {
-        "dist_backend": "nccl",
-        "dist_url": "tcp://localhost:54321",
-        "world_size": 1
-    }
-}
 PFLOW_MODEL_PATH = 'checkpoint_epoch=649.ckpt'
-VOCODER_MODEL_PATH = 'g_00120000'
-VOCODER_BIGVGAN_MODEL_PATH = 'g_05000000'
 wav, sr = torchaudio.load('prompt.wav')
 prompt = mel_spectrogram(
-            wav,
             1024,
             80,
             22050,
@@ -114,20 +64,6 @@ def load_hifigan(checkpoint_path, device):
     return hifigan
-def load_bigvgan(checkpoint_path, device):
-    print("Loading '{}'".format(checkpoint_path))
-    checkpoint_dict = torch.load(checkpoint_path, map_location=device)
-    h = BigVGANAttrDict(BIGVGAN_CONFIG)
-    torch.manual_seed(h.seed)
-    generator = BigVGAN(h).to(device)
-    generator.load_state_dict(checkpoint_dict['generator'])
-    generator.eval()
-    generator.remove_weight_norm()
-    return generator
 def to_waveform(mel, vocoder, denoiser=None):
     audio = vocoder(mel).clamp(-1, 1)
@@ -154,9 +90,8 @@ def get_device():
 device = get_device()
 model = pflowTTS.load_from_checkpoint(PFLOW_MODEL_PATH, map_location=device)
 _ = model.eval()
-#vocoder = load_bigvgan(VOCODER_BIGVGAN_MODEL_PATH, device)
 vocoder = load_hifigan(VOCODER_MODEL_PATH, device)
-denoiser = None #Denoiser(vocoder, mode="zeros")
 @torch.inference_mode()
 def synthesise(text, temperature, speed):
@@ -172,7 +107,7 @@ def synthesise(text, temperature, speed):
         temperature=temperature,
         length_scale=1/speed,
         prompt=normalize(prompt, model.mel_mean, model.mel_std).to(device),
-	guidance_scale=1.5
     )
     waveform = to_waveform(output["mel"], vocoder, denoiser)

 from hifigan.models import Generator as HiFiGAN
 from pflow.models.pflow_tts import pflowTTS
 from pflow.text import  text_to_sequence, sequence_to_text
 from pflow.utils.utils import intersperse
 PFLOW_MODEL_PATH = 'checkpoint_epoch=649.ckpt'
+VOCODER_MODEL_PATH = 'g_00140000_m'
+transform = torchaudio.transforms.Vol(gain=-32, gain_type="db")
 wav, sr = torchaudio.load('prompt.wav')
 prompt = mel_spectrogram(
+            transform(wav),
             1024,
             80,
             22050,
     return hifigan
 def to_waveform(mel, vocoder, denoiser=None):
     audio = vocoder(mel).clamp(-1, 1)
 device = get_device()
 model = pflowTTS.load_from_checkpoint(PFLOW_MODEL_PATH, map_location=device)
 _ = model.eval()
 vocoder = load_hifigan(VOCODER_MODEL_PATH, device)
+denoiser = Denoiser(vocoder, mode="zeros")
 @torch.inference_mode()
 def synthesise(text, temperature, speed):
         temperature=temperature,
         length_scale=1/speed,
         prompt=normalize(prompt, model.mel_mean, model.mel_std).to(device),
+        guidance_scale=1.0
     )
     waveform = to_waveform(output["mel"], vocoder, denoiser)

prompt.wav CHANGED Viewed

Binary files a/prompt.wav and b/prompt.wav differ