speecht5-tts-demo

Sleeping

App Files Files Community

Matthijs Hollemans commited on Feb 7, 2023

Commit

caaf71e

1 Parent(s): c66db33

add randomized voice

Browse files

Files changed (3) hide show

app.py +29 -2
spkemb/cmu_us_awb_arctic-wav-arctic_a0002.npy +3 -0
spkemb/cmu_us_ksp_arctic-wav-arctic_b0087.npy +3 -0

app.py CHANGED Viewed

@@ -15,6 +15,7 @@ vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
 speaker_embeddings = {
     "BDL": "spkemb/cmu_us_bdl_arctic-wav-arctic_a0009.npy",
     "CLB": "spkemb/cmu_us_clb_arctic-wav-arctic_a0144.npy",
     "RMS": "spkemb/cmu_us_rms_arctic-wav-arctic_b0353.npy",
     "SLT": "spkemb/cmu_us_slt_arctic-wav-arctic_a0508.npy",
 }
@@ -26,7 +27,24 @@ def predict(text, speaker):
     inputs = processor(text=text, return_tensors="pt")
-    speaker_embedding = np.load(speaker_embeddings[speaker[:3]])
     speaker_embedding = torch.tensor(speaker_embedding).unsqueeze(0)
     speech = model.generate_speech(inputs["input_ids"], speaker_embedding, vocoder=vocoder)
@@ -48,6 +66,7 @@ and the <a href="https://huggingface.co/spaces/Matthijs/speecht5-vc-demo">voice
 <b>How to use:</b> Enter some English text and choose a speaker. The output is a mel spectrogram, which is converted to a mono 16 kHz waveform by the
 HiFi-GAN vocoder. Because the model always applies random dropout, each attempt will give slightly different results.
 """
 article = """
@@ -86,7 +105,15 @@ gr.Interface(
     fn=predict,
     inputs=[
         gr.Text(label="Input Text"),
-        gr.Radio(label="Speaker", choices=["BDL (male)", "CLB (female)", "RMS (male)", "SLT (female)"], value="BDL (male)"),
     ],
     outputs=[
         gr.Audio(label="Generated Speech", type="numpy"),

 speaker_embeddings = {
     "BDL": "spkemb/cmu_us_bdl_arctic-wav-arctic_a0009.npy",
     "CLB": "spkemb/cmu_us_clb_arctic-wav-arctic_a0144.npy",
+    "KSP": "spkemb/cmu_us_ksp_arctic-wav-arctic_b0087.npy",
     "RMS": "spkemb/cmu_us_rms_arctic-wav-arctic_b0353.npy",
     "SLT": "spkemb/cmu_us_slt_arctic-wav-arctic_a0508.npy",
 }
     inputs = processor(text=text, return_tensors="pt")
+    if speaker == "Surprise Me!":
+        # load one of the provided speaker embeddings at random
+        idx = np.random.randint(len(speaker_embeddings))
+        key = list(speaker_embeddings.keys())[idx]
+        speaker_embedding = np.load(speaker_embeddings[key])
+        # randomly shuffle the elements
+        np.random.shuffle(speaker_embedding)
+        # randomly flip half the values
+        x = (np.random.rand(512) >= 0.5) * 1.0
+        x[x == 0] = -1.0
+        speaker_embedding *= x
+        #speaker_embedding = np.random.rand(512).astype(np.float32) * 0.3 - 0.15
+    else:
+        speaker_embedding = np.load(speaker_embeddings[speaker[:3]])
     speaker_embedding = torch.tensor(speaker_embedding).unsqueeze(0)
     speech = model.generate_speech(inputs["input_ids"], speaker_embedding, vocoder=vocoder)
 <b>How to use:</b> Enter some English text and choose a speaker. The output is a mel spectrogram, which is converted to a mono 16 kHz waveform by the
 HiFi-GAN vocoder. Because the model always applies random dropout, each attempt will give slightly different results.
+The <em>Surprise Me!</em> option creates a completely randomized speaker.
 """
 article = """
     fn=predict,
     inputs=[
         gr.Text(label="Input Text"),
+        gr.Radio(label="Speaker", choices=[
+            "BDL (male)",
+            "CLB (female)",
+            "KSP (male)",
+            "RMS (male)",
+            "SLT (female)",
+            "Surprise Me!"
+        ],
+        value="BDL (male)"),
     ],
     outputs=[
         gr.Audio(label="Generated Speech", type="numpy"),

spkemb/cmu_us_awb_arctic-wav-arctic_a0002.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5db7a684ab490f21cec1628e00d461a184e369fe4eafb1ee441a796faf4ab6ae
+size 2176

spkemb/cmu_us_ksp_arctic-wav-arctic_b0087.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f6c5c2a38c2e400179019c560a74c4322f4ee13beda22ee601807545edee283e
+size 2176