Spaces:

arham061
/

urdu_TTS

Sleeping

App Files Files Community

arham061 commited on Jul 16, 2023

Commit

f4c0261

•

1 Parent(s): 3157df7

Update app.py

Browse files

Files changed (1) hide show

app.py +1 -33

app.py CHANGED Viewed

@@ -14,36 +14,6 @@ model = SpeechT5ForTextToSpeech.from_pretrained(checkpoint)
 tokenizer = processor.tokenizer
 vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
-def prepare_dataset(example):
-    audio = example["audio"]
-    example = processor(
-        text=transString(example["sentence"]),
-        audio_target=audio["array"],
-        sampling_rate=audio["sampling_rate"],
-        return_attention_mask=False,
-    )
-    # strip off the batch dimension
-    example["labels"] = example["labels"][0]
-    # use SpeechBrain to obtain x-vector
-    example["speaker_embeddings"] = create_speaker_embedding(audio["array"])
-    return example
-# Set the authentication token
-config.HF_DATASETS_CUSTOM_HEADERS = {
-    "Authorization": "Bearer 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"
-}
-from huggingface_hub import notebook_login
-notebook_login()
-test_dataset = load_dataset("mozilla-foundation/common_voice_13_0", "ur", split="test")
-test_dataset = test_dataset.cast_column("audio", Audio(sampling_rate=16000))
-test_dataset = test_dataset.map(prepare_dataset, remove_columns=test_dataset.column_names)
 # Buckwalter to Unicode mapping
 buck2uni = {
@@ -122,9 +92,7 @@ def generate_audio(text):
     inputs = processor(text=roman_urdu, return_tensors="pt")
     # Generate audio from the SpeechT5 model
-    example = test_dataset[22]
-    speaker_embeddings = torch.tensor(example["speaker_embeddings"]).unsqueeze(0)
     speech = model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=vocoder)
     return speech

 tokenizer = processor.tokenizer
 vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
 # Buckwalter to Unicode mapping
 buck2uni = {
     inputs = processor(text=roman_urdu, return_tensors="pt")
     # Generate audio from the SpeechT5 model
+    speaker_embeddings = torch.tensor(np.load("speaker_embeddings.npy"))
     speech = model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=vocoder)
     return speech