tenebrisu
/

speecht5_tts_common_voice_uk

Inference Endpoints

Model card Files Files and versions Metrics Training metrics Community

tenebrisu commited on Jul 17

Commit

e1968fb

•

1 Parent(s): 454658c

Update README.md

Files changed (1) hide show

README.md +6 -1

README.md CHANGED Viewed

@@ -3,12 +3,15 @@ datasets:
 - common_voice
 language:
 - uk
 ---
 This model is a fine-tuned version of SpeechT5 for the Ukrainian language, using the Common Voice dataset.
 ## Usage:
 ```python
-!pip install git+https://github.com/huggingface/transformers sentencepiece datasets
 from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5ForSpeechToSpeech, SpeechT5HifiGan
@@ -19,6 +22,8 @@ vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
 speaker_embeddings = 2 * torch.rand((1, 512)) - 1
 text = """ pryvit yak spravy """
 speech = model.generate_speech(inputs["input_ids"], speaker_embeddings, output_cross_attentions=True)
 waveform = vocoder.forward(speech[0])
 ```

 - common_voice
 language:
 - uk
+license: mit
+base_mode: microsoft/speecht5_tts
+pipeline_tag: text-to-speech
 ---
 This model is a fine-tuned version of SpeechT5 for the Ukrainian language, using the Common Voice dataset.
 ## Usage:
 ```python
+!pip install git+https://github.com/huggingface/transformers
 from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5ForSpeechToSpeech, SpeechT5HifiGan
 speaker_embeddings = 2 * torch.rand((1, 512)) - 1
 text = """ pryvit yak spravy """
+inputs = processor(text=text, return_tensors="pt")
 speech = model.generate_speech(inputs["input_ids"], speaker_embeddings, output_cross_attentions=True)
 waveform = vocoder.forward(speech[0])
 ```