Spaces:

jawill
/

nlp_textToSpeech

Sleeping

App Files Files Community

jwphantom commited on Mar 5

Commit

dfc6a42

•

1 Parent(s): ebf94f7

fisrt commit

Browse files

Files changed (3) hide show

.gitignore +4 -0
app.py +47 -0
requirements.txt +67 -0

.gitignore ADDED Viewed

	@@ -0,0 +1,4 @@

+.venv/
+__pycache__/
+.env
+.DS_Store

app.py ADDED Viewed

	@@ -0,0 +1,47 @@

+from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
+from datasets import load_dataset
+import torch
+import soundfile as sf
+import numpy as np
+import gradio as gr
+# Charger les modèles et les embeddings du locuteur une seule fois pour éviter de les recharger à chaque appel
+processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
+model = SpeechT5ForTextToSpeech.from_pretrained("microsoft/speecht5_tts")
+vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
+embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
+speaker_embeddings = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze(0)
+def text_to_speech(text):
+    # Prétraiter le texte
+    inputs = processor(text=text, return_tensors="pt")
+    # Générer la parole
+    speech = model.generate_speech(
+        inputs["input_ids"], speaker_embeddings, vocoder=vocoder
+    )
+    # Enregistrer le fichier audio
+    output_filename = "speech.wav"
+    sf.write(output_filename, speech.numpy(), samplerate=16000)
+    # Lire le fichier audio
+    with open(output_filename, "rb") as file:
+        audio_bytes = file.read()
+    return audio_bytes
+# Créer l'interface Gradio
+interface = gr.Interface(
+    fn=text_to_speech,
+    inputs="text",
+    outputs=gr.Audio(label="Processed Audio"),
+    title="Application du type Text to speech",
+    description="Entrez un texte en anglais et l'application va la traduire",
+)
+# Lancer l'interface Gradio
+if __name__ == "__main__":
+    interface.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,67 @@

+aiofiles==23.2.1
+altair==5.2.0
+annotated-types==0.6.0
+anyio==4.3.0
+attrs==23.2.0
+certifi==2024.2.2
+charset-normalizer==3.3.2
+click==8.1.7
+colorama==0.4.6
+contourpy==1.2.0
+cycler==0.12.1
+fastapi==0.110.0
+ffmpy==0.3.2
+filelock==3.13.1
+fonttools==4.49.0
+fsspec==2024.2.0
+gradio==4.19.2
+gradio_client==0.10.1
+h11==0.14.0
+httpcore==1.0.4
+httpx==0.27.0
+huggingface-hub==0.21.3
+idna==3.6
+importlib_resources==6.1.2
+Jinja2==3.1.3
+jsonschema==4.21.1
+jsonschema-specifications==2023.12.1
+kiwisolver==1.4.5
+markdown-it-py==3.0.0
+MarkupSafe==2.1.5
+matplotlib==3.8.3
+mdurl==0.1.2
+numpy==1.26.4
+orjson==3.9.15
+packaging==23.2
+pandas==2.2.1
+pillow==10.2.0
+pydantic==2.6.3
+pydantic_core==2.16.3
+pydub==0.25.1
+Pygments==2.17.2
+pyparsing==3.1.1
+python-dateutil==2.9.0.post0
+python-multipart==0.0.9
+pytz==2024.1
+PyYAML==6.0.1
+referencing==0.33.0
+requests==2.31.0
+rich==13.7.1
+rpds-py==0.18.0
+ruff==0.3.0
+semantic-version==2.10.0
+shellingham==1.5.4
+six==1.16.0
+sniffio==1.3.1
+starlette==0.36.3
+tomlkit==0.12.0
+toolz==0.12.1
+tqdm==4.66.2
+typer==0.9.0
+typing_extensions==4.10.0
+tzdata==2024.1
+urllib3==2.2.1
+uvicorn==0.27.1
+websockets==11.0.3
+transformers==4.38.2
+torch==2.2.1