text-to-speech / app.py
DHEIVER's picture
Update app.py
26d86ba verified
raw history blame
No virus
5.57 kB
import logging
import os
import time
import uuid
import gradio as gr
import soundfile as sf
from model import get_pretrained_model, language_to_models
title = "# Conversão de texto para fala (TTS)"
description = """
**Projeto Open Source de Text-to-Speech para Produção de Conteúdo com Inteligência Artificial: Voz Inteligente para Criadores de Cursos e Podcasters**
---
**Visão Geral do Projeto:**
O projeto Text-to-Speech (TTS) de código aberto visa capacitar criadores de cursos online e podcasters a produzirem conteúdo de alta qualidade através da aplicação de tecnologias avançadas de inteligência artificial. Ao oferecer uma solução robusta e flexível, o projeto busca democratizar o acesso a vozes naturais e envolventes, eliminando barreiras linguísticas e proporcionando uma experiência de aprendizado ou entretenimento mais inclusiva.
---
**Objetivos do Projeto:**
1. **Acessibilidade Global:** Tornar a produção de conteúdo acessível a todos, independentemente do idioma ou localização geográfica.
2. **Facilitar a Criação de Cursos Online:** Capacitar educadores a criar cursos envolventes e interativos, melhorando a experiência de aprendizado dos alunos.
3. **Aprimorar Produções de Podcast:** Permitir que podcasters forneçam narrativas cativantes e experiências auditivas excepcionais aos ouvintes.
4. **Desenvolvimento Sustentável:** Fomentar uma comunidade aberta e colaborativa para garantir a evolução contínua do projeto.
---
**Como Contribuir:**
O projeto Text-to-Speech é totalmente aberto à contribuição da comunidade. Se você é um desenvolvedor, designer, linguista ou entusiasta da inteligência artificial, sua participação é bem-vinda. Contribua com códigos, sugestões de recursos, correções de bugs ou simplesmente compartilhe suas experiências para enriquecer a diversidade de perspectivas.
Junte-se a nós na missão de tornar a produção de conteúdo mais acessível, envolvente e impactante com a magia da inteligência artificial aplicada à síntese de voz!
"""
css = """.result {display:flex;flex-direction:column}.result_item {padding:15px;margin-bottom:8px;border-radius:15px;width:100%}.result_item_success {background-color:mediumaquamarine;color:white;align-self:start}.result_item_error {background-color:#ff7070;color:white;align-self:start}"""
examples = [["Portuguese", "csukuangfj/vits-mms-por", "Computação é arte.", 0, 1.0]]
language_choices = ["Portuguese"]
def update_model_dropdown(language):
return gr.Dropdown(choices=language_to_models.get(language, []), value=language_to_models.get(language, [""])[0], interactive=True)
def build_html_output(s, style="result_item_success"):
return f"""<div class='result'><div class='result_item {style}'>{s}</div></div>"""
def process(language, repo_id, text, sid, speed):
logging.info(f"Input text: {text}. sid: {sid}, speed: {speed}")
sid = int(sid)
tts = get_pretrained_model(repo_id, speed)
start = time.time()
audio = tts.generate(text, sid=sid)
end = time.time()
if len(audio.samples) == 0:
raise ValueError("Error in generating audios. Please read previous error messages.")
duration = len(audio.samples) / audio.sample_rate
elapsed_seconds = end - start
rtf = elapsed_seconds / duration
info = f"""Wave duration : {duration:.3f} s <br/>Processing time: {elapsed_seconds:.3f} s <br/>RTF: {elapsed_seconds:.3f}/{duration:.3f} = {rtf:.3f} <br/>"""
logging.info(info)
logging.info(f"\nrepo_id: {repo_id}\ntext: {text}\nsid: {sid}\nspeed: {speed}")
filename = str(uuid.uuid4()) + ".wav"
sf.write(filename, audio.samples, samplerate=audio.sample_rate, subtype="PCM_16")
return filename, build_html_output(info)
demo = gr.Blocks(css=css)
with demo:
gr.Markdown(title)
language_radio = gr.Radio(label="Language", choices=language_choices, value=language_choices[0])
model_dropdown = gr.Dropdown(choices=language_to_models["Portuguese"], label="Select a model", value=language_to_models["Portuguese"][0])
language_radio.change(update_model_dropdown, inputs=language_radio, outputs=model_dropdown)
with gr.Tabs():
with gr.TabItem("Please input your text"):
input_text = gr.Textbox(label="Input text", info="Your text", lines=3, placeholder="Please input your text here")
input_sid = gr.Textbox(label="Speaker ID", info="Speaker ID", lines=1, max_lines=1, value="0", placeholder="Speaker ID. Valid only for mult-speaker model")
input_speed = gr.Slider(minimum=0.1, maximum=10, value=1, step=0.1, label="Speed (larger->faster; smaller->slower)")
input_button = gr.Button("Submit")
output_audio = gr.Audio(label="Output")
output_info = gr.HTML(label="Info")
gr.Examples(examples=examples, fn=process, inputs=[language_radio, model_dropdown, input_text, input_sid, input_speed], outputs=[output_audio, output_info])
input_button.click(process, inputs=[language_radio, model_dropdown, input_text, input_sid, input_speed], outputs=[output_audio, output_info])
gr.Markdown(description)
def download_espeak_ng_data():
os.system("""cd /tmp; wget -qq https://github.com/k2-fsa/sherpa-onnx/releases/download/tts-models/espeak-ng-data.tar.bz2; tar xf espeak-ng-data.tar.bz2""")
if __name__ == "__main__":
download_espeak_ng_data()
formatter = "%(asctime)s %(levelname)s [%(filename)s:%(lineno)d] %(message)s"
logging.basicConfig(format=formatter, level=logging.INFO)
demo.launch()