text-to-speech

Running

File size: 5,566 Bytes

7e9eac8
d853661
b6e1649
7e9eac8
 
b6e1649
 
7e9eac8
98329d0
7e9eac8
 
1bf2dab
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7e9eac8
 
5b5f8d9
7e9eac8
9e20056
684c796
69f50e2
7e9eac8
5b5f8d9
 
bfd6986
5b5f8d9
 
bfd6986
5b5f8d9
bfd6986
 
 
 
 
 
 
5b5f8d9
bfd6986
 
 
5b5f8d9
bfd6986
 
5b5f8d9
 
bfd6986
 
7e9eac8
 
 
 
5b5f8d9
 
 
7e9eac8
 
 
5b5f8d9
 
 
7e9eac8
 
 
5b5f8d9
7e9eac8
5b5f8d9
7e9eac8
 
 
dd6a80b
5b5f8d9
dd6a80b
7e9eac8
dd6a80b
7e9eac8

import logging
import os
import time
import uuid
import gradio as gr
import soundfile as sf
from model import get_pretrained_model, language_to_models

title = "# Conversão de texto para fala (TTS)"

description = """
**Projeto Open Source de Text-to-Speech para Produção de Conteúdo com Inteligência Artificial: Voz Inteligente para Criadores de Cursos e Podcasters**

---

**Visão Geral do Projeto:**

O projeto Text-to-Speech (TTS) de código aberto visa capacitar criadores de cursos online e podcasters a produzirem conteúdo de alta qualidade através da aplicação de tecnologias avançadas de inteligência artificial. Ao oferecer uma solução robusta e flexível, o projeto busca democratizar o acesso a vozes naturais e envolventes, eliminando barreiras linguísticas e proporcionando uma experiência de aprendizado ou entretenimento mais inclusiva.

---

**Objetivos do Projeto:**

1. **Acessibilidade Global:** Tornar a produção de conteúdo acessível a todos, independentemente do idioma ou localização geográfica.

2. **Facilitar a Criação de Cursos Online:** Capacitar educadores a criar cursos envolventes e interativos, melhorando a experiência de aprendizado dos alunos.

3. **Aprimorar Produções de Podcast:** Permitir que podcasters forneçam narrativas cativantes e experiências auditivas excepcionais aos ouvintes.

4. **Desenvolvimento Sustentável:** Fomentar uma comunidade aberta e colaborativa para garantir a evolução contínua do projeto.

---

**Como Contribuir:**

O projeto Text-to-Speech é totalmente aberto à contribuição da comunidade. Se você é um desenvolvedor, designer, linguista ou entusiasta da inteligência artificial, sua participação é bem-vinda. Contribua com códigos, sugestões de recursos, correções de bugs ou simplesmente compartilhe suas experiências para enriquecer a diversidade de perspectivas.

Junte-se a nós na missão de tornar a produção de conteúdo mais acessível, envolvente e impactante com a magia da inteligência artificial aplicada à síntese de voz!
"""

css = """.result {display:flex;flex-direction:column}.result_item {padding:15px;margin-bottom:8px;border-radius:15px;width:100%}.result_item_success {background-color:mediumaquamarine;color:white;align-self:start}.result_item_error {background-color:#ff7070;color:white;align-self:start}"""

examples = [["Portuguese", "csukuangfj/vits-mms-por", "Computação é arte.", 0, 1.0]]

language_choices = ["Portuguese"]

def update_model_dropdown(language):
    return gr.Dropdown(choices=language_to_models.get(language, []), value=language_to_models.get(language, [""])[0], interactive=True)

def build_html_output(s, style="result_item_success"):
    return f"""<div class='result'><div class='result_item {style}'>{s}</div></div>"""

def process(language, repo_id, text, sid, speed):
    logging.info(f"Input text: {text}. sid: {sid}, speed: {speed}")
    sid = int(sid)
    tts = get_pretrained_model(repo_id, speed)
    start = time.time()
    audio = tts.generate(text, sid=sid)
    end = time.time()
    if len(audio.samples) == 0:
        raise ValueError("Error in generating audios. Please read previous error messages.")
    duration = len(audio.samples) / audio.sample_rate
    elapsed_seconds = end - start
    rtf = elapsed_seconds / duration
    info = f"""Wave duration  : {duration:.3f} s <br/>Processing time: {elapsed_seconds:.3f} s <br/>RTF: {elapsed_seconds:.3f}/{duration:.3f} = {rtf:.3f} <br/>"""
    logging.info(info)
    logging.info(f"\nrepo_id: {repo_id}\ntext: {text}\nsid: {sid}\nspeed: {speed}")
    filename = str(uuid.uuid4()) + ".wav"
    sf.write(filename, audio.samples, samplerate=audio.sample_rate, subtype="PCM_16")
    return filename, build_html_output(info)

demo = gr.Blocks(css=css)

with demo:
    gr.Markdown(title)
    language_radio = gr.Radio(label="Language", choices=language_choices, value=language_choices[0])
    model_dropdown = gr.Dropdown(choices=language_to_models["Portuguese"], label="Select a model", value=language_to_models["Portuguese"][0])
    language_radio.change(update_model_dropdown, inputs=language_radio, outputs=model_dropdown)

    with gr.Tabs():
        with gr.TabItem("Please input your text"):
            input_text = gr.Textbox(label="Input text", info="Your text", lines=3, placeholder="Please input your text here")
            input_sid = gr.Textbox(label="Speaker ID", info="Speaker ID", lines=1, max_lines=1, value="0", placeholder="Speaker ID. Valid only for mult-speaker model")
            input_speed = gr.Slider(minimum=0.1, maximum=10, value=1, step=0.1, label="Speed (larger->faster; smaller->slower)")
            input_button = gr.Button("Submit")
            output_audio = gr.Audio(label="Output")
            output_info = gr.HTML(label="Info")
            gr.Examples(examples=examples, fn=process, inputs=[language_radio, model_dropdown, input_text, input_sid, input_speed], outputs=[output_audio, output_info])

        input_button.click(process, inputs=[language_radio, model_dropdown, input_text, input_sid, input_speed], outputs=[output_audio, output_info])

    gr.Markdown(description)

def download_espeak_ng_data():
    os.system("""cd /tmp; wget -qq https://github.com/k2-fsa/sherpa-onnx/releases/download/tts-models/espeak-ng-data.tar.bz2; tar xf espeak-ng-data.tar.bz2""")

if __name__ == "__main__":
    download_espeak_ng_data()
    formatter = "%(asctime)s %(levelname)s [%(filename)s:%(lineno)d] %(message)s"
    logging.basicConfig(format=formatter, level=logging.INFO)
    demo.launch()