You need to agree to share your contact information to access this model

This repository is publicly accessible, but you have to accept the conditions to access its files and content.

Log in or Sign Up to review the conditions and access this model content.

Patriae - Voces Cubanas TTS 🇨🇺

Modelo TTS en español con acento cubano, fine-tuned desde F5-TTS sobre ~5 horas de grabaciones limpias de hablantes cubanos en estudio.

Descripción del Modelo

Este modelo genera voz natural en español con acento cubano a partir de texto. Está basado en F5-TTS (A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching), que emplea Conditional Flow Matching (CFM) con un backbone Diffusion Transformer (DiT).

Arquitectura

Componente Detalle
Backbone DiT (dim=1024, depth=22, heads=16, ff_mult=2)
Dimensión de texto 512
Capas conv de texto 4 (ConvNeXtV2)
Canales mel 100
Sample rate 24 kHz
Vocoder Vocos (mel-24khz)
Parámetros ~335M
Optimizador AdamW 8-bit (bitsandbytes)

Dataset: Voces Cubanas

Dataset creado artesanalmente con grabaciones de hablantes cubanos en entorno controlado con calidad de estudio. Los textos provienen de obras literarias cubanas y universales.

Métrica Valor
Muestras 2,820
Duración total ~5 horas
Duración promedio 6.4 s
Fuentes literarias 8 obras cubanas
Hablantes Múltiples (hombres y mujeres, diversas provincias)
Formato de audio WAV 24-bit, 24 kHz, mono
Idioma Español

Fuentes Literarias

  • Cecilia Valdés (Cirilo Villaverde) — 846 fragmentos
  • Trilogía sucia de La Habana (Pedro Juan Gutiérrez) — 833
  • La neblina del ayer (Leonardo Padura) — 380
  • Habana del centro (Carlos Lage) — 301
  • Jardín (Dulce María Loynaz) — 278
  • Maitreya (Severo Sarduy) — 139
  • Los negros catedráticos (Francisco Fernández) — 25
  • Nuestra América (José Martí) — 18

Detalles del Entrenamiento

Parámetro Valor
Modelo base F5TTS_Base (model_1200000.pt)
Learning rate 1e-5
Épocas 100
Pasos totales 131,100
Tipo de batch frame-wise
Precisión mixta fp16
Memoria GPU ~8 GB
Tokenizer pinyin extendido (vocab: 92 caracteres)

Checkpoints

Archivo Pasos
model_130000.pt 130,000
model_131000.pt 131,000
model_last.pt 131,100

Uso

from f5_tts.api import F5TTS

model = F5TTS(
    model_type="F5TTS_Base",
    ckpt_file="model_last.pt",
    vocab_file="vocab.txt",
    device="cuda",
    use_ema=True,
)

model.infer(
    gen_text="La Habana es una ciudad de contrastes y alegría.",
    ref_text="Texto de referencia del hablante.",
    ref_file="referencia.wav",
    nfe_step=32,
    file_wave="output.wav",
)

Limitaciones

  • Solo ~5 horas de datos de entrenamiento; la variación dialectal puede ser limitada.
  • Los textos provienen de literatura; el habla coloquial puede estar subrepresentada.
  • La calidad de clonaje zero-shot depende de la similitud entre el audio de referencia y los hablantes del dataset.

Licencia

MIT

Citación

@article{chen-etal-2024-f5tts,
  title={F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching},
  author={Yushen Chen and Zhikang Niu and Ziyang Ma and Keqi Deng and Chunhui Wang and Jian Zhao and Kai Yu and Xie Chen},
  journal={arXiv preprint arXiv:2410.06885},
  year={2024},
}

@article{dettmers2022optimizers,
  title={8-bit Optimizers via Block-wise Quantization},
  author={Dettmers, Tim and Lewis, Mike and Shleifer, Sam and Zettlemoyer, Luke},
  journal={9th International Conference on Learning Representations, ICLR},
  year={2022}
}
Downloads last month
6
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Paper for Patriae/patriae-cuban-speech-tts-model