Text-to-Speech
F5-TTS
Spanish
tts
spanish
cuban
voice-cloning
zero-shot-tts
flow-matching
diffusion-transformer
Instructions to use Patriae/patriae-cuban-speech-tts-model with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- F5-TTS
How to use Patriae/patriae-cuban-speech-tts-model with F5-TTS:
# No code snippets available yet for this library. # To use this model, check the repository files and the library's documentation. # Want to help? PRs adding snippets are welcome at: # https://github.com/huggingface/huggingface.js
- Notebooks
- Google Colab
- Kaggle
Patriae - Voces Cubanas TTS 🇨🇺
Modelo TTS en español con acento cubano, fine-tuned desde F5-TTS sobre ~5 horas de grabaciones limpias de hablantes cubanos en estudio.
Descripción del Modelo
Este modelo genera voz natural en español con acento cubano a partir de texto. Está basado en F5-TTS (A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching), que emplea Conditional Flow Matching (CFM) con un backbone Diffusion Transformer (DiT).
Arquitectura
| Componente | Detalle |
|---|---|
| Backbone | DiT (dim=1024, depth=22, heads=16, ff_mult=2) |
| Dimensión de texto | 512 |
| Capas conv de texto | 4 (ConvNeXtV2) |
| Canales mel | 100 |
| Sample rate | 24 kHz |
| Vocoder | Vocos (mel-24khz) |
| Parámetros | ~335M |
| Optimizador | AdamW 8-bit (bitsandbytes) |
Dataset: Voces Cubanas
Dataset creado artesanalmente con grabaciones de hablantes cubanos en entorno controlado con calidad de estudio. Los textos provienen de obras literarias cubanas y universales.
| Métrica | Valor |
|---|---|
| Muestras | 2,820 |
| Duración total | ~5 horas |
| Duración promedio | 6.4 s |
| Fuentes literarias | 8 obras cubanas |
| Hablantes | Múltiples (hombres y mujeres, diversas provincias) |
| Formato de audio | WAV 24-bit, 24 kHz, mono |
| Idioma | Español |
Fuentes Literarias
- Cecilia Valdés (Cirilo Villaverde) — 846 fragmentos
- Trilogía sucia de La Habana (Pedro Juan Gutiérrez) — 833
- La neblina del ayer (Leonardo Padura) — 380
- Habana del centro (Carlos Lage) — 301
- Jardín (Dulce María Loynaz) — 278
- Maitreya (Severo Sarduy) — 139
- Los negros catedráticos (Francisco Fernández) — 25
- Nuestra América (José Martí) — 18
Detalles del Entrenamiento
| Parámetro | Valor |
|---|---|
| Modelo base | F5TTS_Base (model_1200000.pt) |
| Learning rate | 1e-5 |
| Épocas | 100 |
| Pasos totales | 131,100 |
| Tipo de batch | frame-wise |
| Precisión mixta | fp16 |
| Memoria GPU | ~8 GB |
| Tokenizer | pinyin extendido (vocab: 92 caracteres) |
Checkpoints
| Archivo | Pasos |
|---|---|
model_130000.pt |
130,000 |
model_131000.pt |
131,000 |
model_last.pt |
131,100 |
Uso
from f5_tts.api import F5TTS
model = F5TTS(
model_type="F5TTS_Base",
ckpt_file="model_last.pt",
vocab_file="vocab.txt",
device="cuda",
use_ema=True,
)
model.infer(
gen_text="La Habana es una ciudad de contrastes y alegría.",
ref_text="Texto de referencia del hablante.",
ref_file="referencia.wav",
nfe_step=32,
file_wave="output.wav",
)
Limitaciones
- Solo ~5 horas de datos de entrenamiento; la variación dialectal puede ser limitada.
- Los textos provienen de literatura; el habla coloquial puede estar subrepresentada.
- La calidad de clonaje zero-shot depende de la similitud entre el audio de referencia y los hablantes del dataset.
Licencia
MIT
Citación
@article{chen-etal-2024-f5tts,
title={F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching},
author={Yushen Chen and Zhikang Niu and Ziyang Ma and Keqi Deng and Chunhui Wang and Jian Zhao and Kai Yu and Xie Chen},
journal={arXiv preprint arXiv:2410.06885},
year={2024},
}
@article{dettmers2022optimizers,
title={8-bit Optimizers via Block-wise Quantization},
author={Dettmers, Tim and Lewis, Mike and Shleifer, Sam and Zettlemoyer, Luke},
journal={9th International Conference on Learning Representations, ICLR},
year={2022}
}
- Downloads last month
- 6
Paper for Patriae/patriae-cuban-speech-tts-model
Paper • 2410.06885 • Published • 48