patriae-cuban-speech-tts-model

You need to agree to share your contact information to access this model

This repository is publicly accessible, but you have to accept the conditions to access its files and content.

Patriae - Voces Cubanas TTS 🇨🇺

Modelo TTS en español con acento cubano, fine-tuned desde F5-TTS sobre ~5 horas de grabaciones limpias de hablantes cubanos en estudio.

Descripción del Modelo

Este modelo genera voz natural en español con acento cubano a partir de texto. Está basado en F5-TTS (A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching), que emplea Conditional Flow Matching (CFM) con un backbone Diffusion Transformer (DiT).

Arquitectura

Componente	Detalle
Backbone	DiT (dim=1024, depth=22, heads=16, ff_mult=2)
Dimensión de texto	512
Capas conv de texto	4 (ConvNeXtV2)
Canales mel	100
Sample rate	24 kHz
Vocoder	Vocos (mel-24khz)
Parámetros	~335M
Optimizador	AdamW 8-bit (bitsandbytes)

Dataset: Voces Cubanas

Dataset creado artesanalmente con grabaciones de hablantes cubanos en entorno controlado con calidad de estudio. Los textos provienen de obras literarias cubanas y universales.

Métrica	Valor
Muestras	2,820
Duración total	~5 horas
Duración promedio	6.4 s
Fuentes literarias	8 obras cubanas
Hablantes	Múltiples (hombres y mujeres, diversas provincias)
Formato de audio	WAV 24-bit, 24 kHz, mono
Idioma	Español

Fuentes Literarias

Cecilia Valdés (Cirilo Villaverde) — 846 fragmentos
Trilogía sucia de La Habana (Pedro Juan Gutiérrez) — 833
La neblina del ayer (Leonardo Padura) — 380
Habana del centro (Carlos Lage) — 301
Jardín (Dulce María Loynaz) — 278
Maitreya (Severo Sarduy) — 139
Los negros catedráticos (Francisco Fernández) — 25
Nuestra América (José Martí) — 18

Detalles del Entrenamiento

Parámetro	Valor
Modelo base	F5TTS_Base (model_1200000.pt)
Learning rate	1e-5
Épocas	100
Pasos totales	131,100
Tipo de batch	frame-wise
Precisión mixta	fp16
Memoria GPU	~8 GB
Tokenizer	pinyin extendido (vocab: 92 caracteres)

Checkpoints

Archivo	Pasos
`model_130000.pt`	130,000
`model_131000.pt`	131,000
`model_last.pt`	131,100

Uso

from f5_tts.api import F5TTS

model = F5TTS(
    model_type="F5TTS_Base",
    ckpt_file="model_last.pt",
    vocab_file="vocab.txt",
    device="cuda",
    use_ema=True,
)

model.infer(
    gen_text="La Habana es una ciudad de contrastes y alegría.",
    ref_text="Texto de referencia del hablante.",
    ref_file="referencia.wav",
    nfe_step=32,
    file_wave="output.wav",
)

Limitaciones

Solo ~5 horas de datos de entrenamiento; la variación dialectal puede ser limitada.
Los textos provienen de literatura; el habla coloquial puede estar subrepresentada.
La calidad de clonaje zero-shot depende de la similitud entre el audio de referencia y los hablantes del dataset.

Licencia

MIT

Citación

@article{chen-etal-2024-f5tts,
  title={F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching},
  author={Yushen Chen and Zhikang Niu and Ziyang Ma and Keqi Deng and Chunhui Wang and Jian Zhao and Kai Yu and Xie Chen},
  journal={arXiv preprint arXiv:2410.06885},
  year={2024},
}

@article{dettmers2022optimizers,
  title={8-bit Optimizers via Block-wise Quantization},
  author={Dettmers, Tim and Lewis, Mike and Shleifer, Sam and Zettlemoyer, Luke},
  journal={9th International Conference on Learning Representations, ICLR},
  year={2022}
}

Downloads last month: 6

Paper for Patriae/patriae-cuban-speech-tts-model

F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching

Paper • 2410.06885 • Published Oct 9, 2024 • 48