Fish Speech

English | 简体中文 | Portuguese | 日本語 | 한국어

Este código-fonte e os modelos são publicados sob a licença CC-BY-NC-SA-4.0. Consulte LICENSE para mais detalhes.

Funcionalidades

TTS Zero-shot & Few-shot: Insira uma amostra vocal de 10 a 30 segundos para gerar saída de TTS de alta qualidade. Para diretrizes detalhadas, veja Melhores Práticas para Clonagem de Voz.
Suporte Multilíngue e Interlingual: Basta copiar e colar o texto multilíngue na caixa de entrada—não se preocupe com o idioma. Atualmente suporta inglês, japonês, coreano, chinês, francês, alemão, árabe e espanhol.
Sem Dependência de Fonemas: O modelo tem forte capacidade de generalização e não depende de fonemas para TTS. Ele pode lidar com textos em qualquer script de idioma.
Alta Precisão: Alcança uma CER (Taxa de Erro de Caracteres) e WER (Taxa de Erro de Palavras) de cerca de 2% para textos de 5 minutos em inglês.
Rápido: Com a aceleração fish-tech, o fator de tempo real é de aproximadamente 1:5 em um laptop Nvidia RTX 4060 e 1:15 em uma Nvidia RTX 4090.
Inferência WebUI: Apresenta uma interface de usuário web baseada em Gradio, fácil de usar e compatível com navegadores como Chrome, Firefox e Edge.
Inferência GUI: Oferece uma interface gráfica PyQt6 que funciona perfeitamente com o servidor API. Suporta Linux, Windows e macOS. Veja o GUI.
Fácil de Implantar: Configura facilmente um servidor de inferência com suporte nativo para Linux, Windows e macOS, minimizando a perda de velocidade.

Isenção de Responsabilidade

Não nos responsabilizamos por qualquer uso ilegal do código-fonte. Consulte as leis locais sobre DMCA (Digital Millennium Copyright Act) e outras leis relevantes em sua região.

Demonstração Online

Fish Audio

Início Rápido de Inferência Local

inference.ipynb

Vídeos

1.4 Introdução: https://www.bilibili.com/video/BV1pu46eVEk7

1.2 Introdução: https://www.bilibili.com/video/BV1wz421B71D

1.1 Apresentação Técnica: https://www.bilibili.com/video/BV1zJ4m1K7cj

Documentação

Exemplos

Agradecimentos

Patrocinadores

Servidores de processamento de dados fornecidos por 6Block

Inferência online do Fish Audio em parceria com a Lepton