Ftfyhh commited on
Commit
f66a923
1 Parent(s): 5ebd9b1

Upload README.md

Browse files
Files changed (1) hide show
  1. README.md +2 -1
README.md CHANGED
@@ -7,13 +7,14 @@
7
  ## Особенности
8
  - добавляет больше интонаций, эмоциональности, придыханий, делая речь более живой.
9
  - лучше справляется с ударениями в словах (мат, разговорная лексика).
10
- - только для русского языка, остальные языки остались неизменными.
11
  - основан на женских голосах, поэтому все мужские голоса будут слегка феминными.
12
  - весит 5 GB, но VRAM занимает ровно столько же, сколько и оригинал (2.6 GB).
13
  - обучение на 9 минутах голосовых сообщений заняло 70 минут и 10 эпох на 3060 12 GB, дальше была только потеря качества (loss). Чем больше датасет, тем больше требуется VRAM и времени.
14
  - для дальнейшего улучшения качества ударений требуется еще больший датасет с проблемными словами и ручная проверка распознанного Виспером текста.
15
 
16
  ## Использование
 
17
  - скачать все файлы сохраняя структуру папок (/model_banana/v2.0.2/...)
18
  - для xtts_api_server: в папке на одну выше, чем /model_banana запустить cmd: python -m xtts_api_server -d=cuda -mf model_banana
19
  - Инструкция как дообучить xtts для своего голоса: https://docs.coqui.ai/en/latest/models/xtts.html#training (нужно 16-20 GB VRAM, но shared vram тоже подойдет, просто будет чуть медленнее)
 
7
  ## Особенности
8
  - добавляет больше интонаций, эмоциональности, придыханий, делая речь более живой.
9
  - лучше справляется с ударениями в словах (мат, разговорная лексика).
10
+ - только для русского языка. В английском на коротких фразах типа Yes./No./Well. появились звуковые галлюцинации, на длинных почти не заметно. На русском все ок.
11
  - основан на женских голосах, поэтому все мужские голоса будут слегка феминными.
12
  - весит 5 GB, но VRAM занимает ровно столько же, сколько и оригинал (2.6 GB).
13
  - обучение на 9 минутах голосовых сообщений заняло 70 минут и 10 эпох на 3060 12 GB, дальше была только потеря качества (loss). Чем больше датасет, тем больше требуется VRAM и времени.
14
  - для дальнейшего улучшения качества ударений требуется еще больший датасет с проблемными словами и ручная проверка распознанного Виспером текста.
15
 
16
  ## Использование
17
+ - у вас должен быть установлен [Couqi TTS](https://github.com/coqui-ai/TTS/tree/dev#installation) либо [xtts_api_server](https://github.com/daswer123/xtts-api-server?tab=readme-ov-file#installation)
18
  - скачать все файлы сохраняя структуру папок (/model_banana/v2.0.2/...)
19
  - для xtts_api_server: в папке на одну выше, чем /model_banana запустить cmd: python -m xtts_api_server -d=cuda -mf model_banana
20
  - Инструкция как дообучить xtts для своего голоса: https://docs.coqui.ai/en/latest/models/xtts.html#training (нужно 16-20 GB VRAM, но shared vram тоже подойдет, просто будет чуть медленнее)