A newer version of the Gradio SDK is available: 6.19.0
metadata
title: IOAI
emoji: 🎙️
colorFrom: green
colorTo: blue
sdk: gradio
sdk_version: 5.23.1
app_file: app.py
python_version: '3.10'
pinned: false
license: mit
short_description: Any sound as speech — transcribe & respond in same timbre
IOAI — Interactive Omnivocal Audio Interpreter
Интерактивная аудиомодель для бесплатного CPU-тарифа Hugging Face Spaces.
Концепция
Любой входящий звук читается как речевое высказывание. На выходе:
- Текстовая транскрипция — что звук «сказал»
- Звуковой ответ — собран из зёрен входного сигнала (тот же тембр)
Архитектура (free tier)
Входной звук
→ Perceive (Whisper tiny, CPU)
→ Interpret (Qwen2.5-0.5B для речи, шаблоны для шума/тишины)
→ Synthesize (речь espeak+тембр или гранулы из входа)
Локальный запуск
pip install -r requirements.txt
python app.py
Переменные окружения
| Переменная | По умолчанию | Описание |
|---|---|---|
IOAI_WHISPER_MODEL |
tiny |
Модель faster-whisper |
IOAI_LLM_MODEL |
Qwen/Qwen2.5-0.5B-Instruct |
Лёгкая LLM для диалога |
IOAI_LLM_ENABLED |
1 |
0 — только шаблоны |
IOAI_LLM_MAX_NEW_TOKENS |
80 |
Длина ответа LLM |
IOAI_WORK_DIR |
temp | Рабочая папка |
Ограничения free tier
- CPU only, без GPU
- Макс. длина входа: 15 с
- LLM — Qwen2.5-0.5B на CPU (~5–15 с на ответ после загрузки)
- Для шума/тишины — по-прежнему шаблоны и гранулы
- Первый холодный старт дольше: загрузка Whisper + Qwen