File size: 2,010 Bytes
0590565 3a53236 0590565 3a53236 4b91f83 3a53236 59b164c 0590565 3a53236 0590565 3a53236 add507c 3a53236 add507c 3a53236 add507c | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 | ---
title: IOAI
emoji: 🎙️
colorFrom: green
colorTo: blue
sdk: gradio
sdk_version: 5.23.1
app_file: app.py
python_version: "3.10"
pinned: false
license: mit
short_description: Any sound as speech — transcribe & respond in same timbre
---
# IOAI — Interactive Omnivocal Audio Interpreter
Интерактивная аудиомодель для **бесплатного CPU-тарифа** Hugging Face Spaces.
## Концепция
Любой входящий звук читается как речевое высказывание. На выходе:
1. **Текстовая транскрипция** — что звук «сказал»
2. **Звуковой ответ** — собран из зёрен входного сигнала (тот же тембр)
## Архитектура (free tier)
```
Входной звук
→ Perceive (Whisper tiny, CPU)
→ Interpret (Qwen2.5-0.5B для речи, шаблоны для шума/тишины)
→ Synthesize (речь espeak+тембр или гранулы из входа)
```
## Локальный запуск
```bash
pip install -r requirements.txt
python app.py
```
## Переменные окружения
| Переменная | По умолчанию | Описание |
|---|---|---|
| `IOAI_WHISPER_MODEL` | `tiny` | Модель faster-whisper |
| `IOAI_LLM_MODEL` | `Qwen/Qwen2.5-0.5B-Instruct` | Лёгкая LLM для диалога |
| `IOAI_LLM_ENABLED` | `1` | `0` — только шаблоны |
| `IOAI_LLM_MAX_NEW_TOKENS` | `80` | Длина ответа LLM |
| `IOAI_WORK_DIR` | temp | Рабочая папка |
## Ограничения free tier
- CPU only, без GPU
- Макс. длина входа: 15 с
- LLM — Qwen2.5-0.5B на CPU (~5–15 с на ответ после загрузки)
- Для шума/тишины — по-прежнему шаблоны и гранулы
- Первый холодный старт дольше: загрузка Whisper + Qwen
|