Spaces:

Amfeat
/

ioai

Sleeping

App Files Files Community

ioai / README.md

Amfeat

Add Qwen2.5-0.5B dialogue replies for recognized speech.

add507c 3 days ago

preview code

Raw

History Blame Contribute Delete

2.01 kB

A newer version of the Gradio SDK is available: 6.19.0

Upgrade

metadata

title: IOAI
emoji: 🎙️
colorFrom: green
colorTo: blue
sdk: gradio
sdk_version: 5.23.1
app_file: app.py
python_version: '3.10'
pinned: false
license: mit
short_description: Any sound as speech — transcribe & respond in same timbre

IOAI — Interactive Omnivocal Audio Interpreter

Интерактивная аудиомодель для бесплатного CPU-тарифа Hugging Face Spaces.

Концепция

Любой входящий звук читается как речевое высказывание. На выходе:

Текстовая транскрипция — что звук «сказал»
Звуковой ответ — собран из зёрен входного сигнала (тот же тембр)

Архитектура (free tier)

Входной звук
    → Perceive   (Whisper tiny, CPU)
    → Interpret  (Qwen2.5-0.5B для речи, шаблоны для шума/тишины)
    → Synthesize (речь espeak+тембр или гранулы из входа)

Локальный запуск

pip install -r requirements.txt
python app.py

Переменные окружения

Переменная	По умолчанию	Описание
`IOAI_WHISPER_MODEL`	`tiny`	Модель faster-whisper
`IOAI_LLM_MODEL`	`Qwen/Qwen2.5-0.5B-Instruct`	Лёгкая LLM для диалога
`IOAI_LLM_ENABLED`	`1`	`0` — только шаблоны
`IOAI_LLM_MAX_NEW_TOKENS`	`80`	Длина ответа LLM
`IOAI_WORK_DIR`	temp	Рабочая папка

Ограничения free tier

CPU only, без GPU
Макс. длина входа: 15 с
LLM — Qwen2.5-0.5B на CPU (~5–15 с на ответ после загрузки)
Для шума/тишины — по-прежнему шаблоны и гранулы
Первый холодный старт дольше: загрузка Whisper + Qwen