Spaces:

Amfeat
/

ioai

Sleeping

App Files Files Community

ioai / README.md

Amfeat

Add Qwen2.5-0.5B dialogue replies for recognized speech.

add507c 3 days ago

preview code

Raw

History Blame Contribute Delete

2.01 kB

	---
	title: IOAI
	emoji: 🎙️
	colorFrom: green
	colorTo: blue
	sdk: gradio
	sdk_version: 5.23.1
	app_file: app.py
	python_version: "3.10"
	pinned: false
	license: mit
	short_description: Any sound as speech — transcribe & respond in same timbre
	---

	# IOAI — Interactive Omnivocal Audio Interpreter

	Интерактивная аудиомодель для бесплатного CPU-тарифа Hugging Face Spaces.

	## Концепция

	Любой входящий звук читается как речевое высказывание. На выходе:

	1. Текстовая транскрипция — что звук «сказал»
	2. Звуковой ответ — собран из зёрен входного сигнала (тот же тембр)

	## Архитектура (free tier)

	```
	Входной звук
	→ Perceive (Whisper tiny, CPU)
	→ Interpret (Qwen2.5-0.5B для речи, шаблоны для шума/тишины)
	→ Synthesize (речь espeak+тембр или гранулы из входа)
	```

	## Локальный запуск

	```bash
	pip install -r requirements.txt
	python app.py
	```

	## Переменные окружения

	\| Переменная \| По умолчанию \| Описание \|
	\|---\|---\|---\|
	\| `IOAI_WHISPER_MODEL` \| `tiny` \| Модель faster-whisper \|
	\| `IOAI_LLM_MODEL` \| `Qwen/Qwen2.5-0.5B-Instruct` \| Лёгкая LLM для диалога \|
	\| `IOAI_LLM_ENABLED` \| `1` \| `0` — только шаблоны \|
	\| `IOAI_LLM_MAX_NEW_TOKENS` \| `80` \| Длина ответа LLM \|
	\| `IOAI_WORK_DIR` \| temp \| Рабочая папка \|

	## Ограничения free tier

	- CPU only, без GPU
	- Макс. длина входа: 15 с
	- LLM — Qwen2.5-0.5B на CPU (~5–15 с на ответ после загрузки)
	- Для шума/тишины — по-прежнему шаблоны и гранулы
	- Первый холодный старт дольше: загрузка Whisper + Qwen