TupoyCoder — компактная модель для генерации кода
Маленькая модель для генерации Python-кода по инструкции. Карточка содержит только результаты бенчмарков, размер и контекст — без деталей внутреннего устройства.
Характеристики
| Параметр | Значение |
|---|---|
| Параметров | ~308M |
| Размер весов (bf16) | ~0.62 ГБ |
| Макс. контекст | 4096 токенов (расширяется до практически неограниченного через sliding-window инференс) |
| Язык | Python |
Результаты бенчмарков (pass@1, исполнение тестов)
Все цифры получены ПРОГОНОМ С ИСПОЛНЕНИЕМ юнит-тестов в песочнице (а не оценкой
LLM-судьёй). pass@1 при greedy-декодировании.
| Бенчмарк | Задач | pass@1 |
|---|---|---|
| HumanEval | 164 | 5.5% |
| MBPP (sanitized) | 257 | 7.4% |
Сравнение с другими моделями по кодингу
Публичные ориентиры рядом по размеру/классу (HumanEval / MBPP, pass@1). Наши строки выделены жирным и измерены этим же скриптом.
| Модель | Параметров | HumanEval | MBPP |
|---|---|---|---|
| TupoyCoder (ours) | 308M | 5.5 | 7.4 |
| Salesforce CodeGen-350M-mono | 350M | 12.8 | — |
| Qwen2.5-Coder-0.5B-Instruct | 0.5B | ~30 | ~40 |
| TinyLlama-1.1B | 1.1B | ~10 | ~15 |
| Phi-1 (code) | 1.3B | 50.6 | 55.5 |
| DeepSeek-Coder-1.3B-Instruct | 1.3B | 65.2 | 61.6 |
| StarCoder2-3B | 3B | 31.7 | 47.0 |
| GPT-4o-mini (closed) | — | 87.2 | 82.8 |
Agentic-бенчмарки (SWE-bench, Aider) — для контекста
Agentic-бенчмарки (SWE-bench Verified/Pro, Aider) измеряют починку реальных репозиториев в цикле «агент + инструменты + исполнение». Это другой класс задач и другой масштаб моделей (лидеры — большие закрытые/открытые модели на десятки-сотни миллиардов параметров). Для модели такого размера без агентного харнеса это не применимо и здесь не замеряется — приведено лишь как ориентир ландшафта.
| Бенчмарк | Тип | Наш результат |
|---|---|---|
| SWE-bench Verified | agentic (репо-починка) | N/A (вне масштаба) |
| Aider | agentic (diff-редактирование) | N/A (вне масштаба) |
Карточка сгенерирована автоматически скриптом прогона бенчмарков.