Context size
Собственно - а какой размер контекста?
У квена базовый размер контекста - 32к, с расширением Yarn до 128к. Мы не дообучали модель на длинном контексте и не проверяли как поведет модель на контексте >8k
размер контекста - довольно существенная штука для практического использования!
было бы здорово это всё проверить. 128к гораздо интереснее 32к, и тем более 8к.
задачи обработки текста со 128к вполне себе понятны: например, обработка документации - 128к за раз это норм. В 32к не всякий набор документов влезет. Для исходного кода тоже важно - я умудряюсь найти чем забить 200к у клода. Понятно, что скорость инференса за 32к падает. но иногда такое прям надо!
померил Qwen-32B и T-pro на бенчмарке длинного контекста Libra
Для контекста > 32k лучше использовать rope scaling из рекомендаций с хф карточки квена
{ "factor": 4.0, "original_max_position_embeddings": 32768, "type": "yarn" }
В целом видно, что способность обрабатывать длинный контекст у T-pro незначительно хуже чем у Qwen-32B-it
В следующих релизах планируем поддержать длинный контекст
Супер! Довольно заметная фича