Context size

#5
by deksden - opened

Собственно - а какой размер контекста?

T-Tech org

У квена базовый размер контекста - 32к, с расширением Yarn до 128к. Мы не дообучали модель на длинном контексте и не проверяли как поведет модель на контексте >8k

размер контекста - довольно существенная штука для практического использования!

было бы здорово это всё проверить. 128к гораздо интереснее 32к, и тем более 8к.

задачи обработки текста со 128к вполне себе понятны: например, обработка документации - 128к за раз это норм. В 32к не всякий набор документов влезет. Для исходного кода тоже важно - я умудряюсь найти чем забить 200к у клода. Понятно, что скорость инференса за 32к падает. но иногда такое прям надо!

T-Tech org

image.png
померил Qwen-32B и T-pro на бенчмарке длинного контекста Libra
Для контекста > 32k лучше использовать rope scaling из рекомендаций с хф карточки квена
 { "factor": 4.0, "original_max_position_embeddings": 32768, "type": "yarn" }
В целом видно, что способность обрабатывать длинный контекст у T-pro незначительно хуже чем у Qwen-32B-it
В следующих релизах планируем поддержать длинный контекст

Супер! Довольно заметная фича

Sign up or log in to comment