BerryLM-XL Wildberries & Russ

Модели и данные

357b; fp8

Базовая модель

В работе используется языковая модель на основе архитектуры трансформера. Модель поддерживает генерацию с разделением на каналы (reasoning и final answer), что позволяет отделять процесс рассуждения от финального ответа, оптимизированная для работы с длинным контекстом рассуждения и генерации до 120K токенов.

Датасет

Обучение проводится на миксе закрытых и открытых датасетов, который содержит диалоговые примеры в формате сообщений (messages) и Ground Truth.

Метод

GRPO с Reward Hacking Prevention

В post-training используется DAPO - один из вариантов семейства GRPO, адаптированный под сценарии, где нужно одновременно контролировать качество ответа и форму reasoning-процесса. В рабочем контуре используется компактная система из двух reward-функций с весами 0.8 / 0.2, собранная вокруг задачи предотвращения reward hacking.

Архитектура обучения

Обучение организовано в распределённом режиме (1150 GPU days):

Training ноды: Full unfreeze. Megatron LM
Generation нода: отдельный vLLM сервер для генерации RollOUTS через HTTP API
Correction post training

Авторы:

Сапрыкин Матвей
Софронов Юрий
Костылев Александр
Чанышев Дамир

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support