BerryLM-XL Wildberries & Russ
Модели и данные
357b; fp8
Базовая модель
В работе используется языковая модель на основе архитектуры трансформера. Модель поддерживает генерацию с разделением на каналы (reasoning и final answer), что позволяет отделять процесс рассуждения от финального ответа, оптимизированная для работы с длинным контекстом рассуждения и генерации до 120K токенов.
Датасет
Обучение проводится на миксе закрытых и открытых датасетов, который содержит диалоговые примеры в формате сообщений (messages) и Ground Truth.
Метод
GRPO с Reward Hacking Prevention
В post-training используется DAPO - один из вариантов семейства GRPO, адаптированный под сценарии, где нужно одновременно контролировать качество ответа и форму reasoning-процесса. В рабочем контуре используется компактная система из двух reward-функций с весами 0.8 / 0.2, собранная вокруг задачи предотвращения reward hacking.
Архитектура обучения
Обучение организовано в распределённом режиме (1150 GPU days):
- Training ноды: Full unfreeze. Megatron LM
- Generation нода: отдельный vLLM сервер для генерации RollOUTS через HTTP API
- Correction post training
Авторы:
- Сапрыкин Матвей
- Софронов Юрий
- Костылев Александр
- Чанышев Дамир