BerryLM-XL Wildberries & Russ

Модели и данные

357b; fp8

Базовая модель

В работе используется языковая модель на основе архитектуры трансформера. Модель поддерживает генерацию с разделением на каналы (reasoning и final answer), что позволяет отделять процесс рассуждения от финального ответа, оптимизированная для работы с длинным контекстом рассуждения и генерации до 120K токенов.

Датасет

Обучение проводится на миксе закрытых и открытых датасетов, который содержит диалоговые примеры в формате сообщений (messages) и Ground Truth.

Метод

GRPO с Reward Hacking Prevention

В post-training используется DAPO - один из вариантов семейства GRPO, адаптированный под сценарии, где нужно одновременно контролировать качество ответа и форму reasoning-процесса. В рабочем контуре используется компактная система из двух reward-функций с весами 0.8 / 0.2, собранная вокруг задачи предотвращения reward hacking.

Архитектура обучения

Обучение организовано в распределённом режиме (1150 GPU days):

  • Training ноды: Full unfreeze. Megatron LM
  • Generation нода: отдельный vLLM сервер для генерации RollOUTS через HTTP API
  • Correction post training

Авторы:

  • Сапрыкин Матвей
  • Софронов Юрий
  • Костылев Александр
  • Чанышев Дамир
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support