Vtmpas commited on
Commit
f4be5f1
·
verified ·
1 Parent(s): 085da2f

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +8 -8
README.md CHANGED
@@ -3,6 +3,7 @@ BerryLM Wildberries & Russ
3
  Модели и данные
4
  Базовая модель
5
  Модель поддерживает генерацию с разделением на каналы (reasoning и final answer), что позволяет отделять процесс рассуждения от финального ответа, оптимизированная для работы с длинным контекстом рассуждения и генерации.
 
6
 
7
  Датасет
8
  Обучение проводится на миксе закрытых и открытых датасетов, который содержит диалоговые примеры в формате сообщений (messages) и Ground Truth.
@@ -11,11 +12,10 @@ BerryLM Wildberries & Russ
11
  DAPO с Reward Hacking Prevention
12
  Применяется метод один из модификаций GRPO.
13
 
14
- Ключевая особенность реализации — система из 2 reward-функций, направленная на предотвращение reward hacking (эксплуатации слабостей reward-сигнала):
15
-
16
 
17
- Reasoning Compression
18
- Languange Answer Correctenss
19
 
20
  Архитектура обучения
21
  Обучение организовано в распределённом режиме:
@@ -28,7 +28,7 @@ Correction post training
28
 
29
  Авторы:
30
 
31
- Сапрыкин Матвей
32
- Софронов Юрий
33
- Костылев Александр
34
- Чанышев Дамир
 
3
  Модели и данные
4
  Базовая модель
5
  Модель поддерживает генерацию с разделением на каналы (reasoning и final answer), что позволяет отделять процесс рассуждения от финального ответа, оптимизированная для работы с длинным контекстом рассуждения и генерации.
6
+ ---
7
 
8
  Датасет
9
  Обучение проводится на миксе закрытых и открытых датасетов, который содержит диалоговые примеры в формате сообщений (messages) и Ground Truth.
 
12
  DAPO с Reward Hacking Prevention
13
  Применяется метод один из модификаций GRPO.
14
 
15
+ Cистема из 2 reward-функций, направленная на предотвращение reward hacking (эксплуатации слабостей reward-сигнала):
 
16
 
17
+ - Reasoning Compression
18
+ - Languange Answer Correctenss
19
 
20
  Архитектура обучения
21
  Обучение организовано в распределённом режиме:
 
28
 
29
  Авторы:
30
 
31
+ - Сапрыкин Матвей
32
+ - Софронов Юрий
33
+ - Костылев Александр
34
+ - Чанышев Дамир