File size: 3,875 Bytes
09cb7f3
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
## Описание модели

Этот чатбот - дипломная работа студента Андрея Ворожко в УИИ (Университет Искусственного Интеллекта).

Окончание обучения - март 2022 года.

Чатбот сделан на основе модели [Kirili4ik/ruDialoGpt3-medium-finetuned-telegram](https://huggingface.co/Kirili4ik/ruDialoGpt3-medium-finetuned-telegram)

Теперь модель дообучена на основе 27000 анекдотов (14 эпох, скорость обучения в колабе 2-6 часов на эпоху) и умеет понимать контекст разговора. Однако контекст приходится ограничивать несколькими последними сообщениями потому что чем больше контекста тем медленнее модель работает, а контекст растет как снежный ком в процессе разговора.

Инференс находится в [spaces](https://huggingface.co/spaces/avorozhko/funbot):

Там с ботом можно поговорить. Контекст ограничен 10 последними сообщениями.

Шутки бот выдает, но пока скорее случайно, чем намеренно. Однако разговор поддержать способен и даже немного развлечь.

Так как это генерация текста, то на одну и ту же фразу бот всегда будет выдавать разные ответы.

Также для определения качества данной модели использовалась кастомная метрика - угловое расстояния между эмбеддингами y_train и предикта.

То есть мы взяли первый слой эмбеддинга модели и прогоняли предикты и лейблы, получили вектора слов. Потом вектора слов суммировали и получили общие (суммарные) вектора лейблов и предиктов. Чем меньше угол между ними, тем лучше. При рассчетах ориентировались на косинус этого угла, так как cos 0 = 1, то это очень удобно - чем ближе показатель к 1, тем лучше.

Вот такое распределение этих значений получилось по эпохам на ПРОВЕРОЧНОЙ выборке (1406 анекдотов):
```
{1: tensor(0.9357, device='cuda:0', grad_fn=<DivBackward0>),
 2: tensor(0.9390, device='cuda:0', grad_fn=<DivBackward0>),
 3: tensor(0.9417, device='cuda:0', grad_fn=<DivBackward0>),
 4: tensor(0.9439, device='cuda:0', grad_fn=<DivBackward0>),
 5: tensor(0.9470, device='cuda:0', grad_fn=<DivBackward0>),
 6: tensor(0.9537, device='cuda:0', grad_fn=<DivBackward0>),
 7: tensor(0.9568, device='cuda:0', grad_fn=<DivBackward0>),
 8: tensor(0.9592, device='cuda:0', grad_fn=<DivBackward0>),
 9: tensor(0.9610, device='cuda:0', grad_fn=<DivBackward0>),
 10: tensor(0.9622, device='cuda:0', grad_fn=<DivBackward0>),
 11: tensor(0.9628, device='cuda:0', grad_fn=<DivBackward0>),
 12: tensor(0.9632, device='cuda:0', grad_fn=<DivBackward0>),
 13: tensor(0.9630, device='cuda:0', grad_fn=<DivBackward0>),
 14: tensor(0.9634, device='cuda:0', grad_fn=<DivBackward0>),
 15: tensor(0.9634, device='cuda:0', grad_fn=<DivBackward0>)}
```
Для инференса выбрана 14-я эпоха с точностью 0.9634. Далее, судя по всему идет уже переобучение.