koziev ilya commited on
Commit
c7072f7
1 Parent(s): 93cd37e

links to github repository with supplementary code

Browse files
Files changed (1) hide show
  1. README.md +3 -2
README.md CHANGED
@@ -11,6 +11,7 @@ tags:
11
  Это генеративная модель на основе ```sberbank-ai/rugpt3large_based_on_gpt2```, дообученной
12
  на датасете перефразировок [inkoziev/paraphrases](https://huggingface.co/datasets/inkoziev/paraphrases).
13
  Она разработана для использования в проекте [генеративной поэзии](https://github.com/Koziev/verslibre).
 
14
 
15
 
16
  ### Особенности перефразировки
@@ -24,14 +25,14 @@ tags:
24
 
25
  В обучающем датасете есть негативные примеры перефразировок, и я использую их вместе с правильными примерами в ходе файнтюна,
26
  подавая на классификационную голову в [GPT2DoubleHeadsModel](https://huggingface.co/docs/transformers/model_doc/gpt2#transformers.GPT2DoubleHeadsModel).
27
- Код, выполняющий файнтюн, доступен [тут](https://gist.github.com/Koziev/791febec6613a2ae744da52d2a3ec067).
28
 
29
  Такой подход к файнтюну оказался лучше, чем два других подхода:
30
 
31
  1) дефолтный способ файнтюна, когда GPT дообучается просто на текстах, состоящих из исходного текста и перефразировки,
32
  разделенных специальным токеном. В этом подходе модель обучается также на токенах затравки, что может быть нежелательным.
33
  2) вариация первого способа, в котором токены затравки (исходного текста) исключаются из обратного распространения с помощью
34
- задания labels=-100.
35
 
36
  В качестве метрики для сравнения подходов и для подбора числа неверных вариантов перефразировки в GPT2DoubleHeadsModel
37
  использована комбинация из:
 
11
  Это генеративная модель на основе ```sberbank-ai/rugpt3large_based_on_gpt2```, дообученной
12
  на датасете перефразировок [inkoziev/paraphrases](https://huggingface.co/datasets/inkoziev/paraphrases).
13
  Она разработана для использования в проекте [генеративной поэзии](https://github.com/Koziev/verslibre).
14
+ Код для тренировки и использования перефразировщика доступен в репозитрии [https://github.com/Koziev/paraphraser](https://github.com/Koziev/paraphraser).
15
 
16
 
17
  ### Особенности перефразировки
 
25
 
26
  В обучающем датасете есть негативные примеры перефразировок, и я использую их вместе с правильными примерами в ходе файнтюна,
27
  подавая на классификационную голову в [GPT2DoubleHeadsModel](https://huggingface.co/docs/transformers/model_doc/gpt2#transformers.GPT2DoubleHeadsModel).
28
+ Код, выполняющий файнтюн, доступен [тут](https://github.com/Koziev/paraphraser/blob/main/train_paraphraser_with_gpt2doublehead.py).
29
 
30
  Такой подход к файнтюну оказался лучше, чем два других подхода:
31
 
32
  1) дефолтный способ файнтюна, когда GPT дообучается просто на текстах, состоящих из исходного текста и перефразировки,
33
  разделенных специальным токеном. В этом подходе модель обучается также на токенах затравки, что может быть нежелательным.
34
  2) вариация первого способа, в котором токены затравки (исходного текста) исключаются из обратного распространения с помощью
35
+ задания labels=-100 ([код](https://github.com/Koziev/paraphraser/blob/main/finetune_paraphraser_with_prompt_masking.py)).
36
 
37
  В качестве метрики для сравнения подходов и для подбора числа неверных вариантов перефразировки в GPT2DoubleHeadsModel
38
  использована комбинация из: