inkoziev commited on
Commit
0d63905
1 Parent(s): a4e806e

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +5 -4
README.md CHANGED
@@ -10,16 +10,17 @@ tags:
10
 
11
  ## CharGPT-96M
12
 
13
- Крошечная языковая модель с посимвольной токенизацией для всевозможных экспериментов, когда решаемая задача решается плохо из-за BPE токенизации на слова и их части.
14
 
15
  К примеру, если вы хотите делать детектор орфографии, или модельку для фонетическую транскрипцию и т.д., данная модель с посимвольной токенизацией может оказаться предпочтительнее, чем обычные GPT.
16
 
17
- Размер модели - 96 милионов параметров.
18
 
19
  ### Особенности предварительной тренировки
20
 
21
- Я делал эту модель для экспериментов с русской поэзией. Поэтому корпус претрейна содержал значительное количество текстов
22
- поэтического формата. Это может повлиять на ваши downstream задачи.
 
23
 
24
  Объем корпуса претрейна - около 30B токенов.
25
 
 
10
 
11
  ## CharGPT-96M
12
 
13
+ Крошечная языковая модель с **посимвольной** токенизацией для всевозможных экспериментов, когда решаемая задача решается плохо из-за BPE токенизации на слова и их части.
14
 
15
  К примеру, если вы хотите делать детектор орфографии, или модельку для фонетическую транскрипцию и т.д., данная модель с посимвольной токенизацией может оказаться предпочтительнее, чем обычные GPT.
16
 
17
+ Размер модели - **96 милионов** параметров.
18
 
19
  ### Особенности предварительной тренировки
20
 
21
+ Я делал эту модель для экспериментов с русской поэзией в рамках проекта ["Литературная студия"](https://github.com/Koziev/verslibre).
22
+ Поэтому корпус претрейна содержал значительное количество текстов поэтического формата.
23
+ Это может повлиять на ваши downstream задачи.
24
 
25
  Объем корпуса претрейна - около 30B токенов.
26