inkoziev
/

chargpt-96M

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

inkoziev commited on Aug 15, 2023

Commit

0d63905

•

1 Parent(s): a4e806e

Update README.md

Files changed (1) hide show

README.md +5 -4

README.md CHANGED Viewed

@@ -10,16 +10,17 @@ tags:
 ## CharGPT-96M
-Крошечная языковая модель с посимвольной токенизацией для всевозможных экспериментов, когда решаемая задача решается плохо из-за BPE токенизации на слова и их части.
 К примеру, если вы хотите делать детектор орфографии, или модельку для фонетическую транскрипцию и т.д., данная модель с посимвольной токенизацией может оказаться предпочтительнее, чем обычные GPT.
-Размер модели - 96 милионов параметров.
 ### Особенности предварительной тренировки
-Я делал эту модель для экспериментов с русской поэзией. Поэтому корпус претрейна содержал значительное количество текстов
-поэтического формата. Это может повлиять на ваши downstream задачи.
 Объем корпуса претрейна - около 30B токенов.

 ## CharGPT-96M
+Крошечная языковая модель с **посимвольной** токенизацией для всевозможных экспериментов, когда решаемая задача решается плохо из-за BPE токенизации на слова и их части.
 К примеру, если вы хотите делать детектор орфографии, или модельку для фонетическую транскрипцию и т.д., данная модель с посимвольной токенизацией может оказаться предпочтительнее, чем обычные GPT.
+Размер модели - **96 милионов** параметров.
 ### Особенности предварительной тренировки
+Я делал эту модель для экспериментов с русской поэзией в рамках проекта ["Литературная студия"](https://github.com/Koziev/verslibre).
+Поэтому корпус претрейна содержал значительное количество текстов поэтического формата.
+Это может повлиять на ваши downstream задачи.
 Объем корпуса претрейна - около 30B токенов.