Defetya
/

ru-3b-openllama-transformers

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

Defetya commited on Mar 31

Commit

f381974

•

1 Parent(s): 7333aa3

Update README.md

Files changed (1) hide show

README.md +13 -5

README.md CHANGED Viewed

@@ -6,8 +6,16 @@ datasets:
 metrics:
 - perplexity
 ---
-openllama_v2 3B second stage pre-trained on russian part of OSCAR with 4k sequence length. Model has seen about 5B tokens for now, weights will be updated as the training goes on.
-Achieves 3.8 perplexity on the evaluation dataset. Will we further pre-trained on wiki dataset with 8K context length.
-Free inference works, feel free to experiement in Russian :). Should be the natural continuation of the prompt. Example:
-Prompt: "Собака пришла домой и начала вопрошать", output: "... что делать.
-Подруга хозяина сказала, что нужно сделать, чтобы понять, как правильно поступить."

 metrics:
 - perplexity
 ---
+Модель openllama_3b_v2, secondstage pre-trained на датасете OSCAR (4k sequence length) и на вики датасете (8k sequence length). В сумме получилось 10-12B токенов. Достигает 3.2 значения перплексии на вики+оскар датасетах (на той части, которая не была показана модели).
+Был осуществлен тест на mmlu-ru. Результаты таковы (справа - моя модель, слева - изначальная версия):
+accuracy_total: 26.04 / 27.28
+STEM: 25.51699654022026 / 26.910630806469058
+humanities: 28.404847276301254 / 24.290275834763932
+"other (business, health, misc.)": 25.39168024941998 / 29.81126559385235
+social sciences: 24.83523489382067 / 28.101196261261098
+Файлы с результатами sub_categories.csv (sub_categories_my.csv) тут.
+Результаты показывают, что модель действительно чему-то научилась и лучше понимает русский язык. Будет осуществлено дальнейшее тестирование, а также обучение чатбота на датасетах Ильи Гусева (saiga).