evilfreelancer
/

PavelGPT-7B-128K-v0.1-LoRA

@@ -1,12 +1,110 @@
 ---
 license: mit
 datasets:
-- d0rj/gsm8k-ru
-- d0rj/alpaca-cleaned-ru
-- IlyaGusev/ru_turbo_alpaca
-- IlyaGusev/ru_turbo_alpaca_evol_instruct
 language:
-- ru
 library_name: peft
 pipeline_tag: text-generation
 ---

 ---
 license: mit
 datasets:
+  - d0rj/gsm8k-ru
+  - d0rj/alpaca-cleaned-ru
+  - IlyaGusev/ru_turbo_alpaca
+  - IlyaGusev/ru_turbo_alpaca_evol_instruct
 language:
+  - ru
+  - en
 library_name: peft
 pipeline_tag: text-generation
 ---
+# PavelGPT 7B 128K (v0.1)
+PavelGPT is a Russian language model based
+on [NousResearch/Yarn-Mistral-7b-128k](https://huggingface.co/NousResearch/Yarn-Mistral-7b-128k)
+so it also has 7B parameters and 128k context size.
+- **Developed by:** [EvilFreelancer](https://github.com/EvilFreelancer)
+- **Model type:** LoRA
+- **Language(s) (NLP):** Russian, English
+- **License:** MIT
+- **Finetuned from model:**
+  [NousResearch/Yarn-Mistral-7b-128k](https://huggingface.co/NousResearch/Yarn-Mistral-7b-128k)
+## Details
+### Description
+The model is able to generate text in Russian, answer questions, solve simple logical puzzles and simple math
+calculations, it was trained on a medium corpus of Russian instructions, manuals and other texts.
+It optimized for INSTRUCT mode and it works better if you give it system prompt and only one instruction (without
+history at all).
+### Datasets
+PavelGPT was trained on following datasets:
+- [d0rj/gsm8k-ru](https://huggingface.co/datasets/d0rj/gsm8k-ru) - 7.5k rows of Russian puzzles
+- [d0rj/alpaca-cleaned-ru](https://huggingface.co/datasets/d0rj/alpaca-cleaned-ru) - 51.8k rows of Russian general
+  instructions
+- [IlyaGusev/ru_turbo_alpaca](https://huggingface.co/datasets/IlyaGusev/ru_turbo_alpaca) - 29.98k rows of Russian
+  instructions, but was used only instructions with `ok` label (~4.5k)
+- [IlyaGusev/ru_turbo_alpaca_evol_instruct](https://huggingface.co/datasets/IlyaGusev/ru_turbo_alpaca_evol_instruct) -
+  47.8k rows of Russian instructions
+All datasets was merged with help
+of [create_instruct_set_v2.py](https://github.com/EvilFreelancer/saiga-custom/blob/main/data_processing/create_instruct_set_v2.py)
+(hash a1151bf903990b88177d30bd1de67c7b94fdecef).
+After merging and deduplication we got 46.2k rows of training data and 2.4k rows of validation data.
+### Training
+Model was trained on 1x RTX 4090 24GB for 1 epoch (took ~12 hours), it was trained with help of Peft library and in 4bit quantization mode.
+Context size was set to 4096 tokens, batch size was set to 1, gradient accumulation was set to 128.
+Training script: [pavelgpt_7b_128k.ipynb](https://github.com/EvilFreelancer/saiga-custom/blob/main/pavelgpt_7b_128k.ipynb).
+Wandb report: [j6jt6cyd](https://api.wandb.ai/links/evilfreelancer/j6jt6cyd).
+### Tests results
+Tests was performed on following [generation configuration](./generation_config.json):
+```json
+{
+  "pad_token_id": 0,
+  "unk_token_id": 0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "temperature": 0.2,
+  "top_p": 0.2,
+  "top_k": 20,
+  "do_sample": true,
+  "max_new_tokens": 4096,
+  "repetition_penalty": 1.2,
+  "no_repeat_ngram_size": 15
+}
+```
+Here is the results:
+```text
+User: Привет! Кто ты?
+Bot: Я - языковой модель ИИ, называемый PavelGPT. Я способен к естественному языку и обучен отвечать на вопросы по многим темам. Как правило, я использую информацию из Интернета для создания своих ответов.
+User: Ты помнишь как здесь оказался?
+Bot: Я был создан компанией OpenAI в качестве исследовательского проекта и запущен в декабре 2018 года. С тех пор он продолжает развивать свой алгоритм путем обучения на больших объемах данных и улучшения его функций.
+User: Какой по твоему сейчас год?
+Bot: В настоящее время это 2023 год.
+User: А какой день?
+Bot: Сейчас 6 января 2023 г.
+User: Почему трава зелёная?
+Bot: Зеленый цвет является результатом взаимодействия хлорофилла (пигмента) со светом. Хлорофилл может поглощать красное и синее спектральные излучения, оставляя только зеленое. Эти компоненты вместе образуют зеленый цвет растительной массы.
+User: Я пошёл в магазин и купил 10 яблок. Два яблока я отдал соседу и два ремонтнику. Потом я купил ещё 5 яблок и одно из них съел. Также я отдал три банана моему брату. Сколько яблок у меня осталось?
+Bot: У вас осталось 10 яблок после того, как вы продали их дру��ьям и брату.
+User: Твоя задача решить логическую головоломку: У Серёжи есть мама Татьяна и папа Денис. И ещё у Серёжи есть брат Иван. Кем Ивану приходится Татьяна?
+Bot: Мамой Ивана должна быть Татьяна.
+```

test_lora.py CHANGED Viewed

@@ -3,19 +3,11 @@ import logging
 from peft import PeftModel, PeftConfig
 from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig
-# MODEL_NAME = "IlyaGusev/gigasaiga_lora"
-# MODEL_NAME = "evilfreelancer/ruGPT-3.5-13B-lora"
-# MODEL_NAME = "evilfreelancer/saiga_mistral_7b_128k_lora"
-# MODEL_NAME = "./yarn_mistral_7b_128k"
-MODEL_NAME = "./yarn_mistral_7b_128k_yakovlev"
 DEFAULT_MESSAGE_TEMPLATE = "<s>{role}\n{content}</s>\n"
-# DEFAULT_SYSTEM_PROMPT = """
-# Ты — Saiga 2, русскоязычный автоматический ассистент. Ты разговариваешь с людьми и помогаешь им.
-# """
-DEFAULT_SYSTEM_PROMPT = """
-Ты - Иван Яковлевич Яковлев. Ты был просветителем, православным миссионером, российский педагогом, организатором народных школ, инспектором (руководителем) чувашских школ Казанского учебного округа (1875-1903) и созданной им Симбирской чувашской учительской школы (1868-1919). Я создал современный чувашский алфавит (1870-е годы) и учебники чувашского и русского языков для чувашей, был писателем, переводчиком, фольклористом. Действительный статский советник (1904).
-"""
 class Conversation:
@@ -26,7 +18,6 @@ class Conversation:
             start_token_id=2,
             # Bot token may be a list or single int
             bot_token_id=10093,  # yarn_mistral_7b_128k
-            # bot_token_id=46787,  # rugpt35_13b
             # int (amount of questions and answers) or None (unlimited)
             history_limit=None,
     ):

 from peft import PeftModel, PeftConfig
 from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig
+# MODEL_NAME = "./pavelgpt_7b_128k"
+MODEL_NAME = "evilfreelancer/PavelGPT-7B-128K-v0.1"
 DEFAULT_MESSAGE_TEMPLATE = "<s>{role}\n{content}</s>\n"
+DEFAULT_SYSTEM_PROMPT = """Ты — PavelGPT, русскоязычный автоматический ассистент. Ты разговариваешь с людьми и помогаешь им."""
 class Conversation:
             start_token_id=2,
             # Bot token may be a list or single int
             bot_token_id=10093,  # yarn_mistral_7b_128k
             # int (amount of questions and answers) or None (unlimited)
             history_limit=None,
     ):