Basic info added

Browse files

Files changed (4) hide show

README.md +112 -0
chat.json +10 -0
generation_config.json +13 -0
test_gguf.py +139 -0

README.md CHANGED Viewed

@@ -1,3 +1,115 @@
 ---
 license: mit
 ---

 ---
 license: mit
+datasets:
+  - d0rj/gsm8k-ru
+  - d0rj/alpaca-cleaned-ru
+  - IlyaGusev/ru_turbo_alpaca
+  - IlyaGusev/ru_turbo_alpaca_evol_instruct
+language:
+  - ru
+  - en
+library_name: peft
+pipeline_tag: text-generation
 ---
+# PavelGPT 7B 128K (v0.1)
+PavelGPT is a Russian language model based
+on [NousResearch/Yarn-Mistral-7b-128k](https://huggingface.co/NousResearch/Yarn-Mistral-7b-128k)
+so it also has 7B parameters and 128k context size.
+- **Developed by:** [EvilFreelancer](https://github.com/EvilFreelancer)
+- **Model type:** GGUF
+- **Language(s) (NLP):** Russian, English
+- **License:** MIT
+- **Finetuned from model:**
+  [NousResearch/Yarn-Mistral-7b-128k](https://huggingface.co/NousResearch/Yarn-Mistral-7b-128k)
+## Details
+### Description
+The model is able to generate text in Russian, answer questions, solve simple logical puzzles and simple math
+calculations, it was trained on a medium corpus of Russian instructions, manuals and other texts.
+It optimized for INSTRUCT mode and it works better if you give it system prompt and only one instruction (without
+history at all).
+### Datasets
+PavelGPT was trained on following datasets:
+- [d0rj/gsm8k-ru](https://huggingface.co/datasets/d0rj/gsm8k-ru) - 7.5k rows of Russian puzzles
+- [d0rj/alpaca-cleaned-ru](https://huggingface.co/datasets/d0rj/alpaca-cleaned-ru) - 51.8k rows of Russian general
+  instructions
+- [IlyaGusev/ru_turbo_alpaca](https://huggingface.co/datasets/IlyaGusev/ru_turbo_alpaca) - 29.98k rows of Russian
+  instructions, but was used only instructions with `ok` label (~4.5k)
+- [IlyaGusev/ru_turbo_alpaca_evol_instruct](https://huggingface.co/datasets/IlyaGusev/ru_turbo_alpaca_evol_instruct) -
+  47.8k rows of Russian instructions
+All datasets was merged with help
+of [create_instruct_set_v2.py](https://github.com/EvilFreelancer/saiga-custom/blob/main/data_processing/create_instruct_set_v2.py)
+(hash a1151bf903990b88177d30bd1de67c7b94fdecef).
+After merging and deduplication we got 46.2k rows of training data and 2.4k rows of validation data.
+### Training
+Model was trained on 1x RTX 4090 24GB for 1 epoch (took ~12 hours), it was trained with help of Peft library and in 4bit quantization mode.
+Context size was set to 4096 tokens, batch size was set to 1, gradient accumulation was set to 128.
+Training script: [pavelgpt_7b_128k.ipynb](https://github.com/EvilFreelancer/saiga-custom/blob/main/pavelgpt_7b_128k.ipynb).
+Wandb report: [j6jt6cyd](https://api.wandb.ai/links/evilfreelancer/j6jt6cyd).
+### Tests results
+Tests was performed on following [generation configuration](./generation_config.json):
+```json
+{
+  "pad_token_id": 0,
+  "unk_token_id": 0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "temperature": 0.2,
+  "top_p": 0.2,
+  "top_k": 20,
+  "do_sample": true,
+  "max_new_tokens": 4096,
+  "repetition_penalty": 1.2,
+  "no_repeat_ngram_size": 15
+}
+```
+Here is the results:
+```text
+User: Привет! Кто ты?
+Bot: Я - языковой модель ИИ, называемый PavelGPT. Я способен к естественному языку и обучен отвечать на вопросы по многим темам. Как правило, я использую информацию из Интернета для создания своих ответов.
+User: Ты помнишь как здесь оказался?
+Bot: Я был создан компанией OpenAI в качестве исследовательского проекта и запущен в декабре 2018 года. С тех пор он продолжает развивать свой алгоритм путем обучения на больших объемах данных и улучшения его функций.
+User: Какой по твоему сейчас год?
+Bot: В настоящее время это 2023 год.
+User: А какой день?
+Bot: Сейчас 6 января 2023 г.
+User: Почему трава зелёная?
+Bot: Зеленый цвет является результатом взаимодействия хлорофилла (пигмента) со светом. Хлорофилл может поглощать красное и синее спектральные излучения, оставляя только зеленое. Эти компоненты вместе образуют зеленый цвет растительной массы.
+User: Я пошёл в магазин и купил 10 яблок. Два яблока я отдал соседу и два ремонтнику. Потом я купил ещё 5 яблок и одно из них съел. Также я отдал три банана моему брату. Сколько яблок у меня осталось?
+Bot: У вас осталось 10 яблок после того, как вы продали их друзьям и брату.
+User: Твоя задача решить логическую головоломку: У Сер��жи есть мама Татьяна и папа Денис. И ещё у Серёжи есть брат Иван. Кем Ивану приходится Татьяна?
+Bot: Мамой Ивана должна быть Татьяна.
+```
+## Links
+* https://t.me/evilfreelancer
+* https://dzen.ru/evilfreelancer
+* https://github.com/EvilFreelancer
+* https://youtube.com/@pavelzloi

chat.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "system_prompt": "Ты — PavelGPT, русскоязычный автоматический ассистент. Ты разговариваешь с людьми и помогаешь им.",
+    "system_message_template": "<s>{role}\n{content}</s>\n",
+    "user_message_template": "<s>{role}\n{content}</s>\n",
+    "bot_message_template": "<s>{role}\n{content}</s>\n",
+    "user_role": "user",
+    "bot_role": "bot",
+    "system_role": "system",
+    "suffix": ""
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "pad_token_id": 0,
+    "unk_token_id": 0,
+    "bos_token_id": 1,
+    "eos_token_id": 2,
+    "temperature": 0.2,
+    "top_p": 0.2,
+    "top_k": 20,
+    "do_sample": true,
+    "max_new_tokens": 4096,
+    "repetition_penalty": 1.2,
+    "no_repeat_ngram_size": 15
+}

test_gguf.py ADDED Viewed

	@@ -0,0 +1,139 @@

+import logging
+DEFAULT_MESSAGE_TEMPLATE = "<s>{role}\n{content}</s>\n"
+DEFAULT_SYSTEM_PROMPT = "Ты — PavelGPT, русскоязычный автоматический ассистент. Ты разговариваешь с людьми и помогаешь им."
+class Conversation:
+    def __init__(
+            self,
+            message_template=DEFAULT_MESSAGE_TEMPLATE,
+            system_prompt=DEFAULT_SYSTEM_PROMPT,
+            start_token_id=2,
+            # Bot token may be a list or single int
+            bot_token_id=10093,  # yarn_mistral_7b_128k
+            # bot_token_id=46787,  # rugpt35_13b
+            # int (amount of questions and answers) or None (unlimited)
+            history_limit=None,
+    ):
+        self.logger = logging.getLogger('Conversation')
+        self.message_template = message_template
+        self.start_token_id = start_token_id
+        self.bot_token_id = bot_token_id
+        self.history_limit = history_limit
+        self.messages = [
+            {
+                "role": "system",
+                "content": system_prompt
+            },
+            {
+                "role": "bot",
+                "content": "Здравствуйте! Чем могу помочь?"
+            }
+        ]
+    def get_start_token_id(self):
+        return self.start_token_id
+    def get_bot_token_id(self):
+        return self.bot_token_id
+    def add_message(self, role, message):
+        self.messages.append({
+            "role": role,
+            "content": message
+        })
+        self.trim_history()
+    def add_user_message(self, message):
+        self.add_message("user", message)
+    def add_bot_message(self, message):
+        self.add_message("assistant", message)
+    def trim_history(self):
+        if self.history_limit is not None and len(self.messages) > self.history_limit + 2:
+            overflow = len(self.messages) - (self.history_limit + 2)
+            self.messages = [self.messages[0]] + self.messages[overflow + 2:]  # remove old messages except system
+    def get_prompt(self, tokenizer):
+        final_text = ""
+        # print(self.messages)
+        for message in self.messages:
+            message_text = self.message_template.format(**message)
+            final_text += message_text
+        # Bot token id may be an array
+        if isinstance(self.bot_token_id, (list, tuple)):
+            final_text += tokenizer.decode([self.start_token_id] + self.bot_token_id)
+        else:
+            final_text += tokenizer.decode([self.start_token_id, self.bot_token_id])
+        return final_text.strip()
+def generate(model, prompt, messages, generation_config):
+    output = model(
+        prompt,
+        top_k=generation_config.top_k,
+        top_p=generation_config.top_p,
+        temperature=generation_config.temperature,
+        repeat_penalty=generation_config.repetition_penalty,
+    )['choices'][0]['text']
+    return output.strip()
+from llama_cpp import Llama
+import os
+from pathlib import Path
+from huggingface_hub.file_download import http_get
+from transformers import GenerationConfig
+directory = Path('.').resolve()
+model_name = "pavelgpt_7b_128k/ggml-model-q8_0.gguf"
+generation_config = GenerationConfig.from_pretrained("pavelgpt_7b_128k")
+final_model_path = str(directory / model_name)
+# if not os.path.exists(final_model_path):
+#     with open(final_model_path, "wb") as f:
+#         http_get(model_url, f)
+# os.chmod(final_model_path, 0o777)
+# print(f"{final_model_path} files downloaded.")
+model = Llama(
+    model_path=final_model_path,
+    # verbose=True,
+    n_gpu_layers=5,
+    n_ctx=4096,
+    max_length=200,
+    echo=True,
+)
+conversation = Conversation(bot_token_id=7451)
+while True:
+    user_message = input("User: ")
+    # Reset chat command
+    if user_message.strip() == "/reset":
+        conversation = Conversation(bot_token_id=7451)
+        print("History reset completed!")
+        continue
+    # Skip empty messages from user
+    if user_message.strip() == "":
+        continue
+    conversation.add_user_message(user_message)
+    prompt = conversation.get_prompt(model.tokenizer())
+    output = generate(
+        model=model,
+        prompt=prompt,
+        generation_config=generation_config,
+        messages=conversation.messages
+    )
+    conversation.add_bot_message(output)
+    print("Bot:", output)
+    print()
+    print("==============================")
+    print()