--- license: other library_name: peft tags: - llama-factory - lora - generated_from_trainer base_model: openchat/openchat-3.5-1210 model-index: - name: summarization_model results: [] datasets: - d0rj/samsum-ru - zjkarina/matreshka - rcp-meetings/rudialogsum_v2 language: - ru --- # ru_summarization_model This model is a fine-tuned version of [openchat/openchat-3.5-1210](https://huggingface.co/openchat/openchat-3.5-1210) for summarization russian dialogs. ## Model description Используйте следующий шаблон opencha3.5. ``` Ты грамотный суммаризатор. Верни суммаризацию по диалогу между клиентом и оператором<|end_of_turn|>GPT4 Correct User: ...Диалог... \nСуммаризация диалога:\n<|end_of_turn|>GPT4 Correct Assistant: ``` **Пример диалога** ``` Ты грамотный суммаризатор. Верни суммаризацию по диалогу между клиентом и оператором<|end_of_turn|>GPT4 Correct User: Оператор: здравствуйте вас приветствует компания ростелеком вас приветствует премиальная служба ростелеком Клиент: и Оператор: ха Оператор: специалисты центра компании ростелеком здравствуйте чем могу вам помочь Клиент: здравствуйте Клиент: писали в доме свет и от этого роутер не может подключиться к сети ростелекома пишет Клиент: пережиток ------ стариком Оператор: подскажите пожалуйста вы выполнили рентгеновского ротора Оператор: питание на пять минут Оператор: номер вашего лицевого счета подскажите Клиент: ------- Клиент: ------- Клиент: ------- Клиент: ------- Клиент: ------- Клиент: и фамилию носит пожалуйста подскажите находит ------- Оператор: сейчас проверяем наличие аварий пожалуйста подождите не отключайтесь две минуты Оператор: благодарю за ожидание уточните пожалуйста ваш контактный номер телефона и направленности масса технической поддержки персональному менеджеру вижу что у вас саладина не должно быть Оператор: системе их нет Клиент: ------- Оператор: ------- Оператор: ------- Клиент: ------- Оператор: ------- Оператор: вы оскорбляли линию то есть у вас сейчас указывалось что у вас совсем соединение есть окно активное у меня указано то у меня мощность сигнала минус двадцать шесть Клиент: но я получается Клиент: перед опустил его у меня открылась страница роутера в которой написано было что производится автоматическая Клиент: настройка она покрутилась где-то какое-то время и после этого выдала что невозможно подключиться к сети ростелекома Оператор: не восприняла хорошо эту информацию заявки ухожу Оператор: точнее часто ориентировочно специалист с вами свяжется ожидайте пожалуйста Оператор: всего доброго до свидания \nСуммаризация диалога:\n<|end_of_turn|>GPT4 Correct Assistant: ``` **Ответ нейросети** ``` Клиент: сообщает, что роутер не может подключиться к сети ростелекома, а Оператор: проверяет его и сообщает, что у него нет сигнала. Клиент: сообщает свой номер лицевого счета и контактный номер телефона, но Оператор: не может найти проблему. В конце концов, Оператор: просит Клиент: подождать, пока специалист свяжется с ним. ``` **PS.** _Диалог распознан системой vosk-0.42_ **Запуск демо через LLaMA_Factory** ``` python src/web_demo.py \ --model_name_or_path openchat/openchat-3.5-1210 \ --adapter_name_or_path bogdal/ru_openchat3.5-1210_summarization_adapter \ --template openchat \ --finetuning_type lora \ --quantization_bit 8 \ ``` в интерфейсе необходимо внести системный промпт - "Ты грамотный суммаризатор. Верни суммаризацию по диалогу между клиентом и оператором" и чистый диалог без добавочных токенов, оканчивающийся фразой "\nСуммаризация диалога:\n" ### Training hyperparameters The following hyperparameters were used during training: - learning_rate: 5e-05 - train_batch_size: 1 - eval_batch_size: 8 - seed: 42 - gradient_accumulation_steps: 4 - total_train_batch_size: 4 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08 - lr_scheduler_type: cosine - num_epochs: 3.0 ### Training results - loss: 0.4716 ### Framework versions - PEFT 0.7.1 - Transformers 4.36.2 - Pytorch 2.1.2+cu121 - Datasets 2.16.1 - Tokenizers 0.15.0