RichelieuGVG commited on
Commit
43227e5
·
verified ·
1 Parent(s): 37ae05c

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +40 -1
README.md CHANGED
@@ -10,4 +10,43 @@ base_model:
10
  - ai-forever/ruT5-base
11
  pipeline_tag: question-answering
12
  library_name: transformers
13
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
10
  - ai-forever/ruT5-base
11
  pipeline_tag: question-answering
12
  library_name: transformers
13
+ ---
14
+
15
+ # Сохранение содержимого README.md без части с Telegram-ботом
16
+
17
+ readme_content = """
18
+ # Проект: Чат-бот с использованием модели ruT5-base для ответов на вопросы
19
+
20
+ ## Описание
21
+ Этот проект представляет собой систему, которая использует предобученную модель **ruT5-base** для генерации ответов на вопросы, основанных на предоставленном контексте. Мы дообучаем модель на датасете SberQUAD, адаптируя её для задач вопросно-ответного взаимодействия на русском языке.
22
+
23
+ ## Датасет
24
+ Мы используем датасет [SberQUAD](https://huggingface.co/datasets/kuznetsoffandrey/sberquad), который содержит примеры вопросов и ответов на них в контексте различных текстов. Датасет разбит на тренировочные, валидационные и тестовые части.
25
+
26
+ ## Архитектура модели
27
+ В качестве базовой модели используется [ruT5-base](https://huggingface.co/ai-forever/ruT5-base) — Encoder-Decoder модель, оптимизированная для задач на русском языке. Модель была дополнительно дообучена на кастомных данных для улучшения генерации ответов на основе предоставленного контекста.
28
+
29
+ ## Параметры обучения
30
+
31
+ Для обучения использовались следующие параметры:
32
+
33
+ ```python
34
+ output_dir="./models",
35
+ optim="adafactor",
36
+ num_train_epochs=1, # в идеале 2 эпохи
37
+ do_train=True,
38
+ gradient_checkpointing=True,
39
+ bf16=True,
40
+ per_device_train_batch_size=8,
41
+ per_device_eval_batch_size=12,
42
+ gradient_accumulation_steps=4,
43
+ logging_dir="./logs",
44
+ report_to="wandb",
45
+ logging_steps=10,
46
+ save_strategy="steps",
47
+ save_steps=5000,
48
+ evaluation_strategy="steps",
49
+ eval_steps=300,
50
+ learning_rate=3e-5,
51
+ predict_with_generate=False,
52
+ generation_max_length=64