Spaces:

A1ex1
/

text-generation

Runtime error

App Files Files Community

A1ex1 commited on Dec 17, 2022

Commit

1b83f09

1 Parent(s): 80ec54a

Add application file

Browse files

Files changed (5) hide show

anekdoty.txt +0 -0
app.py +95 -0
lerning.py +230 -0
model.pt +3 -0
requirements.txt +58 -0

anekdoty.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

app.py ADDED Viewed

	@@ -0,0 +1,95 @@

+import numpy
+import streamlit as st
+import torch
+st.title('Генерация текста GPT-моделью')
+st.subheader('Это приложение показывает разницу в генерации текста моделью rugpt3small, обученной на документах общей тематики и этой же моделью, дообученной на анекдотах')
+# Загружаем токенайзер модели
+from transformers import GPT2Tokenizer
+tokenizer = GPT2Tokenizer.from_pretrained('sberbank-ai/rugpt3small_based_on_gpt2')
+from transformers import GPT2LMHeadModel
+# Эту модель просто подгружаем
+model_init = GPT2LMHeadModel.from_pretrained(
+    'sberbank-ai/rugpt3small_based_on_gpt2',
+    output_attentions = False,
+    output_hidden_states = False,
+)
+# Это обученная модель, в нее загружаем веса
+model = GPT2LMHeadModel.from_pretrained(
+    'sberbank-ai/rugpt3small_based_on_gpt2',
+    output_attentions = False,
+    output_hidden_states = False,
+)
+m = torch.load('model.pt')
+model.load_state_dict(m)
+str = st.text_input('Введите 1-4 слова начала текста, и подождите минутку', 'Мужик спрашивает у официанта')
+# модель без дообучения
+# prompt – строка, которую примет на вход и продолжит модель
+# токенизируем строку
+prompt = tokenizer.encode(str, return_tensors='pt')
+# out будет содержать результаты генерации в виде списка
+out1 = model_init.generate(
+    # входная строка
+    input_ids=prompt,
+    # максимальная длина генерируемой последовательности
+    max_length=150,
+    # num_beams
+    num_beams=5,
+    # применяем сэмплирование
+    do_sample=True,
+    # применяем температуру
+    temperature=1.,
+    # топ слов по вероятности
+    top_k=50,
+    # топ слов по суммарной вероятности
+    top_p=0.6,
+    # сколько (постараться) не повторять n_gram подряд
+    no_repeat_ngram_size=3,
+    # сколько вернуть генераций
+    num_return_sequences=3,
+    ).numpy() #).cpu().numpy()
+st.write('\n------------------\n')
+st.subheader('Тексты на модели, обученной документами всех тематик:')
+# out содержит результаты
+# декодируем и печатаем
+n = 0
+for out_ in out1:
+    n += 1
+    st.write(tokenizer.decode(out_).rpartition('.')[0],'.')
+    st.write('\n------------------\n')
+    # print(tokenizer.decode(out_))
+# дообученная модель
+with torch.inference_mode():
+    # prompt = 'Мужик спрашивает официанта'
+    # prompt = tokenizer.encode(str, return_tensors='pt')
+    out2 = model.generate(
+        input_ids=prompt,
+        max_length=150,
+        num_beams=1,
+        do_sample=True,
+        temperature=1.,
+        top_k=5,
+        top_p=0.6,
+        no_repeat_ngram_size=2,
+        num_return_sequences=3,
+        ).numpy() #).cpu().numpy()
+    st.subheader('Тексты на модели, обученной документами всех тематик и дообученной анекдотами:')
+    n = 0
+    for out_ in out2:
+        n += 1
+        st.write(tokenizer.decode(out_).rpartition('.')[0],'.')
+        # print(textwrap.fill(tokenizer.decode(out_), 100), end='\n------------------\n')
+        st.write('\n------------------\n')

lerning.py ADDED Viewed

	@@ -0,0 +1,230 @@

+import streamlit as st
+# !pip install -q transformers
+import numpy as np
+# import pandas as pd
+import re
+# import random
+import torch
+# from tqdm.notebook import tqdm
+import transformers
+# from torch.optim import AdamW
+import textwrap
+# Загружаем токенайзер модели
+from transformers import GPT2Tokenizer
+tokenizer = GPT2Tokenizer.from_pretrained('sberbank-ai/rugpt3small_based_on_gpt2')
+# import re
+with open('anekdoty.txt', encoding='utf8') as f:
+    text = f.read()
+text = re.sub('\n{2,}', '\n', text)
+print(text[:1000])
+# токенизируем текст
+tokens = tokenizer.encode(text, add_special_tokens=True)
+tokens = np.array(tokens)
+print(len(tokens))
+tokens[:10]
+# разбиваем на train и test
+l = len(tokens)//15
+train = []
+test = []
+for i in range(15):
+    if i%5 > 0:
+        train.extend(tokens[i*l: (i+1)*l])
+    else:
+        test.extend(tokens[i*l: (i+1)*l])
+train = np.array(train)
+test = np.array(test)
+print(len(tokens), len(train), len(test))
+from transformers import GPT2LMHeadModel
+# Эту модель просто подгружаем и не будем дообучать
+model_init = GPT2LMHeadModel.from_pretrained(
+    'sberbank-ai/rugpt3small_based_on_gpt2',
+    output_attentions = False,
+    output_hidden_states = False,
+)
+# Эту модель подгрузим и далее обучим
+model = GPT2LMHeadModel.from_pretrained(
+    'sberbank-ai/rugpt3small_based_on_gpt2',
+    output_attentions = False,
+    output_hidden_states = False,
+)
+model.to(device);
+model_init.to(device);
+batch_size = 8
+max_len = 256
+epochs = 5
+n_train = len(train)//(batch_size*max_len)
+n_test = len(test)//(batch_size*max_len)
+print(n_train, n_test)
+# устанавливаем оптимизатор
+optimizer = AdamW(model.parameters(), lr = 1e-5, eps = 1e-8)
+# трансформеры с трудом обучаются, для них нужны разные способы повышения
+# эффективности градиентного спуска
+total_steps = n_train * epochs
+scheduler = transformers.get_linear_schedule_with_warmup(optimizer,
+                                            num_warmup_steps = 0,
+                                            num_training_steps = total_steps)
+# зададим точность, хотя ориентироваться будем на качество генерации
+def accuracy(y_true, logits):
+    return torch.mean((y_true[1:] == torch.argmax(logits, dim=2)[:-1]).float()).detach().cpu().numpy()
+# готовим тензоры для обучения размера [batch_size, max_len]
+def prep_tensors(x, i, batch_size=batch_size, max_len=max_len):
+    batch_ids = x[i*batch_size*max_len: (i+1)*batch_size*max_len]
+    batch_ids = batch_ids.reshape(batch_size, max_len)
+    batch_ids = torch.tensor(batch_ids).to(device)
+    return batch_ids
+# обучающий цикл
+for epoch in range(1, epochs+1):
+    print(f'epoch {epoch}/{epochs} : training')
+    train_loss = []
+    train_acc = []
+    model.train()
+    pbar = range(n_train)
+    # pbar = tqdm(range(n_train))
+    for i in pbar:
+        batch_ids = prep_tensors(train, i)
+        model.zero_grad()
+        loss, logits, _ = model(batch_ids,
+                                token_type_ids=None,
+                                labels=batch_ids
+                             ).values()
+        loss.backward()
+        torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)
+        optimizer.step()
+        scheduler.step()
+        train_loss.append(loss.item())
+        train_acc.append(accuracy(batch_ids, logits))
+        print(f'acc {np.mean(train_acc):.4f} loss {np.mean(train_loss):.4f}')
+        # pbar.set_description(f'acc {np.mean(train_acc):.4f} loss {np.mean(train_loss):.4f}', refresh=True)
+    print(f'epoch {epoch}/{epochs} : validation')
+    model.eval()
+    val_acc = []
+    val_loss = []
+    pbar = range(n_test)
+    # pbar = tqdm(range(n_test))
+    for i in pbar:
+        batch_ids = prep_tensors(test, i)
+        with torch.no_grad():
+            loss, logits, _ = model(batch_ids,
+                                token_type_ids=None,
+                                labels=batch_ids
+                                 ).values()
+        val_loss.append(loss.item())
+        val_acc.append(accuracy(batch_ids, logits))
+        print(f'acc {np.mean(val_acc):.4f} loss {np.mean(val_loss):.4f}')
+        # pbar.set_description(f'acc {np.mean(val_acc):.4f} loss {np.mean(val_loss):.4f}', refresh=True)
+# Применим модель, которую мы не дообучали: просто для понимания разницы между дообученной на собственных данных моделью и предобученной.
+# https://huggingface.co/transformers/main_classes/model.html#transformers.generation_utils.GenerationMixin.generate
+# модель без дообучения
+# prompt – строка, которую модель примет на вход и продолжит
+prompt = 'Мужик спрашивает официанта'
+# токенизируем строку
+prompt = tokenizer.encode(prompt, return_tensors='pt').to(device)
+# out будет содержать результаты генерации в виде списка
+out = model_init.generate(
+    # входная строка
+    input_ids=prompt,
+    # максимальная длина генерируемой последовательности
+    max_length=250,
+    # num_beams
+    num_beams=5,
+    # применяем сэмплирование
+    do_sample=True,
+    # применяем температуру
+    temperature=55.,
+    # топ слов по вероятности
+    top_k=50,
+    # топ слов по суммарной вероятности
+    top_p=0.6,
+    # сколько (постараться) не повторять n_gram подряд
+    no_repeat_ngram_size=3,
+    # сколько вернуть генераций
+    num_return_sequences=7,
+    ).cpu().numpy()
+# out содержит результаты
+# декодируем и печатаем
+for out_ in out:
+    print(tokenizer.decode(out_))
+# дообученная модель
+with torch.inference_mode():
+    prompt = 'Мужик спрашивает официанта'
+    prompt = tokenizer.encode(prompt, return_tensors='pt').to(device)
+    out = model.generate(
+        input_ids=prompt,
+        max_length=150,
+        num_beams=1,
+        do_sample=True,
+        temperature=1.,
+        top_k=5,
+        top_p=0.6,
+        no_repeat_ngram_size=2,
+        num_return_sequences=7,
+        ).cpu().numpy()
+    for out_ in out:
+        print(textwrap.fill(tokenizer.decode(out_), 100), end='\n------------------\n')
+# Сохраняем веса обученной модели
+torch.save(model.state_dict(), 'model.pt')
+# Задаем класс модели (уже в streamlit/tg_bot)
+model_finetuned = GPT2LMHeadModel.from_pretrained(
+    'sberbank-ai/rugpt3small_based_on_gpt2',
+    output_attentions = False,
+    output_hidden_states = False,
+)
+# Вешаем сохраненные веса на нашу модель
+model = model_finetuned.load_state_dict(torch.load('model.pt'))
+# -> <All keys matched successfully>

model.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b1d617290b6cd70a70e637b9478be1f1c47b6c9ca361f59eb1e68382c206d4fc
+size 551310221

requirements.txt ADDED Viewed

	@@ -0,0 +1,58 @@

+altair==4.2.0
+attrs==22.1.0
+blinker==1.5
+cachetools==5.2.0
+certifi==2022.12.7
+charset-normalizer==2.1.1
+click==8.1.3
+commonmark==0.9.1
+decorator==5.1.1
+entrypoints==0.4
+filelock==3.8.2
+gitdb==4.0.10
+GitPython==3.1.29
+huggingface-hub==0.11.1
+idna==3.4
+importlib-metadata==5.1.0
+Jinja2==3.1.2
+jsonschema==4.17.3
+MarkupSafe==2.1.1
+numpy==1.23.5
+nvidia-cublas-cu11==11.10.3.66
+nvidia-cuda-nvrtc-cu11==11.7.99
+nvidia-cuda-runtime-cu11==11.7.99
+nvidia-cudnn-cu11==8.5.0.96
+packaging==22.0
+pandas==1.5.2
+Pillow==9.3.0
+protobuf==3.20.3
+pyarrow==10.0.1
+pydeck==0.8.0
+Pygments==2.13.0
+Pympler==1.0.1
+pyrsistent==0.19.2
+python-dateutil==2.8.2
+pytz==2022.6
+pytz-deprecation-shim==0.1.0.post0
+PyYAML==6.0
+regex==2022.10.31
+requests==2.28.1
+rich==12.6.0
+semver==2.13.0
+six==1.16.0
+smmap==5.0.0
+streamlit==1.16.0
+tokenizers==0.13.2
+toml==0.10.2
+toolz==0.12.0
+torch==1.13.1
+tornado==6.2
+tqdm==4.64.1
+transformers==4.25.1
+typing_extensions==4.4.0
+tzdata==2022.7
+tzlocal==4.2
+urllib3==1.26.13
+validators==0.20.0
+watchdog==2.2.0
+zipp==3.11.0