Spaces:

Seppukku
/

nlp_project_gpt_team

Sleeping

App Files Files Community

Seppukku commited on Aug 9, 2024

Commit

8fb2bb2

1 Parent(s): f04438b

initial commit

Browse files

Files changed (20) hide show

app.py +3 -0
finetuned/config.json +41 -0
finetuned/generation_config.json +7 -0
finetuned/model.safetensors +3 -0
funcs/__pycache__/nastya_funcs.cpython-310.pyc +0 -0
funcs/__pycache__/sasha_funcs.cpython-310.pyc +0 -0
funcs/nastya_funcs.py +173 -0
funcs/sasha_funcs.py +66 -0
funcs/stopwords-ru.txt +559 -0
images/logo.jpg +0 -0
images/scatter_of_tg_channels.png +0 -0
models/clf_rewievs_bert.pt +3 -0
models/logistic_regression_model.pkl +3 -0
models/logregmodel_restaurants.pkl +3 -0
models/tfidf_vectorizer_restaurants.pkl +3 -0
notebooks/Classification_tg_content.ipynb +0 -0
pages/generator.py +47 -0
pages/restaurants_rewiew.py +19 -0
pages/tg_channels_clf.py +21 -0
requirements.txt +9 -0

app.py ADDED Viewed

	@@ -0,0 +1,3 @@


1	+ import streamlit as st
2	+
3	+ st.title('NLP project of GPT Team')

finetuned/config.json ADDED Viewed

	@@ -0,0 +1,41 @@

+{
+  "_name_or_path": "sberbank-ai/rugpt3small_based_on_gpt2",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 1,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_range": 0.02,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 2048,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 12,
+  "n_positions": 2048,
+  "pad_token_id": 0,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.42.4",
+  "use_cache": true,
+  "vocab_size": 50264
+}

finetuned/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "transformers_version": "4.42.4"
+}

finetuned/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ea4e8802b9588c2b35a233a23febb2bb574c98a04c27cbd31deafc92912a3295
+size 500941440

funcs/__pycache__/nastya_funcs.cpython-310.pyc ADDED Viewed

Binary file (4.47 kB). View file

funcs/__pycache__/sasha_funcs.cpython-310.pyc ADDED Viewed

Binary file (2.02 kB). View file

funcs/nastya_funcs.py ADDED Viewed

	@@ -0,0 +1,173 @@

+import time
+import joblib
+import re
+import string
+import pymorphy3
+import torch
+from transformers import BertModel, BertTokenizer
+from torch import nn
+model_name = "cointegrated/rubert-tiny2"
+tokenizer = BertTokenizer.from_pretrained(model_name)
+bert_model = BertModel.from_pretrained(model_name)
+class MyTinyBERT(nn.Module):
+    def __init__(self):
+        super().__init__()
+        self.bert = bert_model
+        for param in self.bert.parameters():
+            param.requires_grad = False
+        self.linear = nn.Sequential(
+            nn.Linear(312, 256),
+            nn.Sigmoid(),
+            nn.Dropout(),
+            nn.Linear(256, 6)
+        )
+    def forward(self, input_ids, attention_mask=None):
+        # Pass the input_ids and attention_mask to the BERT model
+        bert_out = self.bert(input_ids=input_ids, attention_mask=attention_mask)
+        # Normalize the output from BERT
+        normed_bert_out = nn.functional.normalize(bert_out.last_hidden_state[:, 0, :])
+        # Pass through the linear layer
+        out = self.linear(normed_bert_out)
+        return out
+weights_path = "models/clf_rewievs_bert.pt"
+model = MyTinyBERT()
+model.load_state_dict(torch.load(weights_path, map_location=torch.device('cpu')))
+model.to('cpu')
+# tokenizer = transformers.AutoTokenizer.from_pretrained("cointegrated/rubert-tiny2")
+# bert_model = transformers.AutoModel.from_pretrained("cointegrated/rubert-tiny2")
+# weights_path = "./model_weights.pt"  # Replace with your .pt file path
+# bert_model.load_state_dict(torch.load('models/clf_rewievs_bert.pt', map_location=torch.device('cpu')))
+# bert_model.to('cpu')
+morph = pymorphy3.MorphAnalyzer()
+def lemmatize(text):
+    words = text.split()
+    lem_words = [morph.parse(word)[0].normal_form for word in words]
+    return " ".join(lem_words)
+logreg = joblib.load('models/logregmodel_restaurants.pkl')
+vectorizer = joblib.load('models/tfidf_vectorizer_restaurants.pkl')
+with open(
+    "funcs/stopwords-ru.txt", "r", encoding="utf-8"
+) as file:
+    stop_words = set(file.read().split())
+rating_dict = {
+    1: "Отвратительно",
+    2: "Плохо",
+    3: "Удовлетворительно",
+    4: "Хорошо",
+    5: "Великолепно",}
+emoji_pattern = re.compile(
+    "["
+    "\U0001F600-\U0001F64F"  # Emoticons
+    "\U0001F300-\U0001F5FF"  # Symbols & Pictographs
+    "\U0001F680-\U0001F6FF"  # Transport & Map Symbols
+    "\U0001F1E0-\U0001F1FF"  # Flags (iOS)
+    "\U00002700-\U000027BF"  # Dingbats
+    "\U0001F900-\U0001F9FF"  # Supplemental Symbols and Pictographs
+    "\U00002600-\U000026FF"  # Miscellaneous Symbols
+    "\U00002B50-\U00002B55"  # Miscellaneous Symbols and Pictographs
+    "\U0001FA70-\U0001FAFF"  # Symbols and Pictographs Extended-A
+    "\U0001F700-\U0001F77F"  # Alchemical Symbols
+    "\U0001F780-\U0001F7FF"  # Geometric Shapes Extended
+    "\U0001F800-\U0001F8FF"  # Supplemental Arrows-C
+    "\U0001F900-\U0001F9FF"  # Supplemental Symbols and Pictographs
+    "\U0001FA00-\U0001FA6F"  # Chess Symbols
+    "]+",
+    flags=re.UNICODE,
+)
+def clean(text, stopwords):
+    text = text.lower()  # нижний регистр
+    text = re.sub(r"http\S+", " ", text)  # удаляем ссылки
+    text = re.sub(r"@\w+", " ", text)  # удаляем упоминания пользователей
+    text = re.sub(r"#\w+", " ", text)  # удаляем хэштеги
+    text = re.sub(r"\d+", " ", text)  # удаляем числа
+    text = text.translate(str.maketrans("", "", string.punctuation))
+    text = re.sub(r"<.*?>", " ", text)  #
+    text = re.sub(r"[️«»—]", " ", text)
+    text = re.sub(r"[^а-яё ]", " ", text)
+    text = text.lower()
+    text = emoji_pattern.sub(r"", text)
+    text = " ".join([word for word in text.split() if word not in stopwords])
+    return text
+def predict_review(review):
+    start_time = time.time()
+    # Очистка и лемматизация текста
+    clean_text = clean(review, stop_words)
+    lem_text = lemmatize(clean_text)
+    # Преобразование текста в TF-IDF представление
+    X_new = vectorizer.transform([lem_text])
+    # Предсказание
+    prediction = logreg.predict(X_new)[0]
+    # Проверка допустимости предсказания
+    if prediction not in rating_dict:
+        rating = "Ошибка предсказания"
+    else:
+        rating = rating_dict[prediction]
+    # Измерение времени
+    end_time = time.time()
+    elapsed_time = end_time - start_time
+    print(f"Лейбл: {prediction}")
+    print(f"Оценка отзыва: {rating}")
+    print(f"Затраченное время: {elapsed_time:.6f} seconds")
+    return prediction, rating, elapsed_time
+def preprocess_input(text):
+    inputs = tokenizer(text, return_tensors='pt', max_length=512, truncation=True, padding=True)
+    return inputs
+def predict_bert(text):
+    start_time = time.time()
+    model.eval()
+    inputs = preprocess_input(text)
+    # Move tensors to the correct device if using GPU
+    inputs = {k: v.to('cpu') for k, v in inputs.items()}
+    # Get model predictions
+    with torch.no_grad():
+        outputs = model(input_ids=inputs['input_ids'], attention_mask=inputs['attention_mask'])
+    # Since the output is already logits, no need to access outputs.logits
+    predicted_class = outputs.argmax(dim=-1).item()
+    end_time = time.time()
+    elapsed_time = end_time - start_time
+    return predicted_class, rating_dict[predicted_class], elapsed_time

funcs/sasha_funcs.py ADDED Viewed

	@@ -0,0 +1,66 @@

+import torch
+from transformers import AutoTokenizer, AutoModel
+import numpy as np
+import re
+import string
+import time
+emoji_pattern = re.compile(
+    "["
+    "\U0001F600-\U0001F64F"  # Emoticons
+    "\U0001F300-\U0001F5FF"  # Symbols & Pictographs
+    "\U0001F680-\U0001F6FF"  # Transport & Map Symbols
+    "\U0001F1E0-\U0001F1FF"  # Flags (iOS)
+    "\U00002700-\U000027BF"  # Dingbats
+    "\U0001F900-\U0001F9FF"  # Supplemental Symbols and Pictographs
+    "\U00002600-\U000026FF"  # Miscellaneous Symbols
+    "\U00002B50-\U00002B55"  # Miscellaneous Symbols and Pictographs
+    "\U0001FA70-\U0001FAFF"  # Symbols and Pictographs Extended-A
+    "\U0001F700-\U0001F77F"  # Alchemical Symbols
+    "\U0001F780-\U0001F7FF"  # Geometric Shapes Extended
+    "\U0001F800-\U0001F8FF"  # Supplemental Arrows-C
+    "\U0001F900-\U0001F9FF"  # Supplemental Symbols and Pictographs
+    "\U0001FA00-\U0001FA6F"  # Chess Symbols
+    "]+",
+    flags=re.UNICODE,
+)
+def clean(text):
+    text = text.lower()  # нижний регистр
+    text = re.sub(r"http\S+", " ", text)  # удаляем ссылки
+    text = re.sub(r"@\w+", " ", text)  # удаляем упоминания пользователей
+    text = re.sub(r"#\w+", " ", text)  # удаляем хэштеги
+    text = re.sub(r"\d+", " ", text)  # удаляем числа
+    text = text.translate(str.maketrans("", "", string.punctuation))
+    text = re.sub(r"<.*?>", " ", text)  #
+    text = re.sub(r"[️«»—]", " ", text)
+    text = re.sub(r"[^а-яё ]", " ", text)
+    text = text.lower()
+    text = emoji_pattern.sub(r"", text)
+    return text
+def predict_class(text,model_to_embed, model_to_predict, tokenizer):
+  start_time = time.time()
+  text = clean(text)
+  class_list = ['Крипта', 'Мода', 'Спорт', 'Технологии', 'Финансы']
+  encoded_input = tokenizer(text, max_length=64, truncation=True, padding='max_length', return_tensors='pt')
+  encoded_input = {k: v.to(model_to_embed.device) for k, v in encoded_input.items()}
+  with torch.no_grad():
+      model_output = model_to_embed(**encoded_input)
+  embeddings = model_output.last_hidden_state[:, 0, :]
+  embeddings = torch.nn.functional.normalize(embeddings)
+  embeddings_np = embeddings.cpu().numpy()
+  pred_class = model_to_predict.predict(embeddings_np)
+  pred_proba = model_to_predict.predict_proba(embeddings_np)
+  confidence = np.max(pred_proba)
+  end_time = time.time()
+  elapsed_time = end_time - start_time
+  return f'Predicted class: {class_list[pred_class[0]]}, Confidence: {confidence:.4f}, Time: {round(elapsed_time, 4)}c'

funcs/stopwords-ru.txt ADDED Viewed

	@@ -0,0 +1,559 @@

+c
+а
+алло
+без
+белый
+близко
+более
+больше
+большой
+будем
+будет
+будете
+будешь
+будто
+буду
+будут
+будь
+бы
+бывает
+бывь
+был
+была
+были
+было
+быть
+в
+важная
+важное
+важные
+важный
+вам
+вами
+вас
+ваш
+ваша
+ваше
+ваши
+вверх
+вдали
+вдруг
+ведь
+везде
+вернуться
+весь
+вечер
+взгляд
+взять
+вид
+видел
+видеть
+вместе
+вне
+вниз
+внизу
+во
+вода
+война
+вокруг
+вон
+вообще
+вопрос
+восемнадцатый
+восемнадцать
+восемь
+восьмой
+вот
+впрочем
+времени
+время
+все
+все еще
+всегда
+всего
+всем
+всеми
+всему
+всех
+всею
+всю
+всюду
+вся
+всё
+второй
+вы
+выйти
+г
+где
+главный
+глаз
+говорил
+говорит
+говорить
+год
+года
+году
+голова
+голос
+город
+да
+давать
+давно
+даже
+далекий
+далеко
+дальше
+даром
+дать
+два
+двадцатый
+двадцать
+две
+двенадцатый
+двенадцать
+дверь
+двух
+девятнадцатый
+девятнадцать
+девятый
+девять
+действительно
+дел
+делал
+делать
+делаю
+дело
+день
+деньги
+десятый
+десять
+для
+до
+довольно
+долго
+должен
+должно
+должный
+дом
+дорога
+друг
+другая
+другие
+других
+друго
+другое
+другой
+думать
+душа
+е
+его
+ее
+ей
+ему
+если
+есть
+еще
+ещё
+ею
+её
+ж
+ждать
+же
+жена
+женщина
+жизнь
+жить
+за
+занят
+занята
+занято
+заняты
+затем
+зато
+зачем
+здесь
+земля
+знать
+значит
+значить
+и
+иди
+идти
+из
+или
+им
+имеет
+имел
+именно
+иметь
+ими
+имя
+иногда
+их
+к
+каждая
+каждое
+каждые
+каждый
+кажется
+казаться
+как
+какая
+какой
+кем
+книга
+когда
+кого
+ком
+комната
+кому
+конец
+конечно
+которая
+которого
+которой
+которые
+который
+которых
+кроме
+кругом
+кто
+куда
+лежать
+лет
+ли
+лицо
+лишь
+лучше
+любить
+люди
+м
+маленький
+мало
+мать
+машина
+между
+меля
+менее
+меньше
+меня
+место
+миллионов
+мимо
+минута
+мир
+мира
+мне
+много
+многочисленная
+многочисленное
+многочисленные
+многочисленный
+мной
+мною
+мог
+могу
+могут
+мож
+может
+может быть
+можно
+можхо
+мои
+мой
+мор
+москва
+мочь
+моя
+моё
+мы
+на
+наверху
+над
+надо
+назад
+наиболее
+найти
+наконец
+нам
+нами
+народ
+нас
+начала
+начать
+наш
+наша
+наше
+наши
+не
+него
+недавно
+недалеко
+нее
+ней
+некоторый
+нельзя
+нем
+немного
+нему
+непрерывно
+нередко
+несколько
+нет
+нею
+неё
+ни
+нибудь
+ниже
+низко
+никакой
+никогда
+никто
+никуда
+ним
+ними
+них
+ничего
+ничто
+но
+новый
+нога
+ночь
+ну
+нужно
+нужный
+нх
+о
+об
+оба
+обычно
+один
+одиннадцатый
+одиннадцать
+однажды
+однако
+одного
+одной
+оказаться
+окно
+около
+он
+она
+они
+оно
+опять
+особенно
+остаться
+от
+ответить
+отец
+откуда
+отовсюду
+отсюда
+очень
+первый
+перед
+писать
+плечо
+по
+под
+подойди
+подумать
+пожалуйста
+позже
+пойти
+пока
+пол
+получить
+помнить
+понимать
+понять
+пор
+пора
+после
+последний
+посмотреть
+посреди
+потом
+потому
+почему
+почти
+правда
+прекрасно
+при
+про
+просто
+против
+процентов
+путь
+пятнадцатый
+пятнадцать
+пятый
+пять
+работа
+работать
+раз
+разве
+рано
+раньше
+ребенок
+решить
+россия
+рука
+русский
+ряд
+рядом
+с
+с кем
+сам
+сама
+сами
+самим
+самими
+самих
+само
+самого
+самой
+самом
+самому
+саму
+самый
+свет
+свое
+своего
+своей
+свои
+своих
+свой
+свою
+сделать
+сеаой
+себе
+себя
+сегодня
+седьмой
+сейчас
+семнадцатый
+семнадцать
+семь
+сидеть
+сила
+сих
+сказал
+сказала
+сказать
+сколько
+слишком
+слово
+случай
+смотреть
+сначала
+снова
+со
+собой
+собою
+советский
+совсем
+спасибо
+спросить
+сразу
+стал
+старый
+стать
+стол
+сторона
+стоять
+страна
+суть
+считать
+т
+та
+так
+такая
+также
+таки
+такие
+такое
+такой
+там
+твои
+твой
+твоя
+твоё
+те
+тебе
+тебя
+тем
+теми
+теперь
+тех
+то
+тобой
+тобою
+товарищ
+тогда
+того
+тоже
+только
+том
+тому
+тот
+тою
+третий
+три
+тринадцатый
+тринадцать
+ту
+туда
+тут
+ты
+тысяч
+у
+увидеть
+уж
+уже
+улица
+уметь
+утро
+хороший
+хорошо
+хотел бы
+хотеть
+хоть
+хотя
+хочешь
+час
+часто
+часть
+чаще
+чего
+человек
+чем
+чему
+через
+четвертый
+четыре
+четырнадцатый
+четырнадцать
+что
+чтоб
+чтобы
+чуть
+шестнадцатый
+шестнадцать
+шестой
+шесть
+эта
+эти
+этим
+этими
+этих
+это
+этого
+этой
+этом
+этому
+этот
+эту
+я
+являюсь

images/logo.jpg ADDED Viewed

images/scatter_of_tg_channels.png ADDED Viewed

models/clf_rewievs_bert.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:25fa1b959aaf1db00859f5e7d810f5695ccf591e4c740bb331801082fdf817f8
+size 117124895

models/logistic_regression_model.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5e9beac70aa912c76375182e7691c75101fbbdc66193aa01112f6bfcceebefd2
+size 31647

models/logregmodel_restaurants.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:56b514b2a4a51ed3da58fa4e3a2ad63ed7d1bdc8df43d26a7e3a032097e98117
+size 945743

models/tfidf_vectorizer_restaurants.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2b42710530abefbd8dcc2f6b13c368fd655b2b468e12fe6149a105ec16a087fb
+size 10682830

notebooks/Classification_tg_content.ipynb ADDED Viewed

The diff for this file is too large to render. See raw diff

pages/generator.py ADDED Viewed

	@@ -0,0 +1,47 @@

+import streamlit as st
+import torch
+from transformers import GPT2LMHeadModel, GPT2Tokenizer
+import textwrap
+st.title('GPT2 trained on tg chat')
+model_directory = 'finetuned/'  # Directory where the model is located
+model = GPT2LMHeadModel.from_pretrained(model_directory, use_safetensors=True)
+tokenizer = GPT2Tokenizer.from_pretrained('sberbank-ai/rugpt3small_based_on_gpt2')
+def predict(text, max_len=100, num_beams=10, temperature=1.5, top_p=0.7):
+    with torch.inference_mode():
+        prompt = text
+        prompt = tokenizer.encode(prompt, return_tensors='pt')
+        out = model.generate(
+            input_ids=prompt,
+            max_length=max_len,
+            num_beams=num_beams,
+            do_sample=True,
+            temperature=temperature,
+            top_p=top_p,
+            no_repeat_ngram_size=1,
+            num_return_sequences=1,
+            ).cpu().numpy()
+    return textwrap.fill(tokenizer.decode(out[0]))
+prompt = st.text_input("Твоя фраза")
+col = st.columns(4)
+with col[0]:
+    max_len = st.slider("Text len", 20, 200, 100)
+with col[1]:
+    num_beams = st.slider("Beams", 0.1, 1., 0.5)
+with col[2]:
+    temperature = st.slider("Temperature", 0.1, 0.9, 0.35)
+with col[3]:
+    top_p = st.slider("Top-p", 0.1, 1.0, 0.7)
+    submit = st.button('Сгенерировать ответ')
+if submit:
+    if prompt:
+        pred = predict(prompt, max_len=max_len, num_beams=int(num_beams * 20), temperature=(1-temperature) * 5, top_p=top_p)
+        st.write(pred)

pages/restaurants_rewiew.py ADDED Viewed

	@@ -0,0 +1,19 @@

+import streamlit as st
+from funcs.nastya_funcs import predict_review, predict_bert
+st.title('Restaurant reviews classifier')
+text = st.text_input("Text to classify")
+if text:
+    label, rating, time = predict_review(text)
+    col = st.columns(2)
+    col[0].write('Model: Tf-Idf + LogReg')
+    col[0].write(f"Отзыв: {rating}({label})")
+    col[0].write(f"Затраченное время: {time:.6f}с")
+    cls_name, name, time1 = predict_bert(text)
+    col[1].write('Model: Bert')
+    col[1].write(f"Отзыв: {name}({cls_name})")
+    col[1].write(f"Затраченное время: {time1:.6f}с")

pages/tg_channels_clf.py ADDED Viewed

	@@ -0,0 +1,21 @@

+import streamlit as st
+import joblib
+from transformers import AutoTokenizer, AutoModel
+from funcs.sasha_funcs import predict_class
+st.title('TG channels classifier')
+st.subheader('Model: Bert + LogReg')
+model_clf = joblib.load('models/logistic_regression_model.pkl')
+tokenizer = AutoTokenizer.from_pretrained("DeepPavlov/rubert-base-cased")
+model_bert = AutoModel.from_pretrained("DeepPavlov/rubert-base-cased")
+text = st.text_input("Text to classify")
+if text:
+    st.write(predict_class(text, model_bert, model_clf, tokenizer))
+button = st.button('Show 2 components with Umap Decomposition')
+if button:
+    st.image('images/scatter_of_tg_channels.png', width=500)

requirements.txt ADDED Viewed

	@@ -0,0 +1,9 @@

+streamlit
+Pillow
+torch==2.4.0
+transformers==4.44.0
+torchvision
+matplotlib
+transformers
+joblib
+pymorphy3