Spaces:

cdxxi
/

nlp_gpt_proj

Running

App Files Files Community

cdxxi commited on 7 days ago

Commit

1867879

1 Parent(s): 7b06207

initial commit

Browse files

Files changed (26) hide show

app.py +42 -0
images/53896.jpg +0 -0
images/76320aa1c81ec116b3fec0212d95ed4c.png +0 -0
images/C_M.png +0 -0
images/L_A.png +0 -0
images/LogReg.png +0 -0
images/Struct.png +0 -0
images/grafic.jpg +0 -0
images/myTinyBERT.png +0 -0
images/scale_1200.png +0 -0
models/gpt/config.json +41 -0
models/gpt/generation_config.json +7 -0
models/gpt/merges.txt +0 -0
models/gpt/model.safetensors +3 -0
models/gpt/special_tokens_map.json +37 -0
models/gpt/tokenizer_config.json +59 -0
models/gpt/vocab.json +0 -0
models/model_weight_bert.pt +3 -0
models/rest/__pycache__/model_lstm.cpython-312.pyc +0 -0
models/rest/model_lstm.py +48 -0
models/rest/model_weights_3000cl.pt +3 -0
models/rest/vocab_to_int.npy +3 -0
pages/analysis_of_reviews.py +116 -0
pages/gpt.py +96 -0
pages/tgchannels.py +97 -0
requirements.txt +83 -0

app.py ADDED Viewed

	@@ -0,0 +1,42 @@

+import pandas as pd
+import matplotlib.pyplot as plt
+import streamlit as st
+st.markdown(
+    "<h1 style='text-align: center;'>GPT Team project</h1>",
+    unsafe_allow_html=True
+    )
+st.markdown(
+    """
+    <style>
+        button[title^=Exit]+div [data-testid=stImage]{
+            test-align: center;
+            display: block;
+            margin-left: auto;
+            margin-right: auto;
+            width: 100%;
+        }
+    </style>
+    """, unsafe_allow_html=True
+)
+col1, col2, col3 = st.columns([1, 2, 1])  # Центральная колонка шире остальных
+with col2:
+    st.image('images/76320aa1c81ec116b3fec0212d95ed4c.png', width=500)
+st.markdown("---")
+st.markdown("""
+**Авторы:** [Михаил Бутин](https://github.com/allspicepaege), [Галина Горяинова](https://github.com/ratOfSteel), [Анатолий Яковлев](https://github.com/cdxxi)
+**Описание:**
+- **Главная страница**: Общая информация и навигация 🌏
+- **Первая страница**: Классификация отзыва на рестораны 🍷
+- **Вторая страница**: Бредогенератор 🤪
+- **Третья страница**: Классификация тематики новостей из телеграм каналов 📰 [TGBOT](https://t.me/nlp_rubert_tiny_bot)
+""")

images/53896.jpg ADDED Viewed

images/76320aa1c81ec116b3fec0212d95ed4c.png ADDED Viewed

images/C_M.png ADDED Viewed

images/L_A.png ADDED Viewed

images/LogReg.png ADDED Viewed

images/Struct.png ADDED Viewed

images/grafic.jpg ADDED Viewed

images/myTinyBERT.png ADDED Viewed

images/scale_1200.png ADDED Viewed

models/gpt/config.json ADDED Viewed

	@@ -0,0 +1,41 @@

+{
+  "_name_or_path": "ai-forever/rugpt3small_based_on_gpt2",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 1,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_range": 0.02,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 2048,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 12,
+  "n_positions": 2048,
+  "pad_token_id": 0,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.49.0",
+  "use_cache": true,
+  "vocab_size": 50264
+}

models/gpt/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "transformers_version": "4.49.0"
+}

models/gpt/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

models/gpt/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:35ab0cecc7830d01f87207685d0e56106529f0a76a5d492fadab75381810e11d
+size 500941440

models/gpt/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

models/gpt/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,59 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "<mask>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "model_max_length": 2048,
+  "pad_token": "<pad>",
+  "padding_side": "left",
+  "tokenizer_class": "GPT2Tokenizer",
+  "truncation_side": "left",
+  "trust_remote_code": false,
+  "unk_token": "<unk>"
+}

models/gpt/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

models/model_weight_bert.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dbab0ed274346035c59d70570ec310eccd4bae3a99026bddde54cc1ae13d2745
+size 117123291

models/rest/__pycache__/model_lstm.cpython-312.pyc ADDED Viewed

Binary file (3.63 kB). View file

models/rest/model_lstm.py ADDED Viewed

	@@ -0,0 +1,48 @@

+import streamlit as st
+import torch
+import torch.nn as nn
+from nltk.corpus import stopwords
+from nltk.tokenize import word_tokenize
+import re
+import string
+from collections import Counter
+import numpy as np
+from typing import List
+import time
+# Загрузка предобученной модели
+class BahdanauAttention(nn.Module):
+    def __init__(self, hidden_size: int):
+        super().__init__()
+        self.Wa = nn.Linear(hidden_size, hidden_size)
+        self.Wk = nn.Linear(hidden_size, hidden_size)
+        self.Wv = nn.Linear(hidden_size, 1)
+    def forward(self, query, keys):
+        query = query.unsqueeze(1)  # (batch_size, 1, hidden_size)
+        scores = self.Wv(torch.tanh(self.Wa(query) + self.Wk(keys))).squeeze(2)  # (batch_size, seq_len)
+        attention_weights = torch.softmax(scores, dim=1)  # (batch_size, seq_len)
+        context = torch.bmm(attention_weights.unsqueeze(1), keys).squeeze(1)  # (batch_size, hidden_size)
+        return context, attention_weights
+class LSTM_Word2Vec_Attention(nn.Module):
+    def __init__(self, hidden_size: int, vocab_size: int, embedding_dim: int):
+        super().__init__()
+        self.embedding = nn.Embedding(vocab_size, embedding_dim)
+        self.lstm = nn.LSTM(embedding_dim, hidden_size, batch_first=True)
+        self.attn = BahdanauAttention(hidden_size)
+        self.clf = nn.Sequential(
+            nn.Linear(hidden_size, 128),
+            nn.Dropout(),
+            nn.Tanh(),
+            nn.Linear(128, 3)
+        )
+        self.sigmoid = nn.Sigmoid()
+    def forward(self, x):
+        embedded = self.embedding(x)
+        output, (hidden, _) = self.lstm(embedded)
+        context, attention_weights = self.attn(hidden[-1], output)
+        output = self.clf(context.squeeze(1))
+        output = self.sigmoid(output)
+        return output, attention_weights

models/rest/model_weights_3000cl.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1f16531decf5e481fe8797e7091a99064d96908cb542f9c575bccad8b1154b28
+size 137376

models/rest/vocab_to_int.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6a976c15c580cd058e957ed5d07370eaf0bfa8fe27e683bc566c63e646710fe2
+size 12615

pages/analysis_of_reviews.py ADDED Viewed

	@@ -0,0 +1,116 @@

+import streamlit as st
+import pandas as pd
+import torch
+import torch.nn as nn
+import nltk
+nltk.download('stopwords')
+nltk.download('punkt_tab')
+nltk.download('wordnet')
+from nltk.corpus import stopwords
+from nltk.tokenize import word_tokenize
+stop_words = set(stopwords.words('russian'))
+from nltk.tokenize import word_tokenize
+import re
+import string
+from collections import Counter
+import numpy as np
+from typing import List
+import time
+from models.rest.model_lstm import LSTM_Word2Vec_Attention
+# # Добавление цвета для значений F1-Macro
+def color_high(val):
+    color = 'lightgreen' if val > 0.80 else ''
+    return f'background-color: {color}'
+# Данные для первой таблицы
+data1 = {
+    "Модель": ["Линейная регрессия", "Дерево решений"],
+    "F1-Macro": [0.2235, 0.1688]
+}
+# Данные для второй таблицы
+data2 = {
+    "Модель": ["Линейная регрессия", "Наивный Байес", "Деревья", "XGBoost", "CatBoost"],
+    "F1-Macro": [0.7821, 0.7313, 0.8170, 0.7785, 0.7693]
+}
+# Создание DataFrame
+df1 = pd.DataFrame(data1)
+df2 = pd.DataFrame(data2)
+st.title(":blue[_Классификация отзывов на рестораны_]")
+st.image('images/53896.jpg')
+# Отображение заголовков и таблиц
+st.subheader("Сравнение моделей по метрике F1-Macro")
+st.subheader("Начало. До понимания, что данные хуже чем можно было представить")
+st.table(df1)
+st.subheader("После всего... Работа классических ML-моделей")
+df2 = df2.style.applymap(color_high, subset=['F1-Macro'])
+st.table(df2)
+# Загрузка модели и весов
+@st.cache_data()
+def load_model():
+    hidden_size = 32
+    vocab_size = 310
+    embedding_dim = 50
+    model = LSTM_Word2Vec_Attention(hidden_size, vocab_size, embedding_dim)
+    model.load_state_dict(torch.load('models/rest/model_weights_3000cl.pt', map_location=torch.device('cpu')))
+    model.eval()
+    return model
+model = load_model()
+# Предобработка текста
+def preprocess_text(text: str) -> List[str]:
+    text = text.lower()
+    text = re.sub(r'<.*?>', '', text)
+    text = re.sub(r"[…–”—]", "", text)
+    text = re.sub(r'\d+', '', text)
+    text = re.sub(r'\b[a-zA-Z]+\b', '', text)
+    text = re.sub(r'\s+', ' ', text).strip()
+    text = ''.join([c for c in text if c not in string.punctuation])
+    tokens = word_tokenize(text, language='russian')
+    tokens = [word for word in tokens if word not in stopwords.words('russian')]
+    return tokens
+# Словарь
+# Предположим, что у вас есть словарь, который вы использовали для обучения модели
+vocab_to_int = np.load('models/rest/vocab_to_int.npy', allow_pickle=True).item()
+# Функция для преобразования текста в индексы
+def text_to_indices(text: str) -> torch.Tensor:
+    tokens = preprocess_text(text)
+    indices = [vocab_to_int.get(token, 0) for token in tokens]  # 0 для неизвестных слов
+    return torch.tensor([indices[:200] + [0]*(200 - len(indices))])  # Пэддинг до 200
+st.title("Классификация отзывов о ресторанах")
+st.image('images/grafic.jpg')
+review = st.text_area("Введите ваш отзыв о ресторане:")
+if st.button("Предсказать"):
+    if review.strip() == "":
+        st.write("Пожалуйста, введите отзыв.")
+    else:
+        start_time = time.time()
+        input_data = text_to_indices(review)
+        with torch.no_grad():
+            output, attention_weights = model(input_data)
+        prediction = torch.argmax(output, dim=1).item()
+        end_time = time.time()
+        elapsed_time = end_time - start_time
+        st.write(f"Предсказанный класс: {prediction} (Положительный: 2, Отрицательный: 1, Нейтральный: 0)")
+        st.write(f"Время предсказания: {elapsed_time:.3f} секунд")

pages/gpt.py ADDED Viewed

	@@ -0,0 +1,96 @@

+import streamlit as st
+from transformers import AutoTokenizer, AutoModelForCausalLM
+import torch
+# Загрузка модели и токенизатора
+@st.cache_resource
+def load_model():
+    model_name = "models/gpt"
+    tokenizer = AutoTokenizer.from_pretrained(model_name)
+    model = AutoModelForCausalLM.from_pretrained(model_name)
+    return model, tokenizer
+def generate_text(model, tokenizer, prompt, gen_params):
+    inputs = tokenizer(prompt, return_tensors="pt")
+    with torch.no_grad():
+        outputs = model.generate(
+            inputs.input_ids,
+            max_length=gen_params['max_length'],
+            temperature=gen_params['temperature'],
+            top_k=gen_params['top_k'],
+            top_p=gen_params['top_p'],
+            num_return_sequences=gen_params['num_return_sequences'],
+            do_sample=True,
+            pad_token_id=tokenizer.eos_token_id
+        )
+    generated = []
+    for i, output in enumerate(outputs):
+        text = tokenizer.decode(output, skip_special_tokens=True)
+        generated.append(f"Генерация {i+1}:\n{text}\n{'-'*50}")
+    return generated
+def main():
+    st.markdown(
+    "<h1 style='text-align: center;'>Генератор текста</h1>",
+    unsafe_allow_html=True
+    )
+    st.markdown(
+    "<h3 style='text-align: center;'>(ну почти)</h3>",
+    unsafe_allow_html=True
+    )
+    st.markdown("---")
+    col1, col2, col3 = st.columns([1, 2, 1])
+    with col2:
+        st.image('images/scale_1200.png', width=500)
+    # Загрузка модели
+    model, tokenizer = load_model()
+    # Параметры генерации
+    with st.sidebar:
+        st.header("Настройки генерации")
+        prompt = st.text_area("Введите начальный текст:", height=100)
+        max_length = st.slider("Максимальная длина:", 50, 500, 100)
+        num_return_sequences = st.slider("Число генераций:", 1, 5, 1)
+        st.subheader("Параметры выборки:")
+        sampling_method = st.radio("Метод:", ["Temperature", "Top-k & Top-p"])
+        if sampling_method == "Temperature":
+            temperature = st.slider("Temperature:", 0.1, 2.0, 1.0, 0.1)
+            top_k = None
+            top_p = None
+        else:
+            temperature = 1.0
+            top_k = st.slider("Top-k:", 1, 100, 50)
+            top_p = st.slider("Top-p:", 0.1, 1.0, 0.9, 0.05)
+    # Кнопка генерации
+    if st.sidebar.button("Сгенерировать текст"):
+        if not prompt:
+            st.warning("Введите начальный текст!")
+            return
+        gen_params = {
+            'max_length': max_length,
+            'temperature': temperature,
+            'top_k': top_k,
+            'top_p': top_p,
+            'num_return_sequences': num_return_sequences
+        }
+        with st.spinner("Прибухиваем..."):
+            generated = generate_text(model, tokenizer, prompt, gen_params)
+        st.markdown("---")
+        st.subheader("Результаты:")
+        for text in generated:
+            st.text_area(label="", value=text, height=200)
+if __name__ == "__main__":
+    main()

pages/tgchannels.py ADDED Viewed

	@@ -0,0 +1,97 @@

+import streamlit as st
+from transformers import AutoTokenizer, AutoModel
+import torch
+from torch import nn
+# Загрузка модели и токенизатора (кешируем для ускорения)
+@st.cache_resource
+def load_model():
+    MODEL_NAME = "cointegrated/rubert-tiny2"
+    model = AutoModel.from_pretrained(MODEL_NAME, num_labels=5)
+    tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
+    return model, tokenizer
+PATH = "models/model_weight_bert.pt"
+class MyTinyBERT(nn.Module):
+    def __init__(self, model):
+        super().__init__()
+        self.bert = model
+        for param in self.bert.parameters():
+            param.requires_grad = False
+        self.linear = nn.Sequential(
+            nn.Linear(312, 256), nn.Dropout(0.3), nn.ReLU(), nn.Linear(256, 5)
+        )
+    def forward(self, input_ids, attention_mask):
+        bert_out = self.bert(input_ids=input_ids, attention_mask=attention_mask)
+        normed_bert_out = bert_out.last_hidden_state[:, 0, :]
+        out = self.linear(normed_bert_out)
+        return out
+def classification_myBERT(text, model, tokenizer):
+    model = MyTinyBERT(model)
+    model.load_state_dict(torch.load(PATH, weights_only=True))
+    model.eval()
+    my_classes = {0: "Крипта", 1: "Мода", 2: "Спорт", 3: "Технологии", 4: "Финансы"}
+    t = tokenizer(text, padding=True, truncation=True, return_tensors="pt")
+    return f'Хоть я и не ChatGPT, осмелюсь предположить, что данный текст относится к следующему классу:\n{my_classes[torch.argmax(model(t["input_ids"], t["attention_mask"])).item()]}'
+# Интерфейс Streamlit
+def main():
+    st.markdown(
+        "<h1 style='text-align: center;'>Классификация тематики новостей из телеграм каналов.</h1>",
+        unsafe_allow_html=True,
+    )
+    st.markdown("---")
+    col1, col2, col3 = st.columns([1, 8, 1])  # Центральная колонка шире остальных
+    with col2:
+        st.markdown(
+            "<h5 style='text-align: center;'>Использование классического алгоритма</h5>",
+            unsafe_allow_html=True,
+        )
+        # st.text("Использование классического алгоритма")
+        st.image("./images/Struct.png", width=500)
+        st.image("./images/L_A.png", width=800)
+        st.image("./images/C_M.png", width=800)
+        st.markdown(
+            "<h5 style='text-align: center;'>Стандартный rubert_tiny2</h5>",
+            unsafe_allow_html=True,
+        )
+        # st.text("Использование классического алгоритма")
+        st.image("./images/LogReg.png", width=800)
+        st.markdown(
+            "<h5 style='text-align: center;'>rubert_tiny2 с обучаемым fc слоем</h5>",
+            unsafe_allow_html=True,
+        )
+        # st.text("Использование классического алгоритма")
+        st.image("./images/myTinyBERT.png", width=800)
+    # Загрузка модели
+    model, tokenizer = load_model()
+    # Параметры генерации
+    with st.sidebar:
+        st.header("Настройки генерации")
+        prompt = st.text_area("Введите начальный текст:", height=100)
+    # Кнопка генерации
+    if st.sidebar.button("Сгенерировать текст"):
+        if not prompt:
+            st.warning("Введите начальный текст!")
+            return
+        st.subheader("Результаты:")
+        st.text(classification_myBERT(prompt, model, tokenizer))
+if __name__ == "__main__":
+    main()

requirements.txt ADDED Viewed

	@@ -0,0 +1,83 @@

+altair==5.5.0
+attrs==25.1.0
+blinker==1.9.0
+cachetools==5.5.2
+certifi==2025.1.31
+charset-normalizer==3.4.1
+click==8.1.8
+contourpy==1.3.1
+cycler==0.12.1
+filelock==3.17.0
+fonttools==4.56.0
+fsspec==2025.2.0
+gitdb==4.0.12
+GitPython==3.1.44
+huggingface-hub==0.29.1
+idna==3.10
+Jinja2==3.1.5
+joblib==1.4.2
+jsonschema==4.23.0
+jsonschema-specifications==2024.10.1
+kiwisolver==1.4.8
+markdown-it-py==3.0.0
+MarkupSafe==3.0.2
+matplotlib==3.10.0
+mdurl==0.1.2
+mpmath==1.3.0
+narwhals==1.27.1
+networkx==3.4.2
+nltk==3.9.1
+numpy==2.2.3
+nvidia-cublas-cu12==12.4.5.8
+nvidia-cuda-cupti-cu12==12.4.127
+nvidia-cuda-nvrtc-cu12==12.4.127
+nvidia-cuda-runtime-cu12==12.4.127
+nvidia-cudnn-cu12==9.1.0.70
+nvidia-cufft-cu12==11.2.1.3
+nvidia-curand-cu12==10.3.5.147
+nvidia-cusolver-cu12==11.6.1.9
+nvidia-cusparse-cu12==12.3.1.170
+nvidia-cusparselt-cu12==0.6.2
+nvidia-nccl-cu12==2.21.5
+nvidia-nvjitlink-cu12==12.4.127
+nvidia-nvtx-cu12==12.4.127
+packaging==24.2
+pandas==2.2.3
+pillow==11.1.0
+pip==25.0.1
+protobuf==5.29.3
+pyarrow==19.0.1
+pydeck==0.9.1
+Pygments==2.19.1
+pyparsing==3.2.1
+python-dateutil==2.9.0.post0
+pytz==2025.1
+PyYAML==6.0.2
+referencing==0.36.2
+regex==2024.11.6
+requests==2.32.3
+rich==13.9.4
+rpds-py==0.23.0
+safetensors==0.5.2
+scikit-learn==1.6.1
+scipy==1.15.2
+seaborn==0.13.2
+setuptools==75.8.0
+six==1.17.0
+smmap==5.0.2
+streamlit==1.42.2
+sympy==1.13.1
+tenacity==9.0.0
+threadpoolctl==3.5.0
+tokenizers==0.21.0
+toml==0.10.2
+torch==2.6.0
+tornado==6.4.2
+tqdm==4.67.1
+transformers==4.49.0
+triton==3.2.0
+typing_extensions==4.12.2
+tzdata==2025.1
+urllib3==2.3.0
+watchdog==6.0.0
+wheel==0.45.1