Spaces:

alizhgir
/

find-my-book

Sleeping

App Files Files Community

alizhgir commited on Dec 15, 2023

Commit

0024afc

•

1 Parent(s): 442d2f1

init commit

Browse files

Files changed (6) hide show

Main.py +39 -0
model/bert.py +45 -0
pages/Recommend_page.py +67 -0
pages/Results.py +12 -0
parsing.ipynb +177 -0
requirements.txt +62 -0

Main.py ADDED Viewed

	@@ -0,0 +1,39 @@

+import streamlit as st
+st.header("""
+ Проект по рекомендациям книг различного жанра📚
+""", divider='blue')
+st.info("### Только на этом сервисе ты сможешь найти лучший аналог своей любимой книги🔝")
+st.image('images/preview_image.png', caption='Картинка сгенерирована DALL-E')
+st.write("""
+ ### Уникальный состав команды:
+ \n- ##### Алиса Жгир 💥
+ \n- ##### Тигран Арутюнян 💥
+ \n- ##### Руслан Волощенко 💥
+""")
+st.info("""
+  ### Цель проекта:
+  \n- ##### Построить алгоритм RecSys, способный предлагать пользователю лучшие рекомендации, \
+  отталкиваясь от его предпочтений, желаний и настроения.
+""")
+st.info("""
+ ### Задачи:
+ \n- ##### Построить алгоритм парсинга информации с книжного сайта ✅
+ \n- ##### Полученные данные очистить и сделать рабочий Dataset ✅
+ \n- ##### Создать RecSys, способную делать релеватные рекомендации для конкретного пользователя ✅
+ \n- ##### Построить Streamlit приложение для общедоступного пользования ✅
+""")
+st.info("""
+ ### Используемые технологии (Стек проекта):
+ \n- ##### Python
+ \n- ##### Языковая модель ruBERT-tiny
+ \n- ##### Библиотеки: BeautifulSoup4, Sentence Transformers, faiss, transformers и др.
+ \n- ##### Cosine similarity для рекомендаций
+ \n- ##### Hugging Face & Streamlit
+""")

model/bert.py ADDED Viewed

	@@ -0,0 +1,45 @@

+import pandas as pd
+import numpy as np
+import torch
+import faiss
+from transformers import AutoTokenizer, AutoModel
+weight = "cointegrated/rubert-tiny2"
+tokenizer = AutoTokenizer.from_pretrained(weight)
+model = AutoModel.from_pretrained(weight)
+vectors_annotation = np.load('datasets/annotation_embeddings2.npy')
+data_frame = pd.read_csv('datasets/cleaned_final_books.csv')
+MAX_LEN = 512
+faiss_index = faiss.IndexFlatL2(312)
+faiss_index.add(vectors_annotation)
+def recommend(text, top_k):
+    tokenized_text = tokenizer.encode(text, add_special_tokens=True, truncation=True, max_length=MAX_LEN)
+    tokenized_text = torch.tensor(tokenized_text).unsqueeze(0)
+    with torch.inference_mode():
+        predict = model(tokenized_text)
+        vector = predict[0][:, 0, :].squeeze().cpu().numpy()
+    vector = np.array([vector])
+    value_metrics, index = faiss_index.search(vector, k=top_k)
+    recommend_books = data_frame.iloc[index.reshape(top_k,)][['category_name', 'author', 'title', 'age', 'annotation']].reset_index(drop=True)
+    recommend_books = recommend_books.rename({'category_name': 'Жанр', 'author': 'Автор', 'title': 'Название книги', \
+                                              'age': 'Возрастное ограничение', 'annotation': 'Аннотация'}, axis=1)
+    return recommend_books

pages/Recommend_page.py ADDED Viewed

	@@ -0,0 +1,67 @@

+import streamlit as st
+import pandas as pd
+import numpy as np
+import time
+import base64
+import requests
+from PIL import Image
+from io import BytesIO
+from model.bert import recommend
+list_genre = ['Классическая литература', 'Современная проза', 'Отечественные детективы',
+              'Зарубежные детективы', 'Иронические детективы', 'Отечественная фантастика', 'Зарубежная фантастика',
+              'Отечественное фэнтези', 'Зарубежное фэнтези', 'Ужасы', 'Фантастический боевик',
+              'Российские любовные романы', 'Зарубежные любовные романы', 'Поэзия', 'Драматургия',
+              'Публицистика', 'Биографии', 'Мемуары', 'Исторические романы', 'Комисксы и манга', 'Юмор',
+              'Афоризмы и цитаты', 'Мифы легенды эпос', 'Сказки', 'Пословицы поговорки загадки', 'Прочие издания', 'Другое']
+st.header("""
+ Рекомендательная модель🤖
+""", divider='blue')
+st.info("""
+ - ##### Именно здесь вы сможете получить ТОП-рекомендаций под ваши предпочтения и желания🔝
+ \n- ##### Вам предстоит лишь сделать краткое описание книги, которую вы хотели бы прочитать, и выбрать некоторые параметры поиска⚙️
+""")
+st.image('images/recsys_image.png', caption='Картинка сгенерирована DALL-E')
+st.write("""
+  - ### Выбор параметров поиска:
+""")
+text_users = st.text_input('**Пожалуйста, опишите ваши предпочтения по выбору книги (какой она должна быть):**')
+genre_book = st.selectbox('**Пожалуйста, укажите жанр книги:**', list_genre)
+author = st.text_input('**Пожалуйста, укажите имя автора, если для вас это важно (❗НЕОБЯЗАТЕЛЬНО):**')
+count_recommended = st.slider('**Пожалуйста, укажите какое количество рекомендаций Вы хотите получить:**', min_value=1, max_value=10, value=5)
+push_button = st.button('**Получить рекомендации >>>**', type='primary')
+start_time = time.time()
+if push_button:
+    recommend_book = recommend(text_users, count_recommended)
+    st.write(f"""
+     #### Модель нашла лучшие рекомендации для Вас🎉 :
+     \n- ##### Это заняло всего {round(time.time() - start_time, 3)} сек.
+    """)
+    st.table(recommend_book)
+    time.sleep(3)
+    with st.sidebar:
+        st.info("""
+         #### Понравились ли Вам наши рекомендации?
+        """)
+        col1, col2 = st.columns(2)
+        with col1:
+            st.button('**Да, очень**🔥', type='primary')
+        with col2:
+            st.button('**Нет,можно лучше**👎🏻', type='primary')

pages/Results.py ADDED Viewed

	@@ -0,0 +1,12 @@

+import streamlit as st
+st.write("""
+ # Итоги и результаты работы по проекту🔥
+""")
+st.info("""
+ #### История о том, как мы знали, что BERT выиграет гонку, но решили использовать все существующие инструменты для векторизации текста.
+""")

parsing.ipynb ADDED Viewed

	@@ -0,0 +1,177 @@

+{
+  "nbformat": 4,
+  "nbformat_minor": 0,
+  "metadata": {
+    "colab": {
+      "provenance": []
+    },
+    "kernelspec": {
+      "name": "python3",
+      "display_name": "Python 3"
+    },
+    "language_info": {
+      "name": "python"
+    }
+  },
+  "cells": [
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "id": "Rfoz1Nim_nx_"
+      },
+      "outputs": [],
+      "source": [
+        "from bs4 import BeautifulSoup\n",
+        "import lxml\n",
+        "import xml.etree.ElementTree as ET\n",
+        "import csv\n",
+        "import pandas as pd\n",
+        "import requests\n",
+        "from bs4 import BeautifulSoup, element\n",
+        "import pandas as pd\n",
+        "import csv\n",
+        "from bs4 import element\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "def get_book_links(category_id, base_url=\"https://www.biblio-globus.ru/catalog/category?id=\"):\n",
+        "    \"\"\"Извлекает ссылки на книги из категории с указанным id.\"\"\"\n",
+        "    page_number = 1\n",
+        "\n",
+        "    while True:\n",
+        "        url = f\"{base_url}{category_id}&page={page_number}\"\n",
+        "        response = requests.get(url)\n",
+        "        soup = BeautifulSoup(response.text, 'html.parser')\n",
+        "\n",
+        "        # Извлечение ссылок на книги\n",
+        "        links = soup.find_all('a', class_='img_link')\n",
+        "        if not links:\n",
+        "            print(f\"Сканирование category_id {category_id} page_number {page_number} завершено.\")\n",
+        "            break  # Выход из цикла, если страница не содержит ссылок\n",
+        "\n",
+        "        for link in links:\n",
+        "            book_link = link.get('href')\n",
+        "            if book_link and book_link.startswith('/product/'):\n",
+        "                full_link = f\"https://www.biblio-globus.ru{book_link}\"\n",
+        "                # Запись в CSV-файл\n",
+        "                with open('book_links.csv', 'a', newline='', encoding='utf-8') as file:\n",
+        "                    writer = csv.writer(file)\n",
+        "                    writer.writerow([full_link])\n",
+        "\n",
+        "        page_number += 1\n",
+        "\n",
+        "categories = [226, 227, 241, 242, 248, 250, 251, 6168, 6169, 6170, 6171, 262, 263, 6173, 6174, 6176, 6177, 6178, 6179, 6180, 6181, 6182, 6183, 6184, 6186, 6187, 6188, 6189]  # Добавьте остальные категории по необходимости\n",
+        "\n",
+        "# Создание заголовка CSV-файла\n",
+        "with open('book_links.csv', 'w', newline='', encoding='utf-8') as file:\n",
+        "    writer = csv.writer(file)\n",
+        "    writer.writerow(['book_link'])\n",
+        "\n",
+        "# Получение ссылок для каждой категории\n",
+        "for category in categories:\n",
+        "    get_book_links(category)"
+      ],
+      "metadata": {
+        "colab": {
+          "base_uri": "https://localhost:8080/"
+        },
+        "id": "_sl6wNU5SzEI",
+        "outputId": "ca837e22-8919-4066-b2da-b376697c9971"
+      },
+      "execution_count": 21,
+      "outputs": [
+        {
+          "output_type": "stream",
+          "name": "stdout",
+          "text": [
+            "Сканирование category_id 226 page_number 151 завершено.\n",
+            "Сканирование category_id 227 page_number 413 завершено.\n",
+            "Сканирование category_id 241 page_number 90 завершено.\n",
+            "Сканирование category_id 242 page_number 99 завершено.\n",
+            "Сканирование category_id 248 page_number 5 завершено.\n",
+            "Сканирование category_id 250 page_number 89 завершено.\n",
+            "Сканирование category_id 251 page_number 96 завершено.\n",
+            "Сканирование category_id 6168 page_number 33 завершено.\n",
+            "Сканирование category_id 6169 page_number 34 завершено.\n",
+            "Сканирование category_id 6170 page_number 9 завершено.\n",
+            "Сканирование category_id 6171 page_number 13 завершено.\n",
+            "Сканирование category_id 262 page_number 12 завершено.\n",
+            "Сканирование category_id 263 page_number 16 завершено.\n",
+            "Сканирование category_id 6173 page_number 32 завершено.\n",
+            "Сканирование category_id 6174 page_number 3 завершено.\n",
+            "Сканирование category_id 6176 page_number 4 завершено.\n",
+            "Сканирование category_id 6177 page_number 18 завершено.\n",
+            "Сканирование category_id 6178 page_number 10 завершено.\n",
+            "Сканирование category_id 6179 page_number 1 завершено.\n",
+            "Сканирование category_id 6180 page_number 1 завершено.\n",
+            "Сканирование category_id 6181 page_number 8 завершено.\n",
+            "Сканирование category_id 6182 page_number 35 завершено.\n",
+            "Сканирование category_id 6183 page_number 4 завершено.\n",
+            "Сканирование category_id 6184 page_number 3 завершено.\n",
+            "Сканирование category_id 6186 page_number 6 завершено.\n",
+            "Сканирование category_id 6187 page_number 64 завершено.\n",
+            "Сканирование category_id 6188 page_number 73 завершено.\n",
+            "Сканирование category_id 6189 page_number 3 завершено.\n"
+          ]
+        }
+      ]
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "def scrape_book_data(url):\n",
+        "    collect = []\n",
+        "    response = requests.get(url)\n",
+        "    soup = BeautifulSoup(response.text, 'html.parser')\n",
+        "    content = {\n",
+        "        'image': soup.find('meta', property=\"og:image\")['content'] if soup.find('meta', property=\"og:image\") else '',\n",
+        "        'author': soup.find('meta', property=\"og:book:author\")['content'] if soup.find('meta', property=\"og:book:author\") else '',\n",
+        "        'title': soup.find('meta', property=\"og:title\")['content'] if soup.find('meta', property=\"og:title\") else '',\n",
+        "        'annotation': soup.find('div', {\"class\": \"collapse\", \"id\": \"collapseExample\"}) if soup.find('div', {\"class\": \"collapse\", \"id\": \"collapseExample\"}) else ''\n",
+        "    }\n",
+        "\n",
+        "    if content['annotation'] != '' and content['annotation'].children:\n",
+        "        for el in content['annotation'].children:\n",
+        "            if isinstance(el, element.Tag):\n",
+        "                el.decompose()\n",
+        "    collect.append(url)\n",
+        "    collect.append(content['image'])\n",
+        "    collect.append(content['title'])\n",
+        "    collect.append(content['author'])\n",
+        "    collect.append(content['annotation'].get_text(strip=True) if content['annotation'] != '' else '')\n",
+        "    return collect\n",
+        "\n",
+        "# Загрузка списка URL из файла\n",
+        "urls_df = pd.read_csv('book_links(1).csv')\n",
+        "\n",
+        "# Открытие файла для записи результатов\n",
+        "with open('books.csv', 'w', newline='', encoding='utf-8') as csvfile:\n",
+        "    writer = csv.writer(csvfile, escapechar='\\\\', quoting=csv.QUOTE_MINIMAL)\n",
+        "    writer.writerow(['page_url', 'image_url', 'author', 'title', 'annotation'])\n",
+        "\n",
+        "    for index, row in urls_df.iterrows():\n",
+        "        book_data = scrape_book_data(row['book_link'])\n",
+        "        writer.writerow(book_data)\n",
+        "        print(f\"Информация о книге: {row['book_link']} записана в файл books.csv\")\n",
+        "\n"
+      ],
+      "metadata": {
+        "id": "8U8VSC8KTONT"
+      },
+      "execution_count": 23,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [],
+      "metadata": {
+        "id": "TAxdA0XLTVhg"
+      },
+      "execution_count": 22,
+      "outputs": []
+    }
+  ]
+}

requirements.txt ADDED Viewed

	@@ -0,0 +1,62 @@

+altair==5.2.0
+attrs==23.1.0
+blinker==1.7.0
+cachetools==5.3.2
+certifi==2023.11.17
+charset-normalizer==3.3.2
+click==8.1.7
+faiss-cpu==1.7.4
+filelock==3.13.1
+fsspec==2023.12.2
+gitdb==4.0.11
+GitPython==3.1.40
+huggingface-hub==0.19.4
+idna==3.6
+importlib-metadata==6.11.0
+Jinja2==3.1.2
+joblib==1.3.2
+jsonschema==4.20.0
+jsonschema-specifications==2023.11.2
+markdown-it-py==3.0.0
+MarkupSafe==2.1.3
+mdurl==0.1.2
+mpmath==1.3.0
+networkx==3.2.1
+numpy==1.26.2
+packaging==23.2
+pandas==2.1.4
+Pillow==10.1.0
+protobuf==4.25.1
+pyarrow==14.0.1
+pydeck==0.8.1b0
+Pygments==2.17.2
+python-dateutil==2.8.2
+pytz==2023.3.post1
+PyYAML==6.0.1
+referencing==0.32.0
+regex==2023.10.3
+requests==2.31.0
+rich==13.7.0
+rpds-py==0.13.2
+safetensors==0.4.1
+scikit-learn==1.3.2
+scipy==1.11.4
+six==1.16.0
+smmap==5.0.1
+streamlit==1.29.0
+sympy==1.12
+tenacity==8.2.3
+threadpoolctl==3.2.0
+tokenizers==0.15.0
+toml==0.10.2
+toolz==0.12.0
+torch==2.1.1
+tornado==6.4
+tqdm==4.66.1
+transformers==4.36.1
+typing_extensions==4.9.0
+tzdata==2023.3
+tzlocal==5.2
+urllib3==2.1.0
+validators==0.22.0
+zipp==3.17.0