Spaces:

alizhgir
/

find-my-book

Running

App Files Files Community

alizhgir commited on Dec 15, 2023

Commit

6b534e9

•

1 Parent(s): 097cd3a

upadte 14:30 15.12

Browse files

Files changed (7) hide show

.DS_Store +0 -0
.gitignore +1 -0
Main.py +16 -8
datasets/{cleaned_final_books.csv → final_dataset.csv} +2 -2
model/bert.py +18 -12
pages/Recommend_page.py +45 -10
requirements.txt +1 -0

.DS_Store CHANGED Viewed

Binary files a/.DS_Store and b/.DS_Store differ

.gitignore ADDED Viewed

	@@ -0,0 +1 @@


1	+ .DS_Store

Main.py CHANGED Viewed

@@ -1,5 +1,13 @@
 import streamlit as st
 st.header("""
  Проект по рекомендациям книг различного жанра📚
@@ -10,9 +18,9 @@ st.image('images/preview_image.png', caption='Картинка сгенерир
 st.write("""
  ### Уникальный состав команды:
- \n- ##### Алиса Жгир 💥
- \n- ##### Тигран Арутюнян 💥
- \n- ##### Руслан Волощенко 💥
 """)
 st.info("""
@@ -23,17 +31,17 @@ st.info("""
 st.info("""
  ### Задачи:
- \n- ##### Построить алгоритм парсинга информации с книжного сайта ✅
- \n- ##### Полученные данные очистить и сделать рабочий Dataset ✅
- \n- ##### Создать RecSys, способную делать релеватные рекомендации для конкретного пользователя ✅
- \n- ##### Построить Streamlit приложение для общедоступного пользования ✅
 """)
 st.info("""
  ### Используемые технологии (Стек проекта):
  \n- ##### Python
  \n- ##### Языковая модель ruBERT-tiny
- \n- ##### Библиотеки: BeautifulSoup4, Sentence Transformers, faiss, transformers и др.
  \n- ##### Cosine similarity для рекомендаций
  \n- ##### Hugging Face & Streamlit
 """)

 import streamlit as st
+from st_pages import Page, show_pages
+show_pages(
+    [
+        Page("main.py", "Home page"),
+        Page('pages/Recommend_page.py', 'Recommend page'),
+        Page('pages/Results.py', 'Results page')
+    ]
+)
 st.header("""
  Проект по рекомендациям книг различного жанра📚
 st.write("""
  ### Уникальный состав команды:
+ \n- ##### Алиса Жгир
+ \n- ##### Тигран Арутюнян
+ \n- ##### Руслан Волощенко
 """)
 st.info("""
 st.info("""
  ### Задачи:
+ \n- ##### Построить алгоритм парсинга информации с книжного сайта
+ \n- ##### Полученные данные очистить и сделать рабочий Dataset
+ \n- ##### Создать RecSys, способную делать релеватные рекомендации для конкретного пользователя
+ \n- ##### Построить Streamlit приложение для общедоступного пользования
 """)
 st.info("""
  ### Используемые технологии (Стек проекта):
  \n- ##### Python
  \n- ##### Языковая модель ruBERT-tiny
+ \n- ##### Библиотеки: BeautifulSoup4, Sentence Transformers, faiss, transformers, genim и др.
  \n- ##### Cosine similarity для рекомендаций
  \n- ##### Hugging Face & Streamlit
 """)

datasets/{cleaned_final_books.csv → final_dataset.csv} RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:38f44e078bf054ba110c343e91c9b5737012aa6361519740098fdf5a826fb93f
-size 16930385

 version https://git-lfs.github.com/spec/v1
+oid sha256:c228edb51b93b9c40af0751a3ad330ee70e72c4bcca247793279236e1e52883e
+size 16996733

model/bert.py CHANGED Viewed

@@ -6,13 +6,21 @@ import faiss
 from transformers import AutoTokenizer, AutoModel
-weight = "cointegrated/rubert-tiny2"
-tokenizer = AutoTokenizer.from_pretrained(weight)
-model = AutoModel.from_pretrained(weight)
 vectors_annotation = np.load('datasets/annotation_embeddings2.npy')
-data_frame = pd.read_csv('datasets/cleaned_final_books.csv')
 MAX_LEN = 512
@@ -21,24 +29,22 @@ faiss_index = faiss.IndexFlatL2(312)
 faiss_index.add(vectors_annotation)
-def recommend(text, top_k):
-    tokenized_text = tokenizer.encode(text, add_special_tokens=True, truncation=True, max_length=MAX_LEN)
     tokenized_text = torch.tensor(tokenized_text).unsqueeze(0)
     with torch.inference_mode():
         predict = model(tokenized_text)
-        vector = predict[0][:, 0, :].squeeze().cpu().numpy()
-    vector = np.array([vector])
     value_metrics, index = faiss_index.search(vector, k=top_k)
-    recommend_books = data_frame.iloc[index.reshape(top_k,)][['category_name', 'author', 'title', 'age', 'annotation']].reset_index(drop=True)
-    recommend_books = recommend_books.rename({'category_name': 'Жанр', 'author': 'Автор', 'title': 'Название книги', \
-                                              'age': 'Возрастное ограничение', 'annotation': 'Аннотация'}, axis=1)
-    return recommend_books

 from transformers import AutoTokenizer, AutoModel
+CHECKPOINT = "cointegrated/rubert-tiny2"
+tokenizer = AutoTokenizer.from_pretrained(CHECKPOINT)
+model = AutoModel.from_pretrained(CHECKPOINT)
 vectors_annotation = np.load('datasets/annotation_embeddings2.npy')
+data_frame = pd.read_csv('datasets/final_dataset.csv')
+data_frame = pd.DataFrame({
+    'Cсылка на книгу': data_frame['page_url'],
+    'Обложка': data_frame['image_url'],
+    'Инфо': data_frame[['category_name', 'age', 'title', 'author']].agg(', '.join, axis=1),
+    'Аннотация': data_frame['annotation']
+})
 MAX_LEN = 512
 faiss_index.add(vectors_annotation)
+def recommend(query: str, top_k: int) -> pd.DataFrame:
+    tokenized_text = tokenizer.encode(query, add_special_tokens=True, truncation=True, max_length=MAX_LEN)
     tokenized_text = torch.tensor(tokenized_text).unsqueeze(0)
     with torch.inference_mode():
         predict = model(tokenized_text)
+        vector = np.array([predict[0][:, 0, :].squeeze().cpu().numpy()])
     value_metrics, index = faiss_index.search(vector, k=top_k)
+    value_metrics = np.round(value_metrics.reshape(top_k, ))
+    recommend_books = data_frame.iloc[index.reshape(top_k, ), 1:].reset_index(drop=True)
+    return recommend_books, value_metrics

pages/Recommend_page.py CHANGED Viewed

@@ -10,7 +10,7 @@ from io import BytesIO
 from model.bert import recommend
-list_genre = ['Классическая литература', 'Современная проза', 'Отечественные детективы',
               'Зарубежные детективы', 'Иронические детективы', 'Отечественная фантастика', 'Зарубежная фантастика',
               'Отечественное фэнтези', 'Зарубежное фэнтези', 'Ужасы', 'Фантастический боевик',
               'Российские любовные романы', 'Зарубежные любовные романы', 'Поэзия', 'Драматургия',
@@ -23,8 +23,7 @@ st.header("""
 """, divider='blue')
 st.info("""
- - ##### Именно здесь вы сможете получить ТОП-рекомендаций под ваши предпочтения и желания🔝
- \n- ##### Вам предстоит лишь сделать краткое описание книги, которую вы хотели бы прочитать, и выбрать некоторые параметры поиска⚙️
 """)
 st.image('images/recsys_image.png', caption='Картинка сгенерирована DALL-E')
@@ -35,9 +34,7 @@ st.write("""
 text_users = st.text_input('**Пожалуйста, опишите ваши предпочтения по выбору книги (какой она должна быть):**')
-genre_book = st.selectbox('**Пожалуйста, укажите жанр книги:**', list_genre)
-author = st.text_input('**Пожалуйста, укажите имя автора, если для вас это важно (❗НЕОБЯЗАТЕЛЬНО):**')
 count_recommended = st.slider('**Пожалуйста, укажите какое количество рекомендаций Вы хотите получить:**', min_value=1, max_value=10, value=5)
@@ -46,13 +43,51 @@ start_time = time.time()
 if push_button:
-    recommend_book = recommend(text_users, count_recommended)
-    st.write(f"""
      #### Модель нашла лучшие рекомендации для Вас🎉 :
-     \n- ##### Это заняло всего {round(time.time() - start_time, 3)} сек.
     """)
-    st.table(recommend_book)
     time.sleep(3)
     with st.sidebar:
         st.info("""

 from model.bert import recommend
+LIST_GENRE = ['Классическая литература', 'Современная проза', 'Отечественные детективы',
               'Зарубежные детективы', 'Иронические детективы', 'Отечественная фантастика', 'Зарубежная фантастика',
               'Отечественное фэнтези', 'Зарубежное фэнтези', 'Ужасы', 'Фантастический боевик',
               'Российские любовные романы', 'Зарубежные любовные романы', 'Поэзия', 'Драматургия',
 """, divider='blue')
 st.info("""
+  ##### Чуть ниже Вы можете сделать краткое описание книги, которую Вы хотели бы прочитать, и выбрать некоторые параметры поиска⚙️
 """)
 st.image('images/recsys_image.png', caption='Картинка сгенерирована DALL-E')
 text_users = st.text_input('**Пожалуйста, опишите ваши предпочтения по выбору книги (какой она должна быть):**')
+genre_book = st.selectbox('**Пожалуйста, укажите жанр книги:**', options=LIST_GENRE, index=None)
 count_recommended = st.slider('**Пожалуйста, укажите какое количество рекомендаций Вы хотите получить:**', min_value=1, max_value=10, value=5)
 if push_button:
+    recommend_book, value_metrics = recommend(text_users, count_recommended)
+    st.write("""
      #### Модель нашла лучшие рекомендации для Вас🎉 :
     """)
+    st.info(f"""
+    - ##### Это заняло всего {round(time.time() - start_time, 3)} сек.
+    """)
+    col1, col2, col3, col4 = st.columns(4)
+    with col1:
+        st.write('##### Обложка')
+    with col2:
+        st.write('##### Инфо')
+    with col3:
+        st.write('##### Аннотация')
+    with col4:
+        st.write('##### Величина сходства (Евклидово расстояние)')
+    st.divider()
+    for index in range(count_recommended):
+        col1, col2, col3, col4 = st.columns(4)
+        response = requests.get(recommend_book.loc[index, 'Обложка'])
+        image_bytes = BytesIO(response.content)
+        image = Image.open(image_bytes)
+        with col1:
+            st.image(image)
+        with col2:
+            st.write(f"{recommend_book.loc[index, 'Инфо']}")
+        with col3:
+            st.write(f"{recommend_book.loc[index, 'Аннотация']}")
+        with col4:
+            st.write(f'{value_metrics[index]}')
+        st.divider()
     time.sleep(3)
     with st.sidebar:
         st.info("""

requirements.txt CHANGED Viewed

@@ -60,3 +60,4 @@ tzlocal==5.2
 urllib3==2.1.0
 validators==0.22.0
 zipp==3.17.0

 urllib3==2.1.0
 validators==0.22.0
 zipp==3.17.0
+st-pages==0.4.5