Spaces:
Sleeping
Sleeping
results page changed
Browse files- Main.py +2 -1
- README.md +1 -1
- images/image_bert_1.jpg +0 -0
- images/image_bert_2.jpg +0 -0
- images/image_bert_3.jpg +0 -0
- pages/Results.py +64 -1
Main.py
CHANGED
@@ -42,6 +42,7 @@ st.info("""
|
|
42 |
\n- ##### Python
|
43 |
\n- ##### Языковая модель ruBERT-tiny
|
44 |
\n- ##### Библиотеки: BeautifulSoup4, Sentence Transformers, faiss, transformers, genim и др.
|
45 |
-
\n- ##### Cosine
|
|
|
46 |
\n- ##### Hugging Face & Streamlit
|
47 |
""")
|
|
|
42 |
\n- ##### Python
|
43 |
\n- ##### Языковая модель ruBERT-tiny
|
44 |
\n- ##### Библиотеки: BeautifulSoup4, Sentence Transformers, faiss, transformers, genim и др.
|
45 |
+
\n- ##### Cosine Similarity, Euclidean Distance, Inner Product - как величины расстояния в процессе тестирования моделей
|
46 |
+
\n- ##### Euclidean Distance для формирования рекомендаций
|
47 |
\n- ##### Hugging Face & Streamlit
|
48 |
""")
|
README.md
CHANGED
@@ -5,7 +5,7 @@ colorFrom: blue
|
|
5 |
colorTo: gray
|
6 |
sdk: streamlit
|
7 |
sdk_version: 1.29.0
|
8 |
-
app_file:
|
9 |
pinned: false
|
10 |
---
|
11 |
|
|
|
5 |
colorTo: gray
|
6 |
sdk: streamlit
|
7 |
sdk_version: 1.29.0
|
8 |
+
app_file: main.py
|
9 |
pinned: false
|
10 |
---
|
11 |
|
images/image_bert_1.jpg
ADDED
images/image_bert_2.jpg
ADDED
images/image_bert_3.jpg
ADDED
pages/Results.py
CHANGED
@@ -5,8 +5,71 @@ st.write("""
|
|
5 |
# Итоги и результаты работы по проекту🔥
|
6 |
""")
|
7 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
8 |
st.info("""
|
9 |
-
|
|
|
10 |
""")
|
11 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
12 |
|
|
|
|
5 |
# Итоги и результаты работы по проекту🔥
|
6 |
""")
|
7 |
|
8 |
+
|
9 |
+
st.write("""
|
10 |
+
### Работа с парсингом и формирование датасета:
|
11 |
+
\n- **В sitemap мы нашли 90 038 ссылок на страницы с книгами.**
|
12 |
+
\n- **Однако в категориях было найдено только 15 411 ссылок на актуальные продукты, доступные для покупки \
|
13 |
+
\n- **Далее, проходясь по каждой ссылке продуктов из категорий, собрали следующие features: \
|
14 |
+
"Имя автора", "Название книги", "Описание", "Ссылка на книгу". Работа была запущена с двух компьютеров одновремнно (~ 4 часов работы).**
|
15 |
+
\n- **Был сформирован первый вариант рабочего датасета.**
|
16 |
+
\n- **На следующий день в датасет были добавлены ещё две дополнительные Features: "Жанр книги", "Возрастное ограничение".**
|
17 |
+
""")
|
18 |
+
|
19 |
+
st.write("""
|
20 |
+
### Очистка датасета от всякой нечести:
|
21 |
+
\n- **Были удалены все строки с NaN (около 500).**
|
22 |
+
\n- **Были также удалены дубли по авторам, аннотациям и названию книг (около 1500-1800).**
|
23 |
+
\n- **К векторам аннотаций было применено косинусное сходство — удалены ещё 1200 дубликатов. Граница для удаления стояла на уровне 0.9.**
|
24 |
+
""")
|
25 |
+
|
26 |
+
|
27 |
+
st.write("""
|
28 |
+
### Процесс тестирования моделей и различных подходов к решению задачи:
|
29 |
+
""")
|
30 |
+
|
31 |
+
st.write("""
|
32 |
+
##### Алиса:
|
33 |
+
\n- **FastText + Embedding Layer.**
|
34 |
+
\n- **RuBERT-tiny2, используя аннотации и возрастное ограничение.**
|
35 |
+
""")
|
36 |
+
|
37 |
+
st.write("""
|
38 |
+
##### Тигран:
|
39 |
+
\n- **TF-IDF.**
|
40 |
+
\n- **RuBERT-tiny2 + Faiss.**
|
41 |
+
\n- **Библиотека SentenceTransformers.**
|
42 |
+
""")
|
43 |
+
|
44 |
+
st.write("""
|
45 |
+
##### Руслан:
|
46 |
+
\n- **TF-IDF + SVD до 1000-ой размерности.**
|
47 |
+
\n- **Жалкая попытка использовать GloVe.**
|
48 |
+
\n- **Doc2Vec + Faiss.**
|
49 |
+
""")
|
50 |
+
|
51 |
+
|
52 |
+
st.write("""
|
53 |
+
### Пример работы лучшей модели - RuBERT-tiny2:
|
54 |
+
""")
|
55 |
+
|
56 |
st.info("""
|
57 |
+
##### Текст запроса: "Интригующий детектив с неожиданной развязкой, приключение и убийства."
|
58 |
+
\n- Использование IndexFlatL2 с помощью библиотеки faiss. Данный Индекс вычисляет Евклидово расстояние.
|
59 |
""")
|
60 |
|
61 |
+
st.image('images/image_bert_1.jpg')
|
62 |
+
|
63 |
+
st.info("""
|
64 |
+
##### Текст запроса: "Интригующий детектив с неожиданной развязкой, приключение и убийства."
|
65 |
+
\n- Использование cosine_similarity с помощью библиотеки sklearn. Данная мера находит Косинусное сходство.
|
66 |
+
""")
|
67 |
+
|
68 |
+
st.image('images/image_bert_2.jpg')
|
69 |
+
|
70 |
+
st.info("""
|
71 |
+
##### Текст запроса: "Интригующий детектив с неожиданной развязкой, приключение и убийства."
|
72 |
+
\n- Использование IndexFlatIP с помощью библиотеки faiss. Данный Индекс вычисляет Скалярное произведение векторов.
|
73 |
+
""")
|
74 |
|
75 |
+
st.image('images/image_bert_3.jpg')
|