alizhgir commited on
Commit
9d3990e
1 Parent(s): 6e8ef2f

results page changed

Browse files
Main.py CHANGED
@@ -42,6 +42,7 @@ st.info("""
42
  \n- ##### Python
43
  \n- ##### Языковая модель ruBERT-tiny
44
  \n- ##### Библиотеки: BeautifulSoup4, Sentence Transformers, faiss, transformers, genim и др.
45
- \n- ##### Cosine similarity для рекомендаций
 
46
  \n- ##### Hugging Face & Streamlit
47
  """)
 
42
  \n- ##### Python
43
  \n- ##### Языковая модель ruBERT-tiny
44
  \n- ##### Библиотеки: BeautifulSoup4, Sentence Transformers, faiss, transformers, genim и др.
45
+ \n- ##### Cosine Similarity, Euclidean Distance, Inner Product - как величины расстояния в процессе тестирования моделей
46
+ \n- ##### Euclidean Distance для формирования рекомендаций
47
  \n- ##### Hugging Face & Streamlit
48
  """)
README.md CHANGED
@@ -5,7 +5,7 @@ colorFrom: blue
5
  colorTo: gray
6
  sdk: streamlit
7
  sdk_version: 1.29.0
8
- app_file: Main.py
9
  pinned: false
10
  ---
11
 
 
5
  colorTo: gray
6
  sdk: streamlit
7
  sdk_version: 1.29.0
8
+ app_file: main.py
9
  pinned: false
10
  ---
11
 
images/image_bert_1.jpg ADDED
images/image_bert_2.jpg ADDED
images/image_bert_3.jpg ADDED
pages/Results.py CHANGED
@@ -5,8 +5,71 @@ st.write("""
5
  # Итоги и результаты работы по проекту🔥
6
  """)
7
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
8
  st.info("""
9
- #### История о том, как мы знали, что BERT выиграет гонку, но решили использовать все существующие инструменты для векторизации текста.
 
10
  """)
11
 
 
 
 
 
 
 
 
 
 
 
 
 
 
12
 
 
 
5
  # Итоги и результаты работы по проекту🔥
6
  """)
7
 
8
+
9
+ st.write("""
10
+ ### Работа с парсингом и формирование датасета:
11
+ \n- **В sitemap мы нашли 90 038 ссылок на страницы с книгами.**
12
+ \n- **Однако в категориях было найдено только 15 411 ссылок на актуальные продукты, доступные для покупки \
13
+ \n- **Далее, проходясь по каждой ссылке продуктов из категорий, собрали следующие features: \
14
+ "Имя автора", "Название книги", "Описание", "Ссылка на книгу". Работа была запущена с двух компьютеров одновремнно (~ 4 часов работы).**
15
+ \n- **Был сформирован первый вариант рабочего датасета.**
16
+ \n- **На следующий день в датасет были добавлены ещё две дополнительные Features: "Жанр книги", "Возрастное ограничение".**
17
+ """)
18
+
19
+ st.write("""
20
+ ### Очистка датасета от всякой нечести:
21
+ \n- **Были удалены все строки с NaN (около 500).**
22
+ \n- **Были также удалены дубли по авторам, аннотациям и названию книг (около 1500-1800).**
23
+ \n- **К векторам аннотаций было применено косинусное сходство — удалены ещё 1200 дубликатов. Граница для удаления стояла на уровне 0.9.**
24
+ """)
25
+
26
+
27
+ st.write("""
28
+ ### Процесс тестирования моделей и различных подходов к решению задачи:
29
+ """)
30
+
31
+ st.write("""
32
+ ##### Алиса:
33
+ \n- **FastText + Embedding Layer.**
34
+ \n- **RuBERT-tiny2, используя аннотации и возрастное ограничение.**
35
+ """)
36
+
37
+ st.write("""
38
+ ##### Тигран:
39
+ \n- **TF-IDF.**
40
+ \n- **RuBERT-tiny2 + Faiss.**
41
+ \n- **Библиотека SentenceTransformers.**
42
+ """)
43
+
44
+ st.write("""
45
+ ##### Руслан:
46
+ \n- **TF-IDF + SVD до 1000-ой размерности.**
47
+ \n- **Жалкая попытка использовать GloVe.**
48
+ \n- **Doc2Vec + Faiss.**
49
+ """)
50
+
51
+
52
+ st.write("""
53
+ ### Пример работы лучшей модели - RuBERT-tiny2:
54
+ """)
55
+
56
  st.info("""
57
+ ##### Текст запроса: "Интригующий детектив с неожиданной развязкой, приключение и убийства."
58
+ \n- Использование IndexFlatL2 с помощью библиотеки faiss. Данный Индекс вычисляет Евклидово расстояние.
59
  """)
60
 
61
+ st.image('images/image_bert_1.jpg')
62
+
63
+ st.info("""
64
+ ##### Текст запроса: "Интригующий детектив с неожиданной развязкой, приключение и убийства."
65
+ \n- Использование cosine_similarity с помощью библиотеки sklearn. Данная мера находит Косинусное сходство.
66
+ """)
67
+
68
+ st.image('images/image_bert_2.jpg')
69
+
70
+ st.info("""
71
+ ##### Текст запроса: "Интригующий детектив с неожиданной развязкой, приключение и убийства."
72
+ \n- Использование IndexFlatIP с помощью библиотеки faiss. Данный Индекс вычисляет Скалярное произведение векторов.
73
+ """)
74
 
75
+ st.image('images/image_bert_3.jpg')