Spaces:

Shchushch
/

find_me_book

Sleeping

App Files Files Community

Shchushch commited on Sep 1, 2023

Commit

cce9310

•

1 Parent(s): 3288c6b

easy

Browse files

Files changed (2) hide show

app.py +84 -0
requirements.txt +64 -0

app.py ADDED Viewed

	@@ -0,0 +1,84 @@

+import streamlit as st
+import pandas as pd
+import random as rd
+import webbrowser as wb
+import numpy as np
+from find import find_similar,df,lems_eng,lems_rus,clean
+st.set_page_config(
+    page_title="Умный поиск книг",
+    page_icon="📖",
+    layout="wide",
+    #initial_sidebar_state="expanded"
+)
+with st.expander('Исходный датафрейм'):
+        #print(list(df.columns))#df.columns())
+        columns= st.multiselect('Выберите колонки для отображения',options=list(df.columns),default=list(df.columns))
+        df.loc[:,columns]#'df.columns,default=df.columns)
+        #df.loc[:,columns]
+st.title('Умный поиск книг')
+#negability= st.checkbox('Негативный промт (beta)')
+with st.form(key='search_form'):
+    input=st.text_input('Введите поисковый запрос','Пример запроса')
+    # if negability:
+    #     neg=st.text_input('Введите отрицательный запрос')
+    search_but=st.form_submit_button('Искать')
+items_per_page=st.number_input('Количество книг на странице',min_value=1,max_value=10,value=5)
+# if search_but:
+#     st.session_state.clicked = True
+#st.toast('Уфф')
+#@st.cache_data(experimental_allow_widgets=True)
+def books_show(books_idx,sim,n=items_per_page):
+    col=[]
+    books=df.copy().iloc[books_idx][:n]
+    for author in books['author']:
+        if author.find('Донцова')!=-1:
+            #st.toast('Уфф')
+            pass
+    books['sims']=sims[:n]
+    with st.expander('Датафрейм с результатами'):
+        books.loc[:,columns.__add__(['sims'])]
+    #print(books.index)
+    for i,book_id in enumerate(books_idx[:n]):
+        pic_col,text_col=st.columns([0.2,0.8])
+        '---'
+        url=books.loc[book_id][0]
+        #url
+        pic_col.image(books.loc[book_id,'image_url'],use_column_width=True)
+        pic_col.markdown(f'<a href={url} target="_blank">Ссылка на книгу</a>', unsafe_allow_html=True)
+        pic_col.markdown(f'**Степень похожести:** {books.loc[book_id,"sims"]:.4f}')
+        #col[i][0].button('Купить',key=books['page_url'][i],on_click=lambda: wb.open_new_tab(books['page_url'][i]))
+        text_col.markdown('## ' + books.loc[book_id, 'title'])
+        text_col.markdown('**Автор:** ' + books.loc[book_id, 'author'])
+        text_col.markdown('**Жанр:** ' + books.loc[book_id, 'genre'])
+        text_col.markdown('**Аннотация:** ' + books.loc[book_id, 'annotation'])
+if search_but:
+    neg_mark=input.find(' -')
+    if neg_mark==-1:
+        cleaned_input=clean(lems_eng(lems_rus(input)))
+    else:
+        cleaned_input=clean(lems_eng(lems_rus(input[:neg_mark])))
+        cleaned_neg=clean(lems_eng(lems_rus(input[neg_mark+2:])))
+    #print(cleaned_neg.split(),df.loc[15390,'lemmatized'].split())
+    with st.spinner('Wait for it...'):
+        if neg_mark!=-1:
+            st.markdown(f'**Лемматизированный запрос:** {cleaned_input} \n\n **Лемматизированый негативный запрос:** {cleaned_neg}')
+            sims,books_idx=find_similar(cleaned_input,50)
+            for book in books_idx:
+                if any(word in cleaned_neg.split() for word in df.loc[book,'lemmatized'].split()):
+                    books_idx=np.delete(books_idx,np.where(books_idx==book))
+        else:
+            st.markdown(f'**Лемматизированный запрос:** {cleaned_input}')
+            sims,books_idx=find_similar(input)
+        print(f'Похожести:\n{sims}\nИндексы:\n{books_idx}')
+        books_show(books_idx,sims)

requirements.txt ADDED Viewed

	@@ -0,0 +1,64 @@

+altair==5.1.1
+attrs==23.1.0
+blinker==1.6.2
+cachetools==5.3.1
+certifi==2023.7.22
+charset-normalizer==3.2.0
+click==8.1.7
+faiss-cpu==1.7.4
+filelock==3.12.3
+fsspec==2023.6.0
+gitdb==4.0.10
+GitPython==3.1.33
+huggingface-hub==0.16.4
+idna==3.4
+importlib-metadata==6.8.0
+Jinja2==3.1.2
+joblib==1.3.2
+jsonschema==4.19.0
+jsonschema-specifications==2023.7.1
+markdown-it-py==3.0.0
+MarkupSafe==2.1.3
+mdurl==0.1.2
+mpmath==1.3.0
+networkx==3.1
+nltk==3.8.1
+numpy==1.25.2
+packaging==23.1
+pandas==2.1.0
+Pillow==9.5.0
+protobuf==4.24.2
+pyarrow==13.0.0
+pydeck==0.8.0
+Pygments==2.16.1
+Pympler==1.0.1
+pymystem3==0.2.0
+python-dateutil==2.8.2
+pytz==2023.3
+pytz-deprecation-shim==0.1.0.post0
+PyYAML==6.0.1
+referencing==0.30.2
+regex==2023.8.8
+requests==2.31.0
+rich==13.5.2
+rpds-py==0.10.0
+safetensors==0.3.3
+six==1.16.0
+smmap==5.0.0
+streamlit==1.26.0
+sympy==1.12
+tenacity==8.2.3
+tokenizers==0.13.3
+toml==0.10.2
+toolz==0.12.0
+torch==2.0.1
+tornado==6.3.3
+tqdm==4.66.1
+transformers==4.32.1
+typing_extensions==4.7.1
+tzdata==2023.3
+tzlocal==4.3.1
+urllib3==2.0.4
+validators==0.21.2
+watchdog==3.0.0
+zipp==3.16.2