Spaces:

Teery
/

Films_finder

Sleeping

App Files Files Community

Teery commited on Oct 5, 2023

Commit

c1efda8

1 Parent(s): 653fd0e

first all

Browse files

Files changed (3) hide show

app.py +45 -0
movies_2.csv +0 -0
requirements.txt +71 -0

app.py ADDED Viewed

	@@ -0,0 +1,45 @@

+import streamlit as st
+from sklearn.metrics.pairwise import pairwise_distances, cosine_similarity
+from scipy.spatial import distance
+import pandas as pd
+import numpy as np
+import torch
+from transformers import AutoTokenizer, AutoModel
+tokenizer = AutoTokenizer.from_pretrained("cointegrated/rubert-tiny2")
+model = AutoModel.from_pretrained("cointegrated/rubert-tiny2")
+films = pd.read_csv('Films_finder/movies_2.csv')
+films['description'] = films['description'].astype(str)
+def embed_bert_cls(text, model, tokenizer):
+    t = tokenizer(text, padding=True, truncation=True, return_tensors='pt', max_length=1024)
+    with torch.no_grad():
+        model_output = model(**{k: v.to(model.device) for k, v in t.items()})
+    embeddings = model_output.last_hidden_state[:, 0, :]
+    embeddings = torch.nn.functional.normalize(embeddings)
+    return embeddings[0].cpu().numpy()
+@st.cache_resource
+def for_embeded_list(series: pd.Series) -> list:
+    return np.array([embed_bert_cls(i.replace('\xa0', ' '), model, tokenizer) for i in series])
+embeded_list = for_embeded_list(films['description'])
+text = st.text_input('Введите текст')
+count_visible = st.number_input("Введите количество отображаемых элементов", 1, 10, step=1)
+if text and count_visible:
+    embeded_text = embed_bert_cls(text, model, tokenizer).reshape(1,-1)
+    cossim = pairwise_distances(embeded_text, embeded_list)[0]
+    for i in range(count_visible):
+        col1, col2 = st.columns(2)
+        with col1:
+            st.header(films.iloc[cossim.argsort()].iloc[i][2])
+            st.write(films.iloc[cossim.argsort()].iloc[i][3].replace('\xa0', ' '))
+            st.write(f'Уверенность состовляет {cossim[i]}')
+        with col2:
+            st.image(films.iloc[cossim.argsort()].iloc[i][1])
+    st.header('Самый не подходящий запрос')
+    col3, col4 = st.columns(2)
+    with col3:
+        st.header(films.iloc[cossim.argsort()].iloc[-1][2])
+        st.write(films.iloc[cossim.argsort()].iloc[-1][3].replace('\xa0', ' '))
+    with col4:
+        st.image(films.iloc[cossim.argsort()].iloc[-1][1])

movies_2.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

requirements.txt ADDED Viewed

	@@ -0,0 +1,71 @@

+aiohttp==3.8.5
+aiosignal==1.3.1
+altair==5.1.1
+async-timeout==4.0.3
+attrs==23.1.0
+blinker==1.6.2
+cachetools==5.3.1
+certifi==2023.7.22
+charset-normalizer==3.2.0
+click==8.1.7
+datasets==2.14.5
+dill==0.3.7
+filelock==3.12.4
+frozenlist==1.4.0
+fsspec==2023.6.0
+gitdb==4.0.10
+GitPython==3.1.37
+huggingface-hub==0.17.3
+idna==3.4
+importlib-metadata==6.8.0
+Jinja2==3.1.2
+joblib==1.3.2
+jsonschema==4.19.1
+jsonschema-specifications==2023.7.1
+markdown-it-py==3.0.0
+MarkupSafe==2.1.3
+mdurl==0.1.2
+mpmath==1.3.0
+multidict==6.0.4
+multiprocess==0.70.15
+networkx==3.1
+nltk==3.8.1
+numpy==1.26.0
+packaging==23.1
+pandas==2.1.1
+Pillow==9.5.0
+protobuf==4.24.3
+pyarrow==13.0.0
+pydeck==0.8.1b0
+Pygments==2.16.1
+python-dateutil==2.8.2
+pytz==2023.3.post1
+PyYAML==6.0.1
+referencing==0.30.2
+regex==2023.8.8
+requests==2.31.0
+rich==13.5.3
+rpds-py==0.10.3
+scikit-learn==1.3.1
+scipy==1.11.3
+six==1.16.0
+smmap==5.0.1
+streamlit==1.27.0
+sympy==1.12
+tenacity==8.2.3
+threadpoolctl==3.2.0
+tokenizers==0.13.3
+toml==0.10.2
+toolz==0.12.0
+torch==2.0.1
+tornado==6.3.3
+tqdm==4.66.1
+transformers==4.28.0
+typing_extensions==4.8.0
+tzdata==2023.3
+tzlocal==5.0.1
+urllib3==2.0.5
+validators==0.22.0
+xxhash==3.3.0
+yarl==1.9.2
+zipp==3.17.0