Spaces:

Norgan97
/

forjob3

Sleeping

App Files Files Community

Norgan97 commited on Jan 26

Commit

998169b

•

1 Parent(s): 1902e4f

test

Browse files

Files changed (9) hide show

Dataset/embeddingsbooks.txt +3 -0
Dataset/embeddingsrecipes.txt +3 -0
Dataset/faissbooks.index +3 -0
Dataset/faissrecipes.index +3 -0
Dataset/parcedbooks.csv +3 -0
Dataset/recipesdataset.csv +3 -0
app.py +85 -0
pages/recipes.py +77 -0
requirements.txt +77 -0

Dataset/embeddingsbooks.txt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f0d215389841d91e403e0d2052998369eefc5546e5597dbcb2b85f126679054c
+size 26199019

Dataset/embeddingsrecipes.txt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3a5202b41888fd390fe421bdfcac1b57867260d58426834cbd71900f2d385cba
+size 98568532

Dataset/faissbooks.index ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fbeed94e0f2dbbb393b7f019d0174e2dc7861f8f2a2a3091a549b31f8bff88d7
+size 8580045

Dataset/faissrecipes.index ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:16751ffdb3319faf7cb5b01b726af9612598354d1e6783263e49f66429df0454
+size 32326989

Dataset/parcedbooks.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4d3abf12900ffd5ac0b3c8f503075930830c430fc9039416ce8d7c09589f900a
+size 10833072

Dataset/recipesdataset.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b13aa75d0ad9b9e9d168fce0f36d67cd5734ffd090ca09a6f5c8643f71caa95
+size 14171628

app.py ADDED Viewed

	@@ -0,0 +1,85 @@

+import streamlit as st
+import pandas as pd
+import torch
+from PIL import Image
+from io import BytesIO
+import requests
+import faiss
+from transformers import AutoTokenizer, AutoModel
+import numpy as np
+st.set_page_config(layout="wide")
+@st.cache_resource()
+def load_model():
+    model = AutoModel.from_pretrained("cointegrated/rubert-tiny2")
+    tokenizer = AutoTokenizer.from_pretrained("cointegrated/rubert-tiny2")
+    return model , tokenizer
+model, tokenizer = load_model()
+@st.cache_data()
+def load_data():
+    df = pd.read_csv('Dataset/parcedbooks.csv')
+    with open('Dataset/embeddingsbooks.txt', 'r') as file:
+        embeddings_list = [list(map(float, line.split())) for line in file.readlines()]
+    index = faiss.read_index('Dataset/faissbooks.index')
+    return df, embeddings_list, index
+df, embeddings_list, index = load_data()
+def embed_bert_cls(text, model, tokenizer):
+    t = tokenizer(text, padding=True, truncation=True, return_tensors='pt')
+    with torch.no_grad():
+        model_output = model(**{k: v.to(model.device) for k, v in t.items()})
+    embeddings = model_output.last_hidden_state[:, 0, :]
+    embeddings = torch.nn.functional.normalize(embeddings)
+    return embeddings[0].cpu().numpy()
+col3, col4 = st.columns([5,1])
+with col3:
+    text = st.text_input('Введите ваше предпочтение для рекомендации')
+with col4:
+    num = st.number_input('Количество книг', step=1, value=1)
+    button = st.button('Отправить запрос')
+if text and button:
+    decode_text = embed_bert_cls(text, model, tokenizer)  # Получение вектора для введенного текста
+    k = num
+    D, I = index.search(decode_text.reshape(1, -1), k)
+    top_similar_indices = I[0]
+    top_similar_annotations = [df['annotation'].iloc[i] for i in top_similar_indices]
+    top_similar_images = [df['image_url'].iloc[i] for i in top_similar_indices]
+    images = [Image.open(BytesIO(requests.get(url).content)) for url in top_similar_images]
+    top_similar_authors = [df['author'].iloc[i] for i in top_similar_indices]
+    top_similar_title = [df['title'].iloc[i] for i in top_similar_indices]
+    top_similar_url = [df['page_url'].iloc[i] for i in top_similar_indices]
+    top_cosine_similarities = [1 - d / 2 for d in D[0]]  # Преобразование расстояний в косинусное сходство
+# Отображение изображений и названий
+    for similarity, image, author, annotation, title, url in zip(top_cosine_similarities, images, top_similar_authors, top_similar_annotations, top_similar_title, top_similar_url):
+        col1, col2 = st.columns([3, 4])
+        with col1:
+            st.image(image, width=300)
+        with col2:
+            st.write(f"***Автор:*** {author}")
+            st.write(f"***Название:*** {title}")
+            st.write(f"***Аннотация:*** {annotation}")
+            similarity = float(similarity)
+            st.write(f"***Cosine Similarity : {round(similarity, 3)}***")
+            st.write(f"***Ссылка на книгу : {url}***")
+        st.markdown(
+        "<hr style='border: 2px solid #000; margin-top: 10px; margin-bottom: 10px;'>",
+        unsafe_allow_html=True
+    )

pages/recipes.py ADDED Viewed

	@@ -0,0 +1,77 @@

+import streamlit as st
+import pandas as pd
+import torch
+from PIL import Image
+from io import BytesIO
+import requests
+import faiss
+from transformers import AutoTokenizer, AutoModel
+import numpy as np
+st.set_page_config(layout="wide")
+@st.cache_resource()
+def load_model():
+    model = AutoModel.from_pretrained("cointegrated/rubert-tiny2")
+    tokenizer = AutoTokenizer.from_pretrained("cointegrated/rubert-tiny2")
+    return model , tokenizer
+model, tokenizer = load_model()
+@st.cache_data()
+def load_data():
+    df = pd.read_csv('Dataset/recipesdataset.csv')
+    with open('Dataset/embeddingsrecipes.txt', 'r') as file:
+        embeddings_list = [list(map(float, line.split())) for line in file.readlines()]
+    index = faiss.read_index('Dataset/faissrecipes.index')
+    return df, embeddings_list, index
+df, embeddings_list, index = load_data()
+def embed_bert_cls(text, model, tokenizer):
+    t = tokenizer(text, padding=True, truncation=True, return_tensors='pt')
+    with torch.no_grad():
+        model_output = model(**{k: v.to(model.device) for k, v in t.items()})
+    embeddings = model_output.last_hidden_state[:, 0, :]
+    embeddings = torch.nn.functional.normalize(embeddings)
+    return embeddings[0].cpu().numpy()
+col3, col4 = st.columns([5,1])
+with col3:
+    text = st.text_input('Введите ваше предпочтение для рекомендации')
+with col4:
+    num = st.number_input('Количество блюд', step=1, value=1)
+    button = st.button('Отправить запрос')
+if text and button:
+    decode_text = embed_bert_cls(text, model, tokenizer)  # Получение вектора для введенного текста
+    k = num
+    D, I = index.search(decode_text.reshape(1, -1), k)
+    top_similar_indices = I[0]
+    top_similar_annotations = [df['annotation'].iloc[i] for i in top_similar_indices]
+    top_similar_images = [df['image_url'].iloc[i] for i in top_similar_indices]
+    images = [Image.open(BytesIO(requests.get(url).content)) for url in top_similar_images]
+    top_similar_title = [df['title'].iloc[i] for i in top_similar_indices]
+    top_similar_url = [df['page_url'].iloc[i] for i in top_similar_indices]
+    top_cosine_similarities = [1 - d / 2 for d in D[0]]  # Преобразование расстояний в косинусное сходство
+# Отображение изображений и названий
+    for similarity, image, annotation, title, url in zip(top_cosine_similarities, images, top_similar_annotations, top_similar_title, top_similar_url):
+        col1, col2 = st.columns([3, 4])
+        with col1:
+            st.image(image, width=300)
+        with col2:
+            st.write(f"***Название:*** {title}")
+            st.write(f"***Описание:*** {annotation}")
+            similarity = float(similarity)
+            st.write(f"***Cosine Similarity : {round(similarity, 3)}***")
+            st.write(f"***Ссылка на блюдо : {url}***")
+        st.markdown(
+        "<hr style='border: 2px solid #000; margin-top: 10px; margin-bottom: 10px;'>",
+        unsafe_allow_html=True
+    )

requirements.txt ADDED Viewed

	@@ -0,0 +1,77 @@

+altair==5.1.2
+attrs==23.1.0
+beautifulsoup4==4.12.2
+blinker==1.7.0
+bs4==0.0.1
+cachetools==5.3.2
+certifi==2023.7.22
+charset-normalizer==3.3.2
+click==8.1.7
+faiss-cpu==1.7.2
+filelock==3.13.1
+fsspec==2023.10.0
+gitdb==4.0.11
+GitPython==3.1.40
+huggingface-hub==0.17.3
+idna==3.4
+importlib-metadata==6.8.0
+Jinja2==3.1.2
+jsonschema==4.19.2
+jsonschema-specifications==2023.7.1
+markdown-it-py==3.0.0
+MarkupSafe==2.1.3
+mdurl==0.1.2
+mpmath==1.3.0
+networkx==3.2.1
+numpy==1.26.1
+nvidia-cublas-cu12==12.1.3.1
+nvidia-cuda-cupti-cu12==12.1.105
+nvidia-cuda-nvrtc-cu12==12.1.105
+nvidia-cuda-runtime-cu12==12.1.105
+nvidia-cudnn-cu12==8.9.2.26
+nvidia-cufft-cu12==11.0.2.54
+nvidia-curand-cu12==10.3.2.106
+nvidia-cusolver-cu12==11.4.5.107
+nvidia-cusparse-cu12==12.1.0.106
+nvidia-nccl-cu12==2.18.1
+nvidia-nvjitlink-cu12==12.3.52
+nvidia-nvtx-cu12==12.1.105
+packaging==23.2
+pandas==2.1.2
+Pillow==10.1.0
+protobuf==4.25.0
+pyarrow==14.0.1
+pydeck==0.8.1b0
+Pygments==2.16.1
+python-dateutil==2.8.2
+pytz==2023.3.post1
+PyYAML==6.0.1
+referencing==0.30.2
+regex==2023.10.3
+requests==2.31.0
+rich==13.6.0
+rpds-py==0.12.0
+safetensors==0.4.0
+six==1.16.0
+smmap==5.0.1
+soupsieve==2.5
+streamlit==1.28.1
+sympy==1.12
+tenacity==8.2.3
+tokenizers==0.14.1
+toml==0.10.2
+toolz==0.12.0
+torch==2.1.0
+torchaudio==2.1.0
+torchvision==0.16.0
+tornado==6.3.3
+tqdm==4.66.1
+transformers==4.35.0
+triton==2.1.0
+typing_extensions==4.8.0
+tzdata==2023.3
+tzlocal==5.2
+urllib3==2.0.7
+validators==0.22.0
+watchdog==3.0.0
+zipp==3.17.0