Spaces:

HaggiVaggi
/

movie_rec

Sleeping

App Files Files Community

HaggiVaggi commited on Dec 14, 2023

Commit

e6e6052

•

1 Parent(s): 630ecc3

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -9

app.py CHANGED Viewed

@@ -8,6 +8,7 @@ from sentence_transformers import SentenceTransformer, InputExample, losses
 from torch.utils.data import DataLoader
 import torch
 import ast
@@ -64,20 +65,30 @@ if page == "какая-то еще":
             outputs = model(**tokens)
         embeddings = outputs.last_hidden_state.mean(dim=1)
         return embeddings
     df2 = pd.read_csv('data_with_embeddings.csv')
     embeddings = pd.read_pickle('embeddings.pkl')
-    user_input = st.text_area('Введите описание фильма')
-    input_embedding = encode_description(user_input)
-    def parse_tensor_string(tensor_string):
-        return torch.tensor(ast.literal_eval(tensor_string))
-# Преобразование колонки description_embedding в embeddings_tensor
-    df2['embeddings_tensor'] = df2['description_embedding'].apply(parse_tensor_string)
-# Объединение тензоров в один большой тензор
-    embeddings_tensor = torch.stack(df2['embeddings_tensor'].tolist())
-# Ваш оставшийся код остается без изменений
     similarity_scores = cosine_similarity(input_embedding.view(1, -1).detach().numpy(), embeddings_tensor.reshape(embeddings_tensor.shape[0], -1))[0]
     sorted_indices = similarity_scores.argsort()[::-1]
     recs = df2.iloc[sorted_indices[:10]].reset_index(drop=True)

 from torch.utils.data import DataLoader
 import torch
 import ast
+import re
             outputs = model(**tokens)
         embeddings = outputs.last_hidden_state.mean(dim=1)
         return embeddings
+    def convert_tensor_string(tensor_string):
+    try:
+        # Извлечение чисел из строки с использованием регулярного выражения
+        numbers = re.findall(r'-?\d+\.?\d*', tensor_string)
+        return [float(num) for num in numbers]
+    except ValueError:
+        # В случае ошибки (например, если строка не соответствует ожидаемому формату), вернем пустой список
+        return []
     df2 = pd.read_csv('data_with_embeddings.csv')
     embeddings = pd.read_pickle('embeddings.pkl')
+    # Проверка и преобразование строки с тензорами
+    df2['description_embedding'] = df2['description_embedding'].apply(lambda x: parse_tensor_string(x) if pd.notna(x) else [])
+    # Объединение тензоров в один большой тензор
+    embeddings_tensor = torch.stack(df2['description_embedding'].tolist())
+    # Получение ввода пользователя
+    user_input = st.text_area('Введите описание фильма')
+    # Код для получения вектора вложения ввода пользователя
+    input_embedding = encode_description(user_input)
+    # Расчет косинусной схожести и рекомендации
     similarity_scores = cosine_similarity(input_embedding.view(1, -1).detach().numpy(), embeddings_tensor.reshape(embeddings_tensor.shape[0], -1))[0]
     sorted_indices = similarity_scores.argsort()[::-1]
     recs = df2.iloc[sorted_indices[:10]].reset_index(drop=True)