In [5]:


from transformers import AutoTokenizer, AutoModel
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
import torch
import pandas as pd


data = np.load('embeddings.npy')
movies = pd.read_csv('data.csv')

def get_embeddings():
    tokenizer = AutoTokenizer.from_pretrained("cointegrated/rubert-tiny2")
    model = AutoModel.from_pretrained("cointegrated/rubert-tiny2")
    # model.cuda()  
    return model, tokenizer

def embed_bert_cls(text ):
    model, tokenizer = get_embeddings()
    t = tokenizer(text, padding=True, truncation=True, return_tensors='pt')
    with torch.no_grad():
        model_output = model(**{k: v.to(model.device) for k, v in t.items()})
    embeddings = model_output.last_hidden_state[:, 0, :]
    embeddings = torch.nn.functional.normalize(embeddings)
    return embeddings[0].cpu().numpy()

def top_indices(array, n):

    sorted_indices = np.argsort(array)[::-1]
    # Выбираем первые n индексов
    top_n_indices = sorted_indices[:n]
    return top_n_indices


def predict_rating(input_search):

    emb = embed_bert_cls(input_search)
    X=np.column_stack((data, np.tile(emb, (data.shape[0], 1))))


    # from catboost import CatBoostRanker
    # cb= CatBoostRanker()
    # cb.load_model('model.cbm')
    # y = cb.predict(X)

    # import pickle
    # with open('logreg.pkl', 'rb') as f:
    #     logreg = pickle.load(f)
    # y = logreg.predict(X)

    y= cosine_similarity(data, emb.reshape(1, -1)).reshape(-1)

    return top_indices(y, 10)


preds=predict_rating("Пока Мстители и их союзники продолжают защищать мир от различных опасностей, с которыми не смог бы справиться один супергерой, новая угроза возникает из космоса: Танос. Межгалактический тиран преследует цель ")

movies.iloc[preds]

Unnamed: 0,name,description,link,year,imdb,kp,country,age,actors,genres,poster
28,Мстители: Война бесконечности,В то время как отважные Мстители с союзниками...,https://www.lordfilm.bot/3670-mstiteli-vojna-b...,2018.0,8.4,8.1,США,18+,"Роберт Дауни мл., Крис Хемсворт, Марк Руффало,...","Фильмы, Фильмы Marvel, Боевики, Приключения, Ф...",https://www.lordfilm.bot/uploads/posts/2020-10...
4286,LEGO Мстители Марвел: Код красный,"Супергерои объединяются, чтобы противостоять ...",https://www.lordfilm.bot/49932-lego-mstiteli-m...,2023.0,,,США,0+,,Мультфильмы,https://www.lordfilm.bot/uploads/posts/2023-10...
13384,Могучие рейнджеры: Потерянная галактика,"Казалось бы всё зло уже побеждено, однако в н...",https://www.lordfilm.bot/18827-moguchie-rejndz...,1999.0,6.8,4.2,"США, Франция, Япония",0+,"Арчи Као, Регги Ролли, Дэнни Славин, Серина Ви...",Сериалы,https://www.lordfilm.bot/uploads/posts/2021-03...
2609,Стражи терракоты,Стражи волшебной Терракоты и магические сущес...,https://www.lordfilm.bot/46847-strazhi-terrako...,2021.0,6.2,6.7,Китай,12+,Тань Сяо,Мультфильмы,https://www.lordfilm.bot/uploads/posts/2022-01...
1156,Царство падальщиков,Грузовой корабль «Деметра» терпит аварию на н...,https://www.lordfilm.bot/49892-carstvo-padalsc...,2023.0,8.8,,США,0+,"Вунми Моссаку, Алиа Шокат, Сунита Мани, Боб Ст...",Мультфильмы,https://www.lordfilm.bot/uploads/posts/2023-10...
3907,Железный человек и Халк: Союз героев,Когда питающийся электричеством и неуязвимый ...,https://www.lordfilm.bot/21296-zheleznyj-chelo...,2013.0,4.6,4.2,США,12+,"Адриан Пасдар, Фред Таташиор, Ди Брэдли Бейкер...",Мультфильмы,https://www.lordfilm.bot/uploads/posts/2021-04...
27972,Потерянное львиное королевство,Мультфильм о борьбе добра со злом на простора...,https://www.lordfilm.bot/24407-poterjannoe-lvi...,2019.0,3.8,,США,18+,"Kj Schrock, Сара Тейлор",Мультфильмы,https://www.lordfilm.bot/uploads/posts/2021-05...
297,Мир Юрского периода 3: Господство,Катастрофическое извержение вулкана Сибо на И...,https://www.lordfilm.bot/47499-mir-jurskogo-pe...,2022.0,5.6,5.7,"США, Мальта",12+,"Крис Пратт, Брайс Даллас Ховард, Лора Дерн, Сэ...","Фильмы, 2022 год, Боевики, Приключения, Трилле...",https://www.lordfilm.bot/uploads/posts/2022-06...
7626,Лузеры,«Лузеры» – сумасшедший экшн о предательстве и...,https://www.lordfilm.bot/6139-luzery-2010.html,2010.0,6.2,6.3,"США, Франция",16+,"Джеффри Дин Морган, Зои Салдана, Крис Эванс, И...","Фильмы, Боевики, Детективы, Комедии, Криминаль...",https://www.lordfilm.bot/uploads/posts/2021-01...
25332,Ancestral World,Пытаясь спасти своего брата и королевство сво...,https://www.lordfilm.bot/10306-ancestral-world...,2020.0,2.5,,США,0+,"Jennifer Mischiati, Джо Морелли, Райан А. Филл...","Фильмы, Боевики, 2020 год, Фильмы про монстров",https://www.lordfilm.bot/uploads/posts/2021-02...
