Spaces:

rriverar75
/

Search_Movie

Runtime error

App Files Files Community

Search_Movie / app.py

rriverar75

Update app.py

b3365e8 over 1 year ago

raw

history blame contribute delete

3.65 kB


	# Commented out IPython magic to ensure Python compatibility.
	# %%capture
	# !pip install -U sentence-transformers
	# !pip install gradio chromadb

	import pandas as pd
	from sentence_transformers import SentenceTransformer, util
	import ast
	from ast import literal_eval
	import chromadb
	from chromadb.utils import embedding_functions

	import gdown

	url = 'https://drive.google.com/uc?id='
	file_id = '1MgM3iObIAdqA-SvI-pXeUeXEiEAuMzXw'
	output = '25k IMDb movie Dataset.csv'

	gdown.download(url+file_id, output, quiet=False)

	df = pd.read_csv(output)

	def concatenar_lista(lista):
	lista = literal_eval(lista)
	return ' '.join(lista)

	def string_to_list(lista):
	lista = literal_eval(lista)
	return lista

	df = df.fillna(' ')

	df['Keywords'] = df['Plot Kyeword'].apply(concatenar_lista)

	df['Stars'] = df['Top 5 Casts'].apply(concatenar_lista)

	df['Generes'] = df['Generes'].apply(string_to_list)

	df['Rating'] = pd.to_numeric(df['Rating'], errors="coerce").fillna(0).astype("float")

	unique_generes = df['Generes'].explode().unique()

	df.drop(['Plot Kyeword','Top 5 Casts'],axis=1, inplace=True)

	df['text'] = df.apply(lambda x: str(x['Overview']) + ' ' + x['Keywords'] + ' ' + x['Stars'], axis=1)

	model = SentenceTransformer('all-MiniLM-L6-v2')

	embeddings = model.encode(df['text'],batch_size=64,show_progress_bar=True)

	df['embeddings'] = embeddings.tolist()

	df['ids'] = df.index

	df['ids'] = df['ids'].astype('str')

	client_persistent = chromadb.PersistentClient(path='data_embeddings')

	db = client_persistent.create_collection(name='movies_db')

	df['Generes'] = df['Generes'].apply(lambda x: ', '.join(x))

	from torch import embedding
	db.add(
	ids = df['ids'].tolist(),
	embeddings = df['embeddings'].tolist(),
	metadatas = df.drop(['ids', 'embeddings', 'text'], axis=1).to_dict('records')
	)

	from chromadb.api.types import Metadatas

	def search(query, genre, rating, num):
	num = int(num)
	if rating:
	filter_rating = rating
	else:
	filter_rating = 0

	if genre:
	conditions = {
	"$and": [
	{"Generes": genre},
	{"Rating": {"$gte": filter_rating}}
	]
	}
	else:
	conditions = {
	"Rating": {"$gte": filter_rating}
	}

	responses = db.query(
	query_texts=[query],
	n_results=num,
	where=conditions,
	include=['metadatas']

	)

	response_data = []

	for response in responses['metadatas']:
	for metadata in response:
	if not isinstance(genre, list):
	genre = [genre]
	response_data.append({
	'Title': metadata['movie title'],
	'Overview': metadata['Overview'],
	'Director': metadata['Director'],
	'Stars': metadata['Stars'],
	'Genre': metadata['Generes'],
	'year': metadata['year'],
	'Rating': metadata['Rating']
	})


	df = pd.DataFrame(response_data)

	return df

	import gradio as gr

	genres = unique_generes.tolist()
	iface = gr.Interface(
	fn=search,
	inputs=[
	gr.Textbox(lines=5, placeholder="Escribe aquí tu consulta...", label="Consulta"),
	gr.Dropdown(choices=genres, label="Género de la película"),
	gr.Slider(minimum=1, maximum=10, value=5, label="Puntuación mínima"),
	gr.Number(minimum=1, maximum=10, value=3, label="Número de resultados")

	],
	outputs=gr.Dataframe(type="pandas",label="Resultados"),
	title="Buscador de películas",
	description="Introduce tu consulta (en INGLES), selecciona un género y define una puntuación mínima para buscar películas."
	)

	iface.launch(share=False)