Spaces:

shoukaku
/

movie_recommendation

Runtime error

App Files Files Community

shoukaku commited on Oct 13, 2022

Commit

b75eb47

•

1 Parent(s): b069bf8

refactor code and fix imports

Browse files

Files changed (10) hide show

.gitignore +0 -0
.idea/.gitignore +3 -0
README.md +0 -12
app.py +3 -3
models/data_preprocessing.py +80 -0
models/recommendation_model.py +21 -11
models/search_model.py +5 -3
movie_data/_similarity +0 -3
movie_data/movie_data.csv +0 -0
requirements.txt +3 -1

.gitignore ADDED Viewed

File without changes

.idea/.gitignore ADDED Viewed

	@@ -0,0 +1,3 @@

+# Default ignored files
+/shelf/
+/workspace.xml

README.md DELETED Viewed

@@ -1,12 +0,0 @@
----
-title: Movie Recommendation
-emoji: 💩
-colorFrom: gray
-colorTo: yellow
-sdk: gradio
-sdk_version: 3.0.13
-app_file: app.py
-pinned: false
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py CHANGED Viewed

@@ -7,7 +7,7 @@ import pandas as pd
 df = pd.read_csv('movie_data/movie_data.csv')
 recommender = Model(df)
-recommender._load('movie_data/_similarity')
 movie = [[df['id'].iloc[i], df['title'].iloc[i], df['year'].iloc[i]] for i in range(len(df))]
 corpus = df['title'].values.tolist()
@@ -22,12 +22,12 @@ def search_movie(title):
         search_res = 10
     s_res = search_model.search(title, search_res)
     s_res = [i[0] for i in s_res]
-    return(f'Search Results For "{title}"\n' + "\n".join([f"[{i[0]}] {i[1]} ({int(i[2])})" for i in s_res]))
 def get_recommendation(ids):
     id = [int(id) for id in ids.split()]
     rec = recommender.forward(id)
-    return(f'Movies That You Might Like\n' + "\n".join([f"- {i[0]} ({int(i[1])})" for i in rec]))
 interface = gradio.Blocks()

 df = pd.read_csv('movie_data/movie_data.csv')
 recommender = Model(df)
+recommender.load('movie_data/_similarity')
 movie = [[df['id'].iloc[i], df['title'].iloc[i], df['year'].iloc[i]] for i in range(len(df))]
 corpus = df['title'].values.tolist()
         search_res = 10
     s_res = search_model.search(title, search_res)
     s_res = [i[0] for i in s_res]
+    return(f'Search Results For "{title}"\n' + "\n".join([f"[{i[0]}] {i[1]} ({i[2]})" for i in s_res]))
 def get_recommendation(ids):
     id = [int(id) for id in ids.split()]
     rec = recommender.forward(id)
+    return(f'Movies That You Might Like\n' + "\n".join([f"- {i[0]} ({i[1]})" for i in rec]))
 interface = gradio.Blocks()

models/data_preprocessing.py ADDED Viewed

	@@ -0,0 +1,80 @@

+import ast
+import pandas as pd
+from recommendation_model import Model
+"""
+The dataset is obtained from TMDB 5000 Movie Dataset
+https://www.kaggle.com/datasets/tmdb/tmdb-movie-metadata
+"""
+def get_name(x):
+    return ', '.join([i['name'].lower() for i in ast.literal_eval(x)][:5])
+def get_director(x):
+    return ', '.join(i['name'].lower() for i in ast.literal_eval(x) if i['job'].lower() == 'director')
+def get_year(x):
+    return str(x)[:4]
+def normalize_data(x):
+    return (x - x.min()) / (x.max() - x.min())
+raw1 = pd.read_csv('tmdb_5000_movies.csv')
+raw2 = pd.read_csv('tmdb_5000_credits.csv')
+raw2 = raw2.rename(columns={'movie_id': 'id'})
+df = pd.merge(raw1, raw2, on='id')
+df = df.drop([
+    'budget',
+    'homepage',
+    'overview',
+    'tagline',
+    'status',
+    'production_companies',
+    'production_countries',
+    'revenue',
+    'spoken_languages',
+    'title_x',
+    'title_y',
+    'vote_count'
+], axis=1)
+df['genres'] = df['genres'].map(get_name)
+df['keywords'] = df['keywords'].map(get_name)
+df['cast'] = df['cast'].map(get_name)
+df['crew'] = df['crew'].map(get_director)
+df['release_date'] = df['release_date'].map(get_year)
+for i in range(len(df)):
+    df.loc[i, 'id'] = i
+df = df.rename(columns={
+    'original_language': 'language',
+    'original_title': 'title',
+    'release_date': 'year',
+    'vote_average': 'rating',
+    'crew': 'director'
+})
+df = df[[
+    'id',
+    'title',
+    'genres',
+    'keywords',
+    'director',
+    'cast',
+    'year',
+    'language',
+    'runtime',
+    'popularity',
+    'rating'
+]]
+df['id'] = df['id'].apply(lambda x: str(x))
+df['year'] = df['year'].apply(lambda x: str(x))
+df['runtime'] = normalize_data(df['runtime'])
+df['popularity'] = normalize_data(df['popularity'])
+df['rating'] = normalize_data(df['rating'])
+df_trim = df[['title', 'genres', 'keywords', 'director', 'cast']]
+model = Model(df)
+model.fit(save=True)

models/recommendation_model.py CHANGED Viewed

@@ -1,13 +1,21 @@
 import pickle
 class Model:
     def __init__(self, corpus):
         self.data = corpus
         self.similarity = [[-1 for i in range(len(corpus))] for j in range(len(corpus))]
-    def _load(self, path = '_similarity'):
         with open(path, 'rb') as fp:
             self.similarity = pickle.load(fp)
-    def get_cosine(self, id1, id2):
         col = [
             'title',
             'genres',
@@ -20,8 +28,8 @@ class Model:
         data2 = df.iloc[id2]
         res = 0
         for i in col:
-            vec1 =  collections.Counter(re_words.findall(data1[i]))
-            vec2 =  collections.Counter(re_words.findall(data2[i]))
             intersect = set(vec1.keys()) & set(vec2.keys())
             a = sum([vec1[x] * vec2[x] for x in intersect])
             sum1 = sum([vec1[x] ** 2 for x in vec1.keys()])
@@ -32,8 +40,9 @@ class Model:
             else:
                 res += float(a) / b
         return res / len(col)
-    def fit(self, save = False):
-        for id in tqdm(range(len(self.data)), desc = 'Progress'):
             for i in range(len(self.data)):
                 if i == id:
                     self.similarity[id][i] = 0
@@ -41,20 +50,21 @@ class Model:
                     temp_sim = self.get_cosine(id, i)
                     self.similarity[id][i] = temp_sim
                     self.similarity[i][id] = temp_sim
-        if(save):
             with open('_similarity', 'wb') as fp:
                 pickle.dump(self.similarity, fp)
     def forward(self, ids):
         res = [1 for i in range(len(self.data))]
         for id in ids:
             res = [res[i] * self.similarity[id][i] for i in range(len(self.data))]
         res = [[i, res[i]] for i in range(len(self.data))]
-        res.sort(key = lambda x: x[1], reverse = True)
         res = [
             [
-                self.data.loc[movie[0], ('title')],
-                self.data.loc[movie[0], ('year')],
                 movie[1]
             ] for movie in res
         ]
-        return res[:10]

 import pickle
+import re
+import collections
+import math
+from tqdm import tqdm
 class Model:
     def __init__(self, corpus):
         self.data = corpus
         self.similarity = [[-1 for i in range(len(corpus))] for j in range(len(corpus))]
+    def load(self, path='_similarity'):
         with open(path, 'rb') as fp:
             self.similarity = pickle.load(fp)
+    @staticmethod
+    def get_cosine(self, df, id1, id2):
         col = [
             'title',
             'genres',
         data2 = df.iloc[id2]
         res = 0
         for i in col:
+            vec1 = collections.Counter(re_words.findall(data1[i]))
+            vec2 = collections.Counter(re_words.findall(data2[i]))
             intersect = set(vec1.keys()) & set(vec2.keys())
             a = sum([vec1[x] * vec2[x] for x in intersect])
             sum1 = sum([vec1[x] ** 2 for x in vec1.keys()])
             else:
                 res += float(a) / b
         return res / len(col)
+    def fit(self, save=False):
+        for id in tqdm(range(len(self.data)), desc='Progress'):
             for i in range(len(self.data)):
                 if i == id:
                     self.similarity[id][i] = 0
                     temp_sim = self.get_cosine(id, i)
                     self.similarity[id][i] = temp_sim
                     self.similarity[i][id] = temp_sim
+        if save:
             with open('_similarity', 'wb') as fp:
                 pickle.dump(self.similarity, fp)
     def forward(self, ids):
         res = [1 for i in range(len(self.data))]
         for id in ids:
             res = [res[i] * self.similarity[id][i] for i in range(len(self.data))]
         res = [[i, res[i]] for i in range(len(self.data))]
+        res.sort(key=lambda x: x[1], reverse=True)
         res = [
             [
+                self.data.loc[movie[0], 'title'],
+                self.data.loc[movie[0], 'year'],
                 movie[1]
             ] for movie in res
         ]
+        return res[:10]

models/search_model.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import gensim
 import pandas as pd
 class MovieSearch:
     def __init__(self, movie, corpus, stopwords):
         self.movie = movie
@@ -10,12 +11,13 @@ class MovieSearch:
         p_corpus = [[w for w in doc if w not in stopwords] for doc in p_corpus]
         self.dictionary = gensim.corpora.Dictionary(p_corpus)
         self.bow_corpus = [self.dictionary.doc2bow(doc) for doc in p_corpus]
-        self.model = gensim.models.LsiModel(self.bow_corpus, id2word = self.dictionary)
     def search(self, query, len_results):
         vec_bow = self.dictionary.doc2bow(query.lower().split())
         vec_model = self.model[vec_bow]
         index = gensim.similarities.MatrixSimilarity(self.model[self.bow_corpus])
         sims = index[vec_model]
         sims = [[self.movie[i], sims[i]] for i in range(len(sims))]
-        sims.sort(key = lambda x: x[1], reverse = True)
-        return(sims[:len_results])

 import gensim
 import pandas as pd
 class MovieSearch:
     def __init__(self, movie, corpus, stopwords):
         self.movie = movie
         p_corpus = [[w for w in doc if w not in stopwords] for doc in p_corpus]
         self.dictionary = gensim.corpora.Dictionary(p_corpus)
         self.bow_corpus = [self.dictionary.doc2bow(doc) for doc in p_corpus]
+        self.model = gensim.models.LsiModel(self.bow_corpus, id2word=self.dictionary)
     def search(self, query, len_results):
         vec_bow = self.dictionary.doc2bow(query.lower().split())
         vec_model = self.model[vec_bow]
         index = gensim.similarities.MatrixSimilarity(self.model[self.bow_corpus])
         sims = index[vec_model]
         sims = [[self.movie[i], sims[i]] for i in range(len(sims))]
+        sims.sort(key=lambda x: x[1], reverse=True)
+        return sims[:len_results]

movie_data/_similarity DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:1a50ddfc9a9be319ac3f7725240cc3965e30bb29c568937860cf2f99c65e9726
-size 207661759

movie_data/movie_data.csv DELETED Viewed

The diff for this file is too large to render. See raw diff

requirements.txt CHANGED Viewed

@@ -1,2 +1,4 @@
 pandas
-gensim

+numpy
 pandas
+gensim
+tqdm