Spaces:

Nechba
/

Book-Recommender-System

Sleeping

App Files Files Community

Nechba commited on Aug 24, 2024

Commit

ceee38b

verified ·

1 Parent(s): 93a32e5

Upload 5 files

Browse files

Files changed (6) hide show

.gitattributes +1 -0
app.py +47 -0
collaborative_book_metadata.csv +0 -0
collaborative_books_df.csv +3 -0
requirements.txt +5 -0
utils.py +48 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+collaborative_books_df.csv filter=lfs diff=lfs merge=lfs -text

app.py ADDED Viewed

	@@ -0,0 +1,47 @@

+import streamlit as st
+import pandas as pd
+from utils import *
+# Assuming data is loaded and matrices are prepared as discussed
+def load_data():
+    ratings = pd.read_csv('./data/collaborative_books_df.csv', index_col=0)
+    books = pd.read_csv('./data/collaborative_book_metadata.csv', index_col=0)
+    # book_titles=pd.read_csv('./data/book_titles.csv', index_col=0)
+    # book_titles = book_titles.reset_index()
+    # Merge data
+    ratings = ratings.merge(books, on='book_id')
+    book_titles = dict(zip(ratings['book_id'], ratings['title_x']))
+    return ratings, books,book_titles
+def initialize_session_state():
+      if "ratings" not in st.session_state:
+            st.session_state.ratings, st.session_state.books, st.session_state.book_titles = load_data()
+            st.session_state.X, st.session_state.user_mapper, st.session_state.book_mapper, st.session_state.user_inv_mapper, st.session_state.book_inv_mapper = create_matrix(st.session_state.ratings)
+            st.session_state.book_id_mapping = pd.Series( st.session_state.books.book_id.values, index= st.session_state.books.title).to_dict()
+initialize_session_state()
+# Streamlit interface for book recommendation
+st.title('Book Recommender System')
+# User inputs
+title_input = st.selectbox('Select or type a book title',  st.session_state.books['title'].unique())
+k_input = st.number_input('How many recommendations do you want?', min_value=1, max_value=20, value=5)
+if st.button('Find Similar Books'):
+        if title_input in  st.session_state.book_id_mapping:
+            book_id =  st.session_state.book_id_mapping[title_input]
+            distances, similar_ids = find_similar_books(book_id,  st.session_state.X, k=k_input,book_mapper= st.session_state.book_mapper,book_inv_mapper= st.session_state.book_inv_mapper)
+            similar_books = pd.DataFrame({
+                'Book Title': [ st.session_state.book_titles[ids] for ids in similar_ids],
+                'Distance': distances[0][1:]
+            })
+            st.write(f"Books similar to {title_input}:")
+            st.dataframe(similar_books.sort_values(by='Distance', ascending=True))
+        else:
+            st.error("Book title not found. Please check the spelling or try another title.")

collaborative_book_metadata.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

collaborative_books_df.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a9903754ef7733b97016246714ef00c8b898fdae7a88a686637133d3b97c0751
+size 11243089

requirements.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+pandas==1.4.3
+numpy==1.23.1
+scipy==1.8.1
+scikit-learn==1.1.1
+streamlit==1.10.0

utils.py ADDED Viewed

	@@ -0,0 +1,48 @@

+import pandas as pd
+import numpy as np
+from scipy.sparse import csr_matrix
+from sklearn.neighbors import NearestNeighbors
+# Define create_matrix function
+def create_matrix(df):
+    # Adapt the function to match your DataFrame's column names and structure
+    N = len(df['user_id_mapping'].unique())  # Adjusted to 'user_id_mapping'
+    M = len(df['book_id'].unique())          # Adjusted to 'book_id'
+    # Map IDs to indices
+    user_mapper = dict(zip(np.unique(df["user_id_mapping"]), list(range(N))))
+    book_mapper = dict(zip(np.unique(df["book_id"]), list(range(M))))
+    # Map indices to IDs
+    user_inv_mapper = dict(zip(list(range(N)), np.unique(df["user_id_mapping"])))
+    book_inv_mapper = dict(zip(list(range(M)), np.unique(df["book_id"])))
+    user_index = [user_mapper[i] for i in df['user_id_mapping']]  # Adjusted to 'user_id_mapping'
+    book_index = [book_mapper[i] for i in df['book_id']]          # Adjusted to 'book_id'
+    # Use 'Actual Rating' for the matrix values; corrected data handling for sparse matrix creation
+    X = csr_matrix((df["Actual Rating"], (book_index, user_index)), shape=(M, N))
+    return X, user_mapper, book_mapper, user_inv_mapper, book_inv_mapper
+"""
+Find similar books using KNN
+"""
+# Define find_similar_books function - Source - https://www.geeksforgeeks.org/recommendation-system-in-python/?ref=rp
+def find_similar_books(book_id, X, k,book_mapper,book_inv_mapper, metric='cosine'):
+    neighbour_ids = []
+    book_ind = book_mapper[book_id]
+    book_vec = X[book_ind]
+    k+=1
+    kNN = NearestNeighbors(n_neighbors=k, algorithm="brute", metric=metric)
+    kNN.fit(X)
+    book_vec = book_vec.reshape(1,-1)
+    distances, indices = kNN.kneighbors(book_vec, return_distance=True)
+    for i in range(0,k):
+        n = indices.item(i)
+        neighbour_ids.append(book_inv_mapper[n])
+    neighbour_ids.pop(0)
+    return distances, neighbour_ids