Spaces:

Stanford-TH
/

Script-Similarity

Running

App Files Files Community

Stanford-TH commited on May 9, 2024

Commit

d862c41

verified ·

1 Parent(s): 41118c7

Upload folder using huggingface_hub

Browse files

Files changed (9) hide show

.gitattributes +35 -35
README.md +13 -13
ScriptMatcher.py +98 -0
__init__.py +0 -0
app.py +31 -0
models/Similarity_K_Dataset/K_Dataset.csv +0 -0
models/Similarity_K_Dataset/plot_embeddings.npy +3 -0
models/Similarity_K_Dataset/synopsis_embeddings.npy +3 -0
requirements.txt +6 -0

.gitattributes CHANGED Viewed

@@ -1,35 +1,35 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,13 +1,13 @@
----
-title: Script Similarity
-emoji: 🦀
-colorFrom: yellow
-colorTo: gray
-sdk: gradio
-sdk_version: 4.29.0
-app_file: app.py
-pinned: false
-license: mit
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

+---
+title: Script Similarity
+emoji: 🦀
+colorFrom: yellow
+colorTo: gray
+sdk: gradio
+sdk_version: 4.29.0
+app_file: app.py
+pinned: false
+license: mit
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

ScriptMatcher.py ADDED Viewed

	@@ -0,0 +1,98 @@

+import pandas as pd
+import numpy as np
+from ast import literal_eval
+import yake
+import spacy
+from sklearn.metrics.pairwise import cosine_similarity
+from sentence_transformers import SentenceTransformer
+import os
+class ScriptMatcher:
+    def __init__(self, data_path = None, model_name='paraphrase-mpnet-base-v2',dataframe = None):
+        """
+        Initialize the SeriesMatcher object.
+        Parameters:
+        data_path (str): Path to the dataset file.
+        model_name (str): Name of the sentence transformer model. Default is 'paraphrase-mpnet-base-v2'.
+        """
+        if data_path is not None:
+            self.dataset = pd.read_csv(data_path)
+        if dataframe is not None:
+            self.dataset = dataframe
+        self.model = SentenceTransformer(model_name)
+        self.kw_extractor = yake.KeywordExtractor("en", n=1, dedupLim=0.9)
+        self.k_dataset = pd.read_csv('models/Similarity_K_Dataset/K_Dataset.csv')
+        self._ent_type = ["PERSON","NORP","FAC","ORG","GPE","LOC","PRODUCT","EVENT","WORK","ART","LAW",
+    "LANGUAGE","DATE","TIME","PERCENT","MONEY","QUANTITY","ORDINAL","CARDINAL"]
+        self.embeddings_synopsis_list = np.load("models/Similarity_K_Dataset/plot_embeddings.npy")
+        self.plot_embedding_list = np.load("models/Similarity_K_Dataset/synopsis_embeddings.npy")
+        try:
+            self.nlp = spacy.load("en_core_web_sm")
+        except:
+            print("Downloading spaCy NLP model...")
+            os.system(
+                "pip install https://huggingface.co/spacy/en_core_web_sm/resolve/main/en_core_web_sm-any-py3-none-any.whl")
+            self.nlp = spacy.load("en_core_web_sm")
+    def extract_keywords(self, text):
+        """
+        Extract keywords from a given text using the YAKE keyword extraction algorithm.
+        Parameters:
+        text (str): Text from which to extract keywords.
+        Returns:
+        str: A string of extracted keywords joined by spaces.
+        """
+        extracted_keywords = self.kw_extractor.extract_keywords(text)
+        return " ".join([keywords[0] for keywords in extracted_keywords if keywords[0] not in self._ent_type])
+    def preprocess_text(self, text):
+        """
+        Process a given text to replace named entities and extract keywords.
+        Parameters:
+        text (str): The text to process.
+        Returns:
+        str: Processed text with named entities replaced and keywords extracted.
+        """
+        doc = self.nlp(text)
+        replaced_text = text
+        for token in doc:
+            if token.ent_type_ != "MISC" and token.ent_type_ != "":
+                replaced_text = replaced_text.replace(token.text, f"<{token.ent_type_}>")
+        return self.extract_keywords(replaced_text)
+    def find_similar_series(self, new_synopsis, genres_keywords,k=5):
+        """
+        Find series similar to a new synopsis.
+        Parameters:
+        new_synopsis (str): The synopsis to compare.
+        k (int): The number of similar series to return.
+        Returns:
+        pd.DataFrame: A dataframe of the closest series.
+        """
+        processed_synopsis = self.preprocess_text(new_synopsis)
+        genre_keywords = " ".join(genres_keywords)
+        print(genre_keywords)
+        synopsis_sentence = genre_keywords + self.extract_keywords(processed_synopsis)
+        synopsis_embedding = self.model.encode([synopsis_sentence])
+        cosine_similarity_matrix = 0.75 * cosine_similarity(synopsis_embedding, self.embeddings_synopsis_list) + 0.25 * cosine_similarity(synopsis_embedding,self.plot_embedding_list)
+        top_k_indices = cosine_similarity_matrix.argsort()[0, -k:][::-1]
+        closest_series = self.k_dataset.iloc[top_k_indices]
+        # Add scores column
+        closest_series["Score"] = cosine_similarity_matrix[0, top_k_indices]
+        return closest_series[["Series", "Genre","Score"]].to_dict(orient='records')

__init__.py ADDED Viewed

File without changes

app.py ADDED Viewed

	@@ -0,0 +1,31 @@

+import gradio as gr
+from ScriptMatcher import ScriptMatcher
+# Initialize the ScriptMatcher instance
+scriptmatcher = ScriptMatcher()
+def classify_movie_genre(description, genres):
+    """
+    Given a description (synopsis) and genres, return similar series predictions.
+    """
+    # Split the genres string into a list of keywords
+    genre_keywords = genres.split(",")  # Assuming genres are comma-separated
+    # Get the predictions using the ScriptMatcher
+    predictions = scriptmatcher.find_similar_series(description, genre_keywords)
+    return predictions
+# Create the Gradio interface
+iface = gr.Interface(
+    fn=classify_movie_genre,
+    inputs=[
+        gr.Textbox(lines=5, label="Synopsis (Description)"),
+        gr.Textbox(label="Genres (Comma-separated)")
+    ],
+    outputs=gr.Dataframe(label="Similar Series Predictions"),
+    live=False,  # No need for live updates as the processing will be based on submission
+    title="Genre Prediction",
+    description="Provide a movie synopsis and genres to get predictions for similar scripts.",
+)
+# Launch the Gradio interface
+iface.launch(inline=False)

models/Similarity_K_Dataset/K_Dataset.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

models/Similarity_K_Dataset/plot_embeddings.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dc05423932e01a2907ce69a9832010d116ee64d86e2a19a97bdf28846fd39c92
+size 5222528

models/Similarity_K_Dataset/synopsis_embeddings.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b48d966a4993e82122d09441875c93a60f47aca960cee908220d1daf5eba7c92
+size 5222528

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+pandas==2.2.1
+numpy==1.26.4
+yake==0.4.8
+spacy==3.7.4
+scikit-learn==1.2.2
+sentence-transformers==2.6.1