Spaces:

dbleek
/

cs-gy-6613-project-final

Sleeping

App Files Files Community

dbleek commited on May 1, 2023

Commit

4d1c892

•

2 Parent(s): efd1c85 8114970

Merge pull request #2 from dbleek/milestone-3

Browse files

Files changed (6) hide show

.gitattributes +34 -0
README.md +6 -4
milestone-2.py +26 -0
milestone-3.py +77 -0
patent_classifier.pt +3 -0
requirements.txt +32 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,34 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,18 +1,20 @@
 ---
-title: CS-GY-6613 Project Milestone 2
 colorFrom: blue
 colorTo: red
 sdk: streamlit
-app_file: milestone_2.py
 pinned: false
 ---
 # cs-gy-6613-project
 Project for CS-GY-6613 Spring 2023
-# Milestone 2
-Sentiment Analysis App: https://huggingface.co/spaces/dbleek/cs-gy-6613-project
 # Milestone 1
 For milestone 1, I used the quick start instructions from VS code to connect to a remote Ubuntu container:

 ---
+title: CS-GY-6613 Project Milestone 3
 colorFrom: blue
 colorTo: red
 sdk: streamlit
+app_file: milestone-3.py
 pinned: false
 ---
 # cs-gy-6613-project
 Project for CS-GY-6613 Spring 2023
+# Milestone 3
+USPTO Patentability Classifier:https://huggingface.co/spaces/dbleek/cs-gy-6613-project
+# Milestone 2
+Sentiment Analysis App:https://huggingface.co/spaces/dbleek/cs-gy-6613-project
 # Milestone 1
 For milestone 1, I used the quick start instructions from VS code to connect to a remote Ubuntu container:

milestone-2.py ADDED Viewed

	@@ -0,0 +1,26 @@

+import streamlit as st
+from transformers import (AutoTokenizer, TFAutoModelForSequenceClassification,
+                          pipeline)
+st.title("CS-GY-6613 Project Milestone 2")
+model_choices = (
+    "distilbert-base-uncased-finetuned-sst-2-english",
+    "j-hartmann/emotion-english-distilroberta-base",
+    "joeddav/distilbert-base-uncased-go-emotions-student",
+)
+with st.form("Input Form"):
+    text = st.text_area("Write your text here:", "CS-GY-6613 is a great course!")
+    model_name = st.selectbox("Select a model:", model_choices)
+    submitted = st.form_submit_button("Submit")
+if submitted:
+    model = TFAutoModelForSequenceClassification.from_pretrained(model_name)
+    tokenizer = AutoTokenizer.from_pretrained(model_name)
+    classifier = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)
+    res = classifier(text)
+    label = res[0]["label"].upper()
+    score = res[0]["score"]
+    st.markdown(
+        f"This text was classified as **{label}** with a confidence score of **{score}**."
+    )

milestone-3.py ADDED Viewed

	@@ -0,0 +1,77 @@

+import streamlit as st
+import torch
+from datasets import load_dataset
+from transformers import AutoTokenizer
+from transformers import AutoModelForSequenceClassification
+from transformers import pipeline
+# Load HUPD dataset
+dataset_dict = load_dataset(
+    "HUPD/hupd",
+    name="sample",
+    data_files="https://huggingface.co/datasets/HUPD/hupd/blob/main/hupd_metadata_2022-02-22.feather",
+    icpr_label=None,
+    train_filing_start_date="2016-01-01",
+    train_filing_end_date="2016-01-21",
+    val_filing_start_date="2016-01-22",
+    val_filing_end_date="2016-01-31",
+)
+# Process data
+filtered_dataset = dataset_dict["validation"].filter(
+    lambda e: e["decision"] == "ACCEPTED" or e["decision"] == "REJECTED"
+)
+dataset = filtered_dataset.shuffle(seed=42).select(range(20))
+dataset = dataset.sort("patent_number")
+# Create pipeline using model trainned on Colab
+model = torch.load("patent_classifier.pt", map_location=torch.device("cpu"))
+tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased")
+classifier = pipeline("text-classification", model=model, tokenizer=tokenizer)
+def load_patent():
+    selected_application = dataset.select([applications[st.session_state.id]])
+    st.session_state.abstract = selected_application["abstract"][0]
+    st.session_state.claims = selected_application["claims"][0]
+    st.session_state.title = selected_application["title"][0]
+st.title("CS-GY-6613 Project Milestone 3")
+# List patent numbers for select box
+applications = {}
+for ds_index, example in enumerate(dataset):
+    applications.update({example["patent_number"]: ds_index})
+st.selectbox(
+    "Select a patent application:", applications, on_change=load_patent, key="id"
+)
+# Application title displayed for additional context only, not used with model
+st.text_area("Title", key="title", value=dataset[0]["title"], height=50)
+# Classifier input form
+with st.form("Input Form"):
+    abstract = st.text_area(
+        "Abstract", key="abstract", value=dataset[0]["abstract"], height=200
+    )
+    claims = st.text_area(
+        "Claims", key="claims", value=dataset[0]["abstract"], height=200
+    )
+    submitted = st.form_submit_button("Get Patentability Score")
+if submitted:
+    selected_application = dataset.select([applications[st.session_state.id]])
+    res = classifier(abstract, claims)
+    if res[0]["label"] == "LABEL_0":
+        pred = "ACCEPTED"
+    elif res[0]["label"] == "LABEL_1":
+        pred = "REJECTED"
+    score = res[0]["score"]
+    label = selected_application["decision"][0]
+    result = st.markdown(
+        "This text was classified as  **{}** with a confidence score of **{}**.".format(
+            pred, score
+        )
+    )
+    check = st.markdown("Actual Label: **{}**.".format(label))

patent_classifier.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8fbbdc470f673703431aa31cc7451af0d0608df3bd6e7006ab32866803f4eece
+size 267882633

requirements.txt CHANGED Viewed

@@ -1,16 +1,24 @@
 absl-py==1.4.0
 altair==4.2.2
 astunparse==1.6.3
 attrs==22.2.0
 blinker==1.6.1
 cachetools==5.3.0
 certifi==2022.12.7
 charset-normalizer==3.1.0
 click==8.1.3
 decorator==5.1.1
 entrypoints==0.4
 filelock==3.10.7
 flatbuffers==23.3.3
 gast==0.4.0
 gitdb==4.0.10
 GitPython==3.1.31
@@ -28,12 +36,28 @@ Jinja2==3.1.2
 jsonschema==4.17.3
 keras==2.12.0
 libclang==16.0.0
 Markdown==3.4.3
 markdown-it-py==2.2.0
 MarkupSafe==2.1.2
 mdurl==0.1.2
 ml-dtypes==0.0.4
 numpy==1.23.5
 oauthlib==3.2.2
 opt-einsum==3.3.0
 packaging==23.0
@@ -56,12 +80,14 @@ PyYAML==6.0
 regex==2023.3.23
 requests==2.28.2
 requests-oauthlib==1.3.1
 rich==13.3.3
 rsa==4.9
 scipy==1.10.1
 six==1.16.0
 smmap==5.0.0
 streamlit==1.21.0
 tensorboard==2.12.1
 tensorboard-data-server==0.7.0
 tensorboard-plugin-wit==1.8.1
@@ -72,9 +98,13 @@ termcolor==2.2.0
 tokenizers==0.13.3
 toml==0.10.2
 toolz==0.12.0
 tornado==6.2
 tqdm==4.65.0
 transformers==4.27.4
 typing_extensions==4.5.0
 tzdata==2023.3
 tzlocal==4.3
@@ -84,4 +114,6 @@ watchdog==3.0.0
 wcwidth==0.2.6
 Werkzeug==2.2.3
 wrapt==1.14.1
 zipp==3.15.0

 absl-py==1.4.0
+aiohttp==3.8.4
+aiosignal==1.3.1
 altair==4.2.2
 astunparse==1.6.3
+async-timeout==4.0.2
 attrs==22.2.0
 blinker==1.6.1
 cachetools==5.3.0
 certifi==2022.12.7
 charset-normalizer==3.1.0
 click==8.1.3
+cmake==3.26.3
+datasets==2.12.0
 decorator==5.1.1
+dill==0.3.6
 entrypoints==0.4
 filelock==3.10.7
 flatbuffers==23.3.3
+frozenlist==1.3.3
+fsspec==2023.4.0
 gast==0.4.0
 gitdb==4.0.10
 GitPython==3.1.31
 jsonschema==4.17.3
 keras==2.12.0
 libclang==16.0.0
+lit==16.0.2
 Markdown==3.4.3
 markdown-it-py==2.2.0
 MarkupSafe==2.1.2
 mdurl==0.1.2
 ml-dtypes==0.0.4
+mpmath==1.3.0
+multidict==6.0.4
+multiprocess==0.70.14
+networkx==3.1
 numpy==1.23.5
+nvidia-cublas-cu11==11.10.3.66
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+nvidia-cuda-runtime-cu11==11.7.99
+nvidia-cudnn-cu11==8.5.0.96
+nvidia-cufft-cu11==10.9.0.58
+nvidia-curand-cu11==10.2.10.91
+nvidia-cusolver-cu11==11.4.0.1
+nvidia-cusparse-cu11==11.7.4.91
+nvidia-nccl-cu11==2.14.3
+nvidia-nvtx-cu11==11.7.91
 oauthlib==3.2.2
 opt-einsum==3.3.0
 packaging==23.0
 regex==2023.3.23
 requests==2.28.2
 requests-oauthlib==1.3.1
+responses==0.18.0
 rich==13.3.3
 rsa==4.9
 scipy==1.10.1
 six==1.16.0
 smmap==5.0.0
 streamlit==1.21.0
+sympy==1.11.1
 tensorboard==2.12.1
 tensorboard-data-server==0.7.0
 tensorboard-plugin-wit==1.8.1
 tokenizers==0.13.3
 toml==0.10.2
 toolz==0.12.0
+torch==2.0.0
+torchaudio==2.0.1
+torchvision==0.15.1
 tornado==6.2
 tqdm==4.65.0
 transformers==4.27.4
+triton==2.0.0
 typing_extensions==4.5.0
 tzdata==2023.3
 tzlocal==4.3
 wcwidth==0.2.6
 Werkzeug==2.2.3
 wrapt==1.14.1
+xxhash==3.2.0
+yarl==1.9.2
 zipp==3.15.0