Spaces:

umangsoni
/

sentiment-analysis

Sleeping

App Files Files Community

umangsoni commited on Jul 24, 2023

Commit

f42a46b

1 Parent(s): 95eb783

add finetune.py

Browse files

Files changed (2) hide show

app.py +50 -26
finetune.py +25 -7

app.py CHANGED Viewed

@@ -1,33 +1,57 @@
 import streamlit as st
-from transformers import pipeline
 # title
-st.title("Sentiment Analysis - Extract sentiment from a given text")
 # subtitle
-st.markdown("## Sentiment Analysis App - Using `transformers`, `streamlit` -  hosted on 🤗 Spaces")
 st.markdown("")
-# text input
-user_input = st.text_area("Please enter a sentence for sentiment analysis", "I am so happy and excited!")
-@st.cache_resource
-def get_sentiment_model():
-    return pipeline('sentiment-analysis')
-sentiment_model = get_sentiment_model()  # load model
-if user_input is not None:
-    with st.spinner("🤖 AI is at Work! "):
-        result = sentiment_model(user_input)
-        st.write(result)
-    # st.success("Here you go!")
-    st.balloons()
-else:
-    st.write("Enter a sentence")
-st.caption("Made by @us87")

+# Import necessary libraries
 import streamlit as st
+from datasets import load_dataset
+from transformers import AutoTokenizer, AutoModelForSequenceClassification
+import pandas as pd
 # title
+st.title("Patentability Score - Extract sentiment from a given text")
 # subtitle
+st.markdown("## Patentability Score - Finetuned on The Harvard USPTO Patent Dataset -  hosted on 🤗 Spaces")
 st.markdown("")
+# Load trained model and tokenizer
+model_path = "./results"  # Replace with your model path
+tokenizer = AutoTokenizer.from_pretrained(model_path)
+model = AutoModelForSequenceClassification.from_pretrained(model_path)
+# Load USPTO dataset and extract unique patent IDs
+patent_data = load_dataset(
+    'HUPD/hupd',
+    name='sample',
+    data_files="https://huggingface.co/datasets/HUPD/hupd/blob/main/hupd_metadata_2022-02-22.feather",
+    icpr_label=None,
+    train_filing_start_date='2016-01-01',
+    train_filing_end_date='2016-01-31',
+)
+df = pd.DataFrame({
+    'patent_number': patent_data['train']['patent_number'],
+    'abstract': patent_data['train']['abstract'],
+    'decision': patent_data['train']['decision'],
+}).set_index('patent_number')  # Create a dataframe with patent number as index
+patent_ids = df.index.unique().tolist()  # Get unique patent IDs
+# Create a dropdown menu for patent IDs
+patent_id = st.selectbox("Select Patent Application ID", patent_ids)
+# Fetch and display abstract and claims for selected patent
+abstract, claims = df.loc[patent_id, ['abstract', 'claims']] # Fetch abstract and claims for selected patent
+st.text_area("Abstract:", value=abstract, height=200, max_chars=None, key=None)
+st.text_area("Claims:", value=claims, height=200, max_chars=None, key=None)
+if st.button("Submit"):
+    # Preprocess input
+    inputs = tokenizer(abstract + " " + claims, return_tensors="pt")
+    # Run model
+    outputs = model(**inputs)
+    # Process outputs
+    probs = outputs.logits.softmax(dim=1).detach().numpy()[0]
+    score = probs[1]  # Probability of being "ACCEPTED"
+    # Display score
+    st.write(f"Patentability Score: {score}")

finetune.py CHANGED Viewed

@@ -2,6 +2,9 @@ from transformers import DistilBertTokenizerFast, DistilBertForSequenceClassific
 from datasets import load_dataset
 import torch
 from torch.utils.data import Dataset
 # Check if we have a MPS compatible device
 mps_device = torch.device("mps" if torch.backends.mps.is_built() else "cpu")
@@ -24,16 +27,31 @@ dataset_dict = load_dataset(
     val_filing_end_date='2016-01-31',
 )
-label_values = ['ACCEPTED', 'REJECTED', 'PENDING']
-train_texts = dataset_dict['train']['abstract']
-train_labels = [label_values.index(decision)
-                for decision in dataset_dict['train']['decision'] if decision in label_values]
-validation_texts = dataset_dict['validation']['abstract']
-validation_labels = [label_values.index(decision)
-                     for decision in dataset_dict['validation']['decision'] if decision in label_values]
 # Create a PyTorch Dataset
 class USPTODataset(Dataset):

 from datasets import load_dataset
 import torch
 from torch.utils.data import Dataset
+from tqdm import tqdm
+import pandas as pd
 # Check if we have a MPS compatible device
 mps_device = torch.device("mps" if torch.backends.mps.is_built() else "cpu")
     val_filing_end_date='2016-01-31',
 )
+label_values = ['REJECTED', 'ACCEPTED']
+df = pd.DataFrame({
+    'abstract': dataset_dict['train']['abstract'],
+    'decision': dataset_dict['train']['decision']
+})
+# Filter out abstracts where decision is not in label_values
+df = df[df['decision'].isin(label_values)]
+df['decision'] = df['decision'].apply(lambda x: 1 if x == 'ACCEPTED' else 0)
+train_texts, train_labels = df['abstract'].tolist(), df['decision'].tolist()
+# Do the same for the validation dataset
+df = pd.DataFrame({
+    'abstract': dataset_dict['validation']['abstract'],
+    'decision': dataset_dict['validation']['decision']
+})
+# Filter out abstracts where decision is not in label_values
+df = df[df['decision'].isin(label_values)]
+df['decision'] = df['decision'].apply(lambda x: 1 if x == 'ACCEPTED' else 0)
+validation_texts, validation_labels = df['abstract'].tolist(), df['decision'].tolist()
+print("Number of training samples: {:,}\nNumber of validation samples: {:,}".format(len(train_texts), len(validation_texts)))
 # Create a PyTorch Dataset
 class USPTODataset(Dataset):