Spaces:

DeepSoft-Technologies
/

wikipedia-titles-category-generator

Sleeping

App Files Files Community

DeepSoft-Tech commited on Jan 1

Commit

757c949

•

1 Parent(s): e157fed

Update app.py

Browse files

Files changed (1) hide show

app.py +3 -60

app.py CHANGED Viewed

@@ -16,46 +16,13 @@ from keybert import KeyBERT
 from keyphrase_vectorizers import KeyphraseCountVectorizer
 kw_model=KeyBERT(model='AI-Growth-Lab/PatentSBERTa')
-s3 = boto3.resource('s3',
-     region_name='us-east-1',
-     aws_access_key_id='AKIA3VGKPNV5NSVBJWEE',
-     aws_secret_access_key='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')
-INDEX_API_KEY='b33ddf5d-5b1a-4d0e-9a3f-572008563791'
-INDEX_DIMENSION=768
-INDEX_ENV='gcp-starter'
-INDEX_NAME='wiki-index'
-# getting Pinecone credntials
-# INDEX_DIMENSION=768
-# logging.info(f"Index dimensions are:{INDEX_DIMENSION}")
 pinecone.init(api_key=INDEX_API_KEY, environment=INDEX_ENV)
 index = pinecone.Index(index_name=INDEX_NAME )
 tokenizer = AutoTokenizer.from_pretrained('intfloat/e5-base')
 model = AutoModel.from_pretrained('intfloat/e5-base')
-# data=pd.read_csv("wikicat_all.csv")
-def get_pat_text(pnkc_no):
-    pat_data=Patent_DataCreator(pnkc_no)
-    bib_key,pnkc_without_kindcode,pnkc_suffix=pat_data.get_bib_key()
-    bib_bucket=pat_data.get_bib_bucket()
-    bib_data=pat_data.get_bib_data(s3)
-    claims_data=pat_data.get_claims_data(s3)
-    desc_data=pat_data.get_desc_data(s3)
-    df1,df2,df3=pat_data.get_patent_dfs()
-    dataset=pat_data.get_patent_dataset()
-    Title=dataset[1]['Title'][0]
-    Abstract=dataset[1]['Abstract'][0]
-    Claims=dataset[1]['Claims'][0]
-    Description=dataset[1]['Description'][0]
-    # SOI=dataset[1]['SOI'][0]
-    pat_text= Title+Abstract
-    return pat_text
 # Function to fetch categories, title, and related text from a Wikipedia page
 def fetch_wikipedia_data(article_title):
@@ -100,24 +67,7 @@ def get_wiki_category_aprch_1(pat_text):
     res = [i for n, i in enumerate(result) if i not in result[:n]]
     return titles,res
-# def get_wiki_category_aprch_2(pat_text):
-#     print(pat_text)
-#     keywords=kw_model.extract_keywords(pat_text,keyphrase_ngram_range=(1, 3),top_n=10,vectorizer=KeyphraseCountVectorizer())
-#     titles=[]
-#     for i in range(len(keywords)):
-#         title=keywords[i][0]
-#         titles.append(title)
-#     data = []
-#     for i in titles:
-#         results = fetch_wikipedia_data(i)
-#         data.append(results)
-#     cats=[]
-#     for i in range(len(data)):
-#         if data[i] is not None:
-#             cat=data[i]['categories']
-#             cats.append(cat)
-#     result=[j for i in cats for j in i]
-#     res = [i for n, i in enumerate(result) if i not in result[:n]]
 #     return res
 def average_pool(last_hidden_states: Tensor,
@@ -161,16 +111,9 @@ def get_wiki_category(pat_text):
 def main():
     st.title('Wiki Classifier')
-    pnkc_no = st.text_input("Enter a pnkc number:")
-    pat_text = st.text_area("Enter a text paragraph:")
     if st.button('Get Wiki categories'):
-        if pnkc_no:
-            text = get_pat_text(pnkc_no)
-        else:
-            text=pat_text
         st.write("Predicting Wiki Categories for text:",text[:200])
         start_time = time.time()
         titles,wiki_categories=get_wiki_category_aprch_1(text)

 from keyphrase_vectorizers import KeyphraseCountVectorizer
 kw_model=KeyBERT(model='AI-Growth-Lab/PatentSBERTa')
 pinecone.init(api_key=INDEX_API_KEY, environment=INDEX_ENV)
 index = pinecone.Index(index_name=INDEX_NAME )
 tokenizer = AutoTokenizer.from_pretrained('intfloat/e5-base')
 model = AutoModel.from_pretrained('intfloat/e5-base')
 # Function to fetch categories, title, and related text from a Wikipedia page
 def fetch_wikipedia_data(article_title):
     res = [i for n, i in enumerate(result) if i not in result[:n]]
     return titles,res
 #     return res
 def average_pool(last_hidden_states: Tensor,
 def main():
     st.title('Wiki Classifier')
+    text = st.text_area("Enter a text paragraph:")
     if st.button('Get Wiki categories'):
         st.write("Predicting Wiki Categories for text:",text[:200])
         start_time = time.time()
         titles,wiki_categories=get_wiki_category_aprch_1(text)