Spaces:

PanigrahiNirma
/

PDF-QA

Running

PanigrahiNirma commited on 3 days ago

Commit

9a5a690

•

1 Parent(s): 8a789bb

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,7 +1,7 @@
 import gradio as gr
 from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
 from transformers.pipelines import pipeline
-import PyPDF2
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.metrics.pairwise import cosine_similarity
 import numpy as np
@@ -13,12 +13,7 @@ tokenizer = AutoTokenizer.from_pretrained(model_name)
 qa_pipeline = pipeline("text2text-generation", model=model, tokenizer=tokenizer)
 def read_pdf(file):
-    reader = PyPDF2.PdfFileReader(file)
-    text = ""
-    for page_num in range(reader.numPages):
-        page = reader.getPage(page_num)
-        text += page.extract_text()
-    return text
 def retrieve_relevant_text(question, context, top_n=5):
     vectorizer = TfidfVectorizer().fit_transform([question] + context)

 import gradio as gr
 from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
 from transformers.pipelines import pipeline
+from pdfminer.high_level import extract_text
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.metrics.pairwise import cosine_similarity
 import numpy as np
 qa_pipeline = pipeline("text2text-generation", model=model, tokenizer=tokenizer)
 def read_pdf(file):
+    return extract_text(file)
 def retrieve_relevant_text(question, context, top_n=5):
     vectorizer = TfidfVectorizer().fit_transform([question] + context)