Spaces:

kxx-kkk
/

FYP_Essay_QASystem

Sleeping

App Files Files Community

kxx-kkk commited on Apr 12, 2024

Commit

e3706e0

verified ·

1 Parent(s): fd3d53b

Upload app.py

Browse files

Files changed (1) hide show

app.py +26 -25

app.py CHANGED Viewed

@@ -30,6 +30,30 @@ def question_model():
     question_answerer = pipeline("question-answering", model=model, tokenizer=tokenizer, handle_impossible_answer=True)
     return question_answerer
 # # get the answer by passing the context & question to the model
 # def question_answering(context, question):
 #     with st.spinner(text="Loading question model..."):
@@ -90,29 +114,6 @@ def question_answering(context, question):
             container.write("<h5><b>Answer:</b></h5>" + answer + "<p><small>(F1 score: " + answer_score + ")</small></p><br>",
                             unsafe_allow_html=True)
-@st.cache_data(show_spinner=False)
-def extract_text(file_path):
-    text = ""
-    image_text = ""
-    with st.spinner(text="Extracting text from file..."):
-        with open(file_path, "rb") as pdf_file:
-            pdf_reader = PyPDF2.PdfReader(pdf_file)
-            num_pages = len(pdf_reader.pages)
-            for page_number in range(num_pages):
-                # st.write(f"Page {page_number + 1}")
-                page = pdf_reader.pages[page_number]
-                text += page.extract_text()
-        images = convert_from_path(file_path)  # Convert PDF pages to images
-        for i, image in enumerate(images):
-            image_text += pytesseract.image_to_string(image)
-        # text = text + image_text
-        text = image_text
-        # remove more than one new line
-        text = re.sub(r"(?<!\n)\n(?!\n)", " ", text)
-    return text
 #-------------------- Main Webpage  --------------------
@@ -178,8 +179,8 @@ with tab2:
         if not st.session_state.text_extracted:
             with tempfile.NamedTemporaryFile(delete=False) as temp_file:
                 temp_file.write(uploaded_file.read())  # Save uploaded file to a temporary path
-                raw_text = extract_text(temp_file.name)
-                context2 = raw_text
             st.session_state.text_extracted = True

     question_answerer = pipeline("question-answering", model=model, tokenizer=tokenizer, handle_impossible_answer=True)
     return question_answerer
+@st.cache_data(show_spinner=False)
+def extract_text(file_path):
+    text = ""
+    image_text = ""
+    with st.spinner(text="Extracting text from file..."):
+        with open(file_path, "rb") as pdf_file:
+            pdf_reader = PyPDF2.PdfReader(pdf_file)
+            num_pages = len(pdf_reader.pages)
+            for page_number in range(num_pages):
+                # st.write(f"Page {page_number + 1}")
+                page = pdf_reader.pages[page_number]
+                text += page.extract_text()
+        images = convert_from_path(file_path)  # Convert PDF pages to images
+        for i, image in enumerate(images):
+            image_text += pytesseract.image_to_string(image)
+        # text = text + image_text
+        text = image_text
+        # remove more than one new line
+        text = re.sub(r"(?<!\n)\n(?!\n)", " ", text)
+    return text
 # # get the answer by passing the context & question to the model
 # def question_answering(context, question):
 #     with st.spinner(text="Loading question model..."):
             container.write("<h5><b>Answer:</b></h5>" + answer + "<p><small>(F1 score: " + answer_score + ")</small></p><br>",
                             unsafe_allow_html=True)
 #-------------------- Main Webpage  --------------------
         if not st.session_state.text_extracted:
             with tempfile.NamedTemporaryFile(delete=False) as temp_file:
                 temp_file.write(uploaded_file.read())  # Save uploaded file to a temporary path
+            raw_text = extract_text(temp_file.name)
+            context2 = raw_text
             st.session_state.text_extracted = True