Spaces:

WebashalarForML
/

ImageDataExtractor2

Sleeping

App Files Files Community

WebashalarForML commited on 5 days ago

Commit

f74e1b2

verified ·

1 Parent(s): 00227b0

Update app.py

Browse files

Files changed (1) hide show

app.py +62 -21

app.py CHANGED Viewed

@@ -2,7 +2,7 @@
 from flask import Flask, render_template, request, redirect, url_for, flash, session, send_from_directory
 import os
 import logging
-from utility.utils import extract_text_from_images, Data_Extractor, json_to_llm_str, process_extracted_text, process_resume_data
 from backup.backup import NER_Model
 from paddleocr import PaddleOCR
@@ -116,7 +116,36 @@ def reset_upload():
         logging.warning("File not found for removal")
     return redirect(url_for('index'))
-@app.route('/process', methods=['GET','POST'])
 def process_file():
     uploaded_files = session.get('uploaded_files', [])
     if not uploaded_files:
@@ -127,35 +156,47 @@ def process_file():
     file_paths = [os.path.join(app.config['UPLOAD_FOLDER'], filename) for filename in uploaded_files]
     logging.info(f"Processing files: {file_paths}")
-    extracted_text = {}
-    processed_Img = {}
     try:
-        extracted_text, processed_Img = extract_text_from_images(file_paths)
-        logging.info(f"Extracted text: {extracted_text}")
         logging.info(f"Processed images: {processed_Img}")
-        llmText = json_to_llm_str(extracted_text)
-        logging.info(f"LLM text: {llmText}")
-        LLMdata = Data_Extractor(llmText)
-        print("llm data--------->",llmText)
-        logging.info(f"LLM data: {LLMdata}")
     except Exception as e:
-        logging.error(f"Error during LLM processing: {e}")
-        logging.info("Running backup model...")
         LLMdata = {}
         extracted_text, processed_Img = extract_text_from_images(file_paths)
         logging.info(f"Extracted text(Backup): {extracted_text}")
         logging.info(f"Processed images(Backup): {processed_Img}")
-        if extracted_text:
-            text = json_to_llm_str(extracted_text)
-            LLMdata = NER_Model(text)
-            logging.info(f"NER model data: {LLMdata}")
-        else:
-            logging.warning("No extracted text available for backup model")
     cont_data = process_extracted_text(extracted_text)
     logging.info(f"Contextual data: {cont_data}")

 from flask import Flask, render_template, request, redirect, url_for, flash, session, send_from_directory
 import os
 import logging
+from utility.utils import extract_text_from_images, process_extracted_text, process_resume_data
 from backup.backup import NER_Model
 from paddleocr import PaddleOCR
         logging.warning("File not found for removal")
     return redirect(url_for('index'))
+# @app.route('/process', methods=['GET','POST'])
+# def process_file():
+#     uploaded_files = session.get('uploaded_files', [])
+#     if not uploaded_files:
+#         flash('No files selected for processing')
+#         logging.warning("No files selected for processing")
+#         return redirect(url_for('index'))
+#     file_paths = [os.path.join(app.config['UPLOAD_FOLDER'], filename) for filename in uploaded_files]
+#     logging.info(f"Processing files: {file_paths}")
+#     extracted_text = {}
+#     processed_Img = {}
+#     try:
+#         extracted_text, processed_Img = extract_text_from_images(file_paths)
+#         logging.info(f"Extracted text: {extracted_text}")
+#         logging.info(f"Processed images: {processed_Img}")
+#         llmText = json_to_llm_str(extracted_text)
+#         logging.info(f"LLM text: {llmText}")
+#         LLMdata = Data_Extractor(llmText)
+#         print("llm data--------->",llmText)
+#         logging.info(f"LLM data: {LLMdata}")
+#     except Exception as e:
+#         logging.error(f"Error during LLM processing: {e}")
+#         logging.info("Running backup model...")
+@app.route('/process', methods=['GET', 'POST'])
 def process_file():
     uploaded_files = session.get('uploaded_files', [])
     if not uploaded_files:
     file_paths = [os.path.join(app.config['UPLOAD_FOLDER'], filename) for filename in uploaded_files]
     logging.info(f"Processing files: {file_paths}")
     try:
+        # Single Groq VLM pass on each image
+        LLMdata, extracted_text, processed_Img = extract_text_from_images(file_paths)
+        logging.info(f"Groq VLM structured data: {LLMdata}")
+        logging.info(f"Extracted text blobs: {extracted_text}")
         logging.info(f"Processed images: {processed_Img}")
+        # Regex fallback / augmentation from model text
+        cont_data = process_extracted_text(extracted_text)
+        logging.info(f"Contextual data: {cont_data}")
+        processed_data = process_resume_data(LLMdata, cont_data, extracted_text)
+        logging.info(f"Processed data: {processed_data}")
+        session['processed_data'] = processed_data
+        session['processed_Img'] = processed_Img
+        flash('Data processed and analyzed successfully')
+        return redirect(url_for('result'))
     except Exception as e:
+        logging.exception(f"Error during processing: {e}")
+        flash('Processing failed')
         LLMdata = {}
         extracted_text, processed_Img = extract_text_from_images(file_paths)
         logging.info(f"Extracted text(Backup): {extracted_text}")
         logging.info(f"Processed images(Backup): {processed_Img}")
+        try:
+            if extracted_text:
+                    text = json_to_llm_str(extracted_text)
+                    LLMdata = NER_Model(text)
+                    logging.info(f"NER model data: {LLMdata}")
+            else:
+                logging.warning("No extracted text available for backup model")
+        except Exception as e:
+            logging.exception(f"Error during processing: {e}")
+            flash('Processing failed')
+            return redirect(url_for('index'))
     cont_data = process_extracted_text(extracted_text)
     logging.info(f"Contextual data: {cont_data}")