Spaces:

okarachidera
/

CreditCopilot

Sleeping

App Files Files Community

okara chidera commited on 15 days ago

Commit

1a2fb37

unverified ·

1 Parent(s): ffb1971

feat: added ocr scanning

Browse files

Files changed (2) hide show

app.py +20 -15
requirements.txt +1 -0

app.py CHANGED Viewed

@@ -3,35 +3,40 @@ import easyocr
 from transformers import pipeline
 import re
 import json
 from PIL import Image
 # ---------- INITIALIZE MODELS ----------
-# OCR reader for image text
 reader = easyocr.Reader(["en"], gpu=False)
-# NER model (fine-tuned for named entity extraction)
-ner_pipeline = pipeline("token-classification", model="Davlan/bert-base-multilingual-cased-ner-hrl", aggregation_strategy="simple")
 # ---------- HELPERS ----------
 def extract_text_from_image(image):
-    """Extracts text from an uploaded ID or document image using EasyOCR."""
     result = reader.readtext(image)
     return " ".join([r[1] for r in result])
 def extract_with_ner(text):
-    """Extracts key identity info using both regex + transformer-based NER."""
     entities = ner_pipeline(text)
     extracted = {}
-    # Pre-fill with regex findings
     extracted["Email"] = ", ".join(re.findall(r"[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}", text)) or None
     extracted["Phone"] = ", ".join(re.findall(r"\+?\d[\d\s\-]{7,14}", text)) or None
     extracted["Date"] = ", ".join(re.findall(r"\d{1,2}[\/\-.]\d{1,2}[\/\-.]\d{2,4}", text)) or None
     extracted["Document Numbers"] = ", ".join(re.findall(r"[A-Z]{1,3}\d{6,10}", text)) or None
-    # Add entities from transformer
     for ent in entities:
         label = ent["entity_group"]
         value = ent["word"].strip()
@@ -43,16 +48,16 @@ def extract_with_ner(text):
         elif label in ["LOC", "ADDRESS"]:
             extracted.setdefault("Address", set()).add(value)
-    # Convert sets to strings
-    for key, val in extracted.items():
-        if isinstance(val, set):
-            extracted[key] = ", ".join(val)
     return json.dumps(extracted, indent=2, ensure_ascii=False)
 def analyze_kyc_document(image):
-    """Main function to process the uploaded KYC image."""
     text = extract_text_from_image(image)
     structured = extract_with_ner(text)
     return structured, text
@@ -73,4 +78,4 @@ with gr.Blocks(title="AI KYC Extractor") as demo:
     extract_btn.click(fn=analyze_kyc_document, inputs=doc_input, outputs=[json_output, text_output])
 if __name__ == "__main__":
-    demo.launch(share=True)

 from transformers import pipeline
 import re
 import json
+import numpy as np
 from PIL import Image
 # ---------- INITIALIZE MODELS ----------
 reader = easyocr.Reader(["en"], gpu=False)
+ner_pipeline = pipeline(
+    "token-classification",
+    model="Davlan/bert-base-multilingual-cased-ner-hrl",
+    aggregation_strategy="simple"
+)
 # ---------- HELPERS ----------
 def extract_text_from_image(image):
+    """Extracts text from uploaded ID image using EasyOCR."""
+    # Convert PIL image → NumPy array for EasyOCR
+    if isinstance(image, Image.Image):
+        image = np.array(image)
     result = reader.readtext(image)
     return " ".join([r[1] for r in result])
 def extract_with_ner(text):
+    """Extracts KYC details using regex + transformer NER."""
     entities = ner_pipeline(text)
     extracted = {}
+    # Regex fields
     extracted["Email"] = ", ".join(re.findall(r"[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}", text)) or None
     extracted["Phone"] = ", ".join(re.findall(r"\+?\d[\d\s\-]{7,14}", text)) or None
     extracted["Date"] = ", ".join(re.findall(r"\d{1,2}[\/\-.]\d{1,2}[\/\-.]\d{2,4}", text)) or None
     extracted["Document Numbers"] = ", ".join(re.findall(r"[A-Z]{1,3}\d{6,10}", text)) or None
+    # Transformer entities
     for ent in entities:
         label = ent["entity_group"]
         value = ent["word"].strip()
         elif label in ["LOC", "ADDRESS"]:
             extracted.setdefault("Address", set()).add(value)
+    # Flatten sets
+    for k, v in extracted.items():
+        if isinstance(v, set):
+            extracted[k] = ", ".join(v)
     return json.dumps(extracted, indent=2, ensure_ascii=False)
 def analyze_kyc_document(image):
+    """Main function to process uploaded KYC image."""
     text = extract_text_from_image(image)
     structured = extract_with_ner(text)
     return structured, text
     extract_btn.click(fn=analyze_kyc_document, inputs=doc_input, outputs=[json_output, text_output])
 if __name__ == "__main__":
+    demo.launch()

requirements.txt CHANGED Viewed

@@ -3,3 +3,4 @@ easyocr
 torch
 transformers
 Pillow

 torch
 transformers
 Pillow
+numpy