Spaces:

blaxx14
/

pdf-parser-api

Sleeping

blaxx14 commited on Apr 12

Commit

605c260

1 Parent(s): fa6a5e5

update KTP scanning

Files changed (5) hide show

Dockerfile CHANGED Viewed

@@ -1,6 +1,17 @@
 FROM python:3.10-slim
-RUN apt-get update && apt-get install -y tesseract-ocr libtesseract-dev
 COPY requirements.txt .
 RUN pip install -r requirements.txt

 FROM python:3.10-slim
+RUN apt-get update && apt-get install -y \
+    tesseract-ocr \
+    tesseract-ocr-ind \
+    libtesseract-dev \
+    libleptonica-dev \
+    poppler-utils \
+    libsm6 \
+    libxext6 \
+    libxrender-dev \
+    build-essential \
+    && apt-get clean \
+    && rm -rf /var/lib/apt/lists/*
 COPY requirements.txt .
 RUN pip install -r requirements.txt

apt.txt ADDED Viewed

+tesseract-ocr
+libtesseract-dev
+tesseract-ocr-ind

backend/file_uploads.py CHANGED Viewed

@@ -1,7 +1,7 @@
 from flask import Flask, request, jsonify
 from werkzeug.utils import secure_filename
 from .parser import parse_promotion_pdf, parse_promotion_excel
-from .text_recog import parsing_image
 import os
 app = Flask(__name__)
@@ -34,7 +34,7 @@ def upload_file():
         if filename.endswith('.pdf'):
             parsed_file = parse_promotion_pdf(filepath)
         elif filename.endswith(('.png', '.jpg', '.jpeg', '.bmp', '.tiff')):
-            parsed_file = parsing_image(filepath, filename)
         elif filename.endswith('.xlsx' or '.csv'):
             parsed_file = parse_promotion_excel(filepath, filename)
         else:

 from flask import Flask, request, jsonify
 from werkzeug.utils import secure_filename
 from .parser import parse_promotion_pdf, parse_promotion_excel
+from .text_recog import extract_ktp_info
 import os
 app = Flask(__name__)
         if filename.endswith('.pdf'):
             parsed_file = parse_promotion_pdf(filepath)
         elif filename.endswith(('.png', '.jpg', '.jpeg', '.bmp', '.tiff')):
+            parsed_file = extract_ktp_info(filepath, filename)
         elif filename.endswith('.xlsx' or '.csv'):
             parsed_file = parse_promotion_excel(filepath, filename)
         else:

backend/file_utils.py CHANGED Viewed

@@ -15,11 +15,11 @@ def convert_image_to_word(text, filename):
     doc.add_paragraph(text)
     doc.add_paragraph("\n" + "-"*50 + "\n")
-    if not os.path.exists(os.path.join('temp', filename)):
-        filepath = os.path.join('temp', filename)
     else:
         copy_num+=1
-        filepath = os.path.join('temp', f'{filename}({copy_num})')
     doc.save(filepath)
@@ -33,7 +33,7 @@ def wait_for_file_release(file_path, timeout=5):
             time.sleep(0.5)
     return False
-def delete_temp_folder(temp_path="./temp"):
     time.sleep(0.5)
     for filename in os.listdir(temp_path):
         file_path = os.path.join(temp_path, filename)

     doc.add_paragraph(text)
     doc.add_paragraph("\n" + "-"*50 + "\n")
+    if not os.path.exists(os.path.join('/tmp', filename)):
+        filepath = os.path.join('/tmp', filename)
     else:
         copy_num+=1
+        filepath = os.path.join('/tmp', f'{filename}({copy_num})')
     doc.save(filepath)
             time.sleep(0.5)
     return False
+def delete_temp_folder(temp_path="/tmp"):
     time.sleep(0.5)
     for filename in os.listdir(temp_path):
         file_path = os.path.join(temp_path, filename)

backend/text_recog.py CHANGED Viewed

@@ -1,16 +1,47 @@
-import cv2
 import pytesseract
 from .file_utils import convert_image_to_word
-def parsing_image(image, filename):
-    pytesseract.pytesseract.tesseract_cmd = r'C:\Users\hp\AppData\Local\Programs\Tesseract-OCR\tesseract.exe'
-    image = cv2.imread(image)
-    gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
-    _, thresh = cv2.threshold(gray, 150, 255, cv2.THRESH_BINARY_INV)
-    custom_config = r'--oem 3 --psm 6'
-    data = pytesseract.image_to_string(thresh, config=custom_config)
-    convert_image_to_word(data, filename)
-    return {}

 import pytesseract
+import cv2
+import re
+import platform
 from .file_utils import convert_image_to_word
+def configure_tesseract():
+    system = platform.system()
+    if system == "Windows":
+        pytesseract.pytesseract.tesseract_cmd = r"C:\Users\hp\AppData\Local\Programs\Tesseract-OCR\tesseract.exe"
+    else:
+        pytesseract.pytesseract.tesseract_cmd = "/usr/bin/tesseract"
+def extract_ktp_info(image_path, filename):
+    configure_tesseract()
+    img = cv2.imread(image_path)
+    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
+    text = pytesseract.image_to_string(gray, lang='ind')
+    text = text.replace('\n\n\n', '\n').replace('\n\n', '\n').replace('\n', '\n')
+    matches = re.findall(r':\s*(.+)', text)
+    city = re.search(r'PROVINSI\s+(.+?)\n(.+?)\n', text)
+    result = {
+        "nik" : matches[1],
+        "nama" : matches[2],
+        "tempat_tgl_lahir" : matches[3],
+        "jenis_kelamin" : matches[4],
+        "alamat" : matches[5],
+        "rt_rw" : matches[6],
+        "kel/desa" : matches[7],
+        "kecamatan" : matches[8],
+        "provinsi" : city.group(1).strip(),
+        "kab/kota" : city.group(2).strip(),
+        "agama" : matches[9],
+        "pekerjaan" : matches[10],
+        "gol_dar" : matches[12]
+    }
+    if "WNI" in text:
+        result["Kewarganegaraan"] = "WNI"
+    convert_image_to_word(result, f'KTP {filename}')
+    return result