Spaces:

dschandra
/

ALNISFPO

Sleeping

App Files Files Community

dschandra commited on Dec 3, 2024

Commit

b9789b9

verified ·

1 Parent(s): 0331a22

Update app.py

Browse files

Files changed (1) hide show

app.py +31 -21

app.py CHANGED Viewed

@@ -36,6 +36,35 @@ def clean_description(description, item_number=None):
     return description.strip()
 def parse_po_items_with_filters(text):
     """
     Parses purchase order items from the extracted text using regex with filters.
@@ -60,6 +89,7 @@ def parse_po_items_with_filters(text):
                     " ".join(description_accumulator).strip(),
                     item_number=int(current_item["Item"]),
                 )
                 data.append(current_item)
                 description_accumulator = []
@@ -94,27 +124,9 @@ def parse_po_items_with_filters(text):
             " ".join(description_accumulator).strip(),
             item_number=int(current_item["Item"]),
         )
         data.append(current_item)
-    # Handle item 3 split from item 2
-    for i, row in enumerate(data):
-        if row["Item"] == "2" and "As per Drg. to." in row["Description"]:
-            item_3_description = re.search(r"As per Drg. to. G000810.*Mfd:-2022", row["Description"])
-            if item_3_description:
-                data.insert(
-                    i + 1,
-                    {
-                        "Item": "3",
-                        "Description": item_3_description.group(),
-                        "Qty": "12",
-                        "Unit": "Nos.",
-                        "Unit Price": "3.80",
-                        "Total Price": "45.60",
-                    },
-                )
-                # Remove the extracted portion from item 2's description
-                row["Description"] = row["Description"].replace(item_3_description.group(), "").strip()
     # Clean specific patterns from item 7
     for item in data:
         if item["Item"] == "7":
@@ -139,8 +151,6 @@ def parse_po_items_with_filters(text):
     return df, "Data extracted successfully."
 # Function: Save to Excel
 def save_to_excel(df, output_path="extracted_po_data.xlsx"):
     df.to_excel(output_path, index=False)

     return description.strip()
+def format_description(description):
+    """
+    Formats the description into multiple lines based on predefined patterns.
+    Args:
+        description (str): Raw description string.
+    Returns:
+        str: Formatted description with line breaks.
+    """
+    # Extract parts of the description based on the expected structure
+    line1_match = re.search(r"Stainless Steel RATING AND DIAGRAM PLATE", description)
+    line2_match = re.search(r"As per Drg\.No\..*?\d+", description)
+    line3_match = re.search(r"SIZE\s*:\s*\d+mm\s*X\s*\d+mm\s*X\s*[\d.]+mm\s*Thick", description)
+    line4_match = re.search(r"With Serial No:.*", description)
+    # Construct the formatted description
+    formatted_description = []
+    if line1_match:
+        formatted_description.append(line1_match.group())
+    if line2_match:
+        formatted_description.append(line2_match.group())
+    if line3_match:
+        formatted_description.append(line3_match.group())
+    if line4_match:
+        formatted_description.append(line4_match.group())
+    # Join the lines with a newline character
+    return "\n".join(formatted_description)
 def parse_po_items_with_filters(text):
     """
     Parses purchase order items from the extracted text using regex with filters.
                     " ".join(description_accumulator).strip(),
                     item_number=int(current_item["Item"]),
                 )
+                current_item["Description"] = format_description(current_item["Description"])
                 data.append(current_item)
                 description_accumulator = []
             " ".join(description_accumulator).strip(),
             item_number=int(current_item["Item"]),
         )
+        current_item["Description"] = format_description(current_item["Description"])
         data.append(current_item)
     # Clean specific patterns from item 7
     for item in data:
         if item["Item"] == "7":
     return df, "Data extracted successfully."
 # Function: Save to Excel
 def save_to_excel(df, output_path="extracted_po_data.xlsx"):
     df.to_excel(output_path, index=False)