Spaces:

Shami96
/

PDF-Data_Extractor

Running

App Files Files Community

Shami96 commited on Aug 22

Commit

575fdf9

verified ·

1 Parent(s): 0d57117

Update updated_word.py

Browse files

Files changed (1) hide show

updated_word.py +34 -17

updated_word.py CHANGED Viewed

@@ -570,7 +570,7 @@ def handle_attendance_list_table_enhanced(table, flat_json):
     return replacements_made
 def fix_management_summary_details_column(table, flat_json):
-    """FINAL FIX: Enhanced management summary processing that processes ALL standards correctly"""
     replacements_made = 0
     print(f"    🎯 FIX: Management Summary DETAILS column processing")
@@ -600,7 +600,7 @@ def fix_management_summary_details_column(table, flat_json):
     for mgmt_type in mgmt_types:
         print(f"    ✅ Confirmed {mgmt_type} table processing")
-        # FIXED: Build management data dict from flattened keys
         mgmt_data = {}
         # Look for flattened keys like "Mass Management Summary.Std 5. Verification"
@@ -617,29 +617,38 @@ def fix_management_summary_details_column(table, flat_json):
         print(f"    📋 Processing {mgmt_type} with standards: {list(mgmt_data.keys())}")
-        # Process the table rows - FIXED: Better row processing
         for row_idx, row in enumerate(table.rows):
             if len(row.cells) >= 2:
                 standard_cell = row.cells[0]
                 details_cell = row.cells[1]
                 standard_text = get_clean_text(standard_cell).strip()
                 standard_text_lower = standard_text.lower()
                 # Skip header rows
                 if any(header in standard_text_lower for header in ["standard", "requirement", "details", "management"]):
                     continue
-                # Only process cells with red text in details column
                 if not has_red_text(details_cell):
                     continue
-                print(f"      🔍 Processing row {row_idx + 1}: '{standard_text}'")
-                # FIXED: Comprehensive standard matching
                 replacement_value = None
                 matched_std = None
-                # Strategy 1: Extract standard number and match
                 std_match = re.search(r'std\s*(\d+)', standard_text_lower)
                 if std_match:
                     std_num = std_match.group(1)
@@ -653,8 +662,9 @@ def fix_management_summary_details_column(table, flat_json):
                             print(f"      ✅ Found match by std number: '{std_key}'")
                             break
-                # Strategy 2: Keyword-based matching if std number doesn't work
                 if not replacement_value:
                     if "daily" in standard_text_lower and "check" in standard_text_lower:
                         replacement_value = find_best_standard_value(mgmt_data, ["Std 1. Daily Check", "Daily Check"])
                         matched_std = "Daily Check related"
@@ -664,17 +674,10 @@ def fix_management_summary_details_column(table, flat_json):
                     elif "internal review" in standard_text_lower:
                         replacement_value = find_best_standard_value(mgmt_data, ["Std 6. Internal Review", "Std 7. Internal Review", "Std 5. Internal Review", "Internal Review"])
                         matched_std = "Internal Review related"
-                    elif "fault" in standard_text_lower and "recording" in standard_text_lower:
-                        replacement_value = find_best_standard_value(mgmt_data, ["Std 2. Fault Recording", "Fault Recording"])
-                        matched_std = "Fault Recording related"
-                    elif "fault" in standard_text_lower and "repair" in standard_text_lower:
-                        replacement_value = find_best_standard_value(mgmt_data, ["Std 3. Fault Repair", "Fault Repair"])
-                        matched_std = "Fault Repair related"
-                # Strategy 3: Try all available standards if nothing specific matches
                 if not replacement_value and mgmt_data:
-                    print(f"      🔍 No specific match, trying all available standards...")
-                    # Just take the first available standard for this row
                     for std_key, std_value in mgmt_data.items():
                         replacement_value = std_value
                         matched_std = std_key
@@ -693,17 +696,31 @@ def fix_management_summary_details_column(table, flat_json):
                         replacement_text = str(replacement_value)
                     print(f"      🎯 About to replace red text with: '{replacement_text[:100]}...'")
                     cell_replacements = replace_red_text_in_cell(details_cell, replacement_text)
                     replacements_made += cell_replacements
                     if cell_replacements > 0:
                         print(f"      ✅ SUCCESSFULLY replaced '{standard_text}' details in {mgmt_type}")
                         print(f"      📋 Used data from: '{matched_std}'")
                     else:
                         print(f"      ❌ Failed to replace red text in cell")
                 else:
                     print(f"      ⚠️ No replacement found for '{standard_text}' in {mgmt_type}")
                     print(f"      📋 Available standards: {list(mgmt_data.keys())}")
     print(f"    📊 Total management summary replacements: {replacements_made}")
     return replacements_made

     return replacements_made
 def fix_management_summary_details_column(table, flat_json):
+    """DEBUG VERSION: Enhanced management summary processing with detailed debugging - FIXED FOR FLATTENED JSON"""
     replacements_made = 0
     print(f"    🎯 FIX: Management Summary DETAILS column processing")
     for mgmt_type in mgmt_types:
         print(f"    ✅ Confirmed {mgmt_type} table processing")
+        # Build management data dict from flattened keys
         mgmt_data = {}
         # Look for flattened keys like "Mass Management Summary.Std 5. Verification"
         print(f"    📋 Processing {mgmt_type} with standards: {list(mgmt_data.keys())}")
+        # DEBUG: Check every row in the table
+        print(f"    🔍 Analyzing all {len(table.rows)} rows in table:")
         for row_idx, row in enumerate(table.rows):
             if len(row.cells) >= 2:
                 standard_cell = row.cells[0]
                 details_cell = row.cells[1]
                 standard_text = get_clean_text(standard_cell).strip()
+                details_text = get_clean_text(details_cell).strip()
                 standard_text_lower = standard_text.lower()
+                print(f"      📋 Row {row_idx + 1}:")
+                print(f"         📄 Standard: '{standard_text}'")
+                print(f"         📄 Details: '{details_text[:50]}...' (length: {len(details_text)})")
+                print(f"         🔴 Has red text: {has_red_text(details_cell)}")
                 # Skip header rows
                 if any(header in standard_text_lower for header in ["standard", "requirement", "details", "management"]):
+                    print(f"         ⏭️ Skipping header row")
                     continue
+                # Check if this row has red text
                 if not has_red_text(details_cell):
+                    print(f"         ⏭️ No red text found, skipping")
                     continue
+                print(f"      🎯 PROCESSING row {row_idx + 1}: '{standard_text}'")
+                # Extract standard number and match
                 replacement_value = None
                 matched_std = None
                 std_match = re.search(r'std\s*(\d+)', standard_text_lower)
                 if std_match:
                     std_num = std_match.group(1)
                             print(f"      ✅ Found match by std number: '{std_key}'")
                             break
+                # Keyword-based matching if std number doesn't work
                 if not replacement_value:
+                    print(f"      🔍 No std number match, trying keyword matching...")
                     if "daily" in standard_text_lower and "check" in standard_text_lower:
                         replacement_value = find_best_standard_value(mgmt_data, ["Std 1. Daily Check", "Daily Check"])
                         matched_std = "Daily Check related"
                     elif "internal review" in standard_text_lower:
                         replacement_value = find_best_standard_value(mgmt_data, ["Std 6. Internal Review", "Std 7. Internal Review", "Std 5. Internal Review", "Internal Review"])
                         matched_std = "Internal Review related"
+                # Last resort: use any available standard
                 if not replacement_value and mgmt_data:
+                    print(f"      🔍 No specific match, using first available standard...")
                     for std_key, std_value in mgmt_data.items():
                         replacement_value = std_value
                         matched_std = std_key
                         replacement_text = str(replacement_value)
                     print(f"      🎯 About to replace red text with: '{replacement_text[:100]}...'")
+                    # DEBUG: Show red text segments before replacement
+                    red_segments = extract_red_text_segments(details_cell)
+                    print(f"      🔍 Found {len(red_segments)} red text segments:")
+                    for i, segment in enumerate(red_segments):
+                        print(f"         Segment {i+1}: '{segment['text'][:50]}...'")
                     cell_replacements = replace_red_text_in_cell(details_cell, replacement_text)
                     replacements_made += cell_replacements
                     if cell_replacements > 0:
                         print(f"      ✅ SUCCESSFULLY replaced '{standard_text}' details in {mgmt_type}")
                         print(f"      📋 Used data from: '{matched_std}'")
+                        # Verify the replacement worked
+                        new_details_text = get_clean_text(details_cell).strip()
+                        print(f"      🔍 New details text: '{new_details_text[:100]}...'")
                     else:
                         print(f"      ❌ Failed to replace red text in cell")
+                        print(f"      🔍 Cell still contains: '{get_clean_text(details_cell)[:100]}...'")
                 else:
                     print(f"      ⚠️ No replacement found for '{standard_text}' in {mgmt_type}")
                     print(f"      📋 Available standards: {list(mgmt_data.keys())}")
+            else:
+                print(f"      ⚠️ Row {row_idx + 1} has insufficient columns ({len(row.cells)})")
     print(f"    📊 Total management summary replacements: {replacements_made}")
     return replacements_made