ImageDataExtractor2

Runtime error

WebashalarForML commited on Oct 8, 2024

Commit

cf24fe3

verified ·

1 Parent(s): b6eccd9

Update utility/utils.py

Files changed (1) hide show

utility/utils.py CHANGED Viewed

@@ -400,9 +400,25 @@ def process_extracted_text(extracted_text):
     return combined_results_json
 # Process the model output for parsed result
 def process_resume_data(LLMdata,cont_data,extracted_text):
     # Removing duplicate emails
     unique_emails = []
     for email in cont_data['emails']:
@@ -421,7 +437,13 @@ def process_resume_data(LLMdata,cont_data,extracted_text):
     for num in cont_data['phone_numbers']:
         if num[-10:] not in normalized_contact:
             unique_numbers.append(num)
     # Add unique emails, links, and phone numbers to the original LLMdata
     LLMdata['Email'] += unique_emails
     LLMdata['Link'] += unique_links

     return combined_results_json
+# Function to remove duplicates (case-insensitive) from each list in the dictionary
+def remove_duplicates_case_insensitive(data_dict):
+    for key, value_list in data_dict.items():
+        seen = set()
+        unique_list = []
+        for item in value_list:
+            if item.lower() not in seen:
+                unique_list.append(item)  # Add original item (preserving its case)
+                seen.add(item.lower())    # Track lowercase version
+        # Update the dictionary with unique values
+        data_dict[key] = unique_list
 # Process the model output for parsed result
 def process_resume_data(LLMdata,cont_data,extracted_text):
+    # Apply the function to the data
+    LLMdata=remove_duplicates_case_insensitive(LLMdata)
     # Removing duplicate emails
     unique_emails = []
     for email in cont_data['emails']:
     for num in cont_data['phone_numbers']:
         if num[-10:] not in normalized_contact:
             unique_numbers.append(num)
+    # Removing duplicate Compani
+    unique_emails = []
+    for email in cont_data['emails']:
+        if email.lower() not in LLMdata['Email'].lower():
+            unique_emails.append(email)
     # Add unique emails, links, and phone numbers to the original LLMdata
     LLMdata['Email'] += unique_emails
     LLMdata['Link'] += unique_links