Spaces:

MMOON
/

KERMIT2025

Sleeping

App Files Files Community

MMOON commited on 15 days ago

Commit

c291e47

verified ·

1 Parent(s): 1efb0d1

Update app.py

Browse files

Files changed (1) hide show

app.py +51 -74

app.py CHANGED Viewed

@@ -2,92 +2,75 @@ import streamlit as st
 import pandas as pd
 import re
 from datetime import datetime
-import pdfplumber
 import plotly.express as px
 import io
-def extract_data_from_pdf(pdf_content):
-    data_list = []
-    current_record = {}
-    for line in pdf_content.split('\n'):
-        # Extract header information
-        if 'Entreprise::' in line:
-            if current_record and 'temperature_data' in current_record:
-                data_list.append(current_record)
-            current_record = {'temperature_data': []}
         # Extract metadata
-        if 'Date:' in line:
-            try:
-                date_str = re.search(r'Date:\s*(\d{2}[./]\d{2}[./]\d{4})', line).group(1)
-                date_str = date_str.replace('/', '.')
-                current_record['date'] = datetime.strptime(date_str, '%d.%m.%Y').strftime('%Y-%m-%d')
-            except:
-                current_record['date'] = None
-        if 'Produit:' in line:
-            current_record['produit'] = line.split('Produit:')[-1].strip()
-        if 'Utilisateur:' in line:
-            current_record['utilisateur'] = line.split('Utilisateur:')[-1].strip()
-        # Extract temperature data
-        if any(x in line for x in ['Début', '+ ', 'Fin']) and '°C' in line:
-            try:
-                parts = line.strip().split()
-                time = parts[0] if 'Début' in line or 'Fin' in line else parts[1]
-                # Extract temperature values
-                temp_sterilisateur = float(parts[-3].replace('°C', ''))
-                temp_coeur = float(parts[-2].replace('°C', ''))
-                valeur_f = float(parts[-1])
-                current_record['temperature_data'].append({
-                    'temps': time,
-                    'temp_sterilisateur': temp_sterilisateur,
-                    'temp_coeur': temp_coeur,
-                    'valeur_f': valeur_f
-                })
-            except Exception as e:
-                # If extraction fails, skip the line
-                continue
-    # Add last record
-    if current_record and 'temperature_data' in current_record:
-        data_list.append(current_record)
-    return data_list
 def analyze_sterilization(data):
     results = []
-    for record in data:
-        temp_data = pd.DataFrame(record['temperature_data'])
-        # Skip if temperature data is empty
-        if temp_data.empty:
-            st.warning(f"Données de température manquantes pour l'enregistrement du {record['date']}")
-            continue
         # Determine product type and required temperature
-        is_nutabreizh = 'NutaBreizh' in record['produit']
         required_temp = 108 if is_nutabreizh else 103
         # Count minutes at required temperature
-        minutes_at_temp = len(temp_data[temp_data['temp_coeur'] >= required_temp])
         # Calculate max temperatures
-        max_temp_sterilisateur = temp_data['temp_sterilisateur'].max()
-        max_temp_coeur = temp_data['temp_coeur'].max()
         # Determine if criteria met
         criteria_met = minutes_at_temp >= 30
         results.append({
-            'Date': record['date'],
-            'Produit': record['produit'],
-            'Utilisateur': record['utilisateur'],
             'Temperature_Requise': required_temp,
             'Minutes_Temperature_Requise': minutes_at_temp,
             'Temperature_Max_Sterilisateur': max_temp_sterilisateur,
@@ -103,14 +86,8 @@ def main():
     uploaded_file = st.file_uploader("Choisir un fichier PDF", type="pdf")
     if uploaded_file is not None:
-        # Read PDF content
-        pdf_text = ""
-        with pdfplumber.open(uploaded_file) as pdf:
-            for page in pdf.pages:
-                pdf_text += page.extract_text() + "\n"
         # Process data
-        data = extract_data_from_pdf(pdf_text)
         results_df = analyze_sterilization(data)
         # Display results

 import pandas as pd
 import re
 from datetime import datetime
+import fitz  # PyMuPDF
 import plotly.express as px
 import io
+def extract_data_from_pdf(pdf_path):
+    # Open the PDF file
+    pdf_document = fitz.open(pdf_path)
+    extracted_texts = [page.get_text() for page in pdf_document]
+    pdf_document.close()
+    # Define a regular expression pattern to match the lines with temperature data
+    pattern = re.compile(r'(\+\s\d+\sMin\.|\Début)\s*(\d+°C)\s*(\d+°C)\s*(\d{2},\d{2})')
+    structured_data = []
+    # Process the extracted text from each page
+    for page_text in extracted_texts:
         # Extract metadata
+        company_match = re.search(r'Entreprise::\s*(.+)', page_text)
+        date_match = re.search(r'Date:\s*(\d{2}[./]\d{2}[./]\d{4})', page_text)
+        user_match = re.search(r'Utilisateur:\s*(.+)', page_text)
+        product_match = re.search(r'Produit:\s*(.+)', page_text)
+        if not all([company_match, date_match, user_match, product_match]):
+            continue  # Skip pages without metadata
+        company = company_match.group(1).strip()
+        date = date_match.group(1).replace('/', '.').strip()
+        user = user_match.group(1).strip()
+        product = product_match.group(1).strip()
+        # Find all matches of the pattern in the text
+        matches = pattern.findall(page_text)
+        for match in matches:
+            time, sterilizer_temp, core_temp, f_value = match
+            structured_data.append({
+                'Date': datetime.strptime(date, '%d.%m.%Y').strftime('%Y-%m-%d'),
+                'Entreprise': company,
+                'Utilisateur': user,
+                'Produit': product,
+                'Déroulement': time.strip(),
+                'Temp. du stérilisateur': float(sterilizer_temp.replace('°C', '')),
+                'Temp. à coeur': float(core_temp.replace('°C', '')),
+                'Valeur F': float(f_value.replace(',', '.'))
+            })
+    return pd.DataFrame(structured_data)
 def analyze_sterilization(data):
     results = []
+    for product, group in data.groupby('Produit'):
         # Determine product type and required temperature
+        is_nutabreizh = 'NutaBreizh' in product
         required_temp = 108 if is_nutabreizh else 103
         # Count minutes at required temperature
+        minutes_at_temp = len(group[group['Temp. à coeur'] >= required_temp])
         # Calculate max temperatures
+        max_temp_sterilisateur = group['Temp. du stérilisateur'].max()
+        max_temp_coeur = group['Temp. à coeur'].max()
         # Determine if criteria met
         criteria_met = minutes_at_temp >= 30
         results.append({
+            'Date': group['Date'].iloc[0],
+            'Produit': product,
+            'Utilisateur': group['Utilisateur'].iloc[0],
             'Temperature_Requise': required_temp,
             'Minutes_Temperature_Requise': minutes_at_temp,
             'Temperature_Max_Sterilisateur': max_temp_sterilisateur,
     uploaded_file = st.file_uploader("Choisir un fichier PDF", type="pdf")
     if uploaded_file is not None:
         # Process data
+        data = extract_data_from_pdf(uploaded_file)
         results_df = analyze_sterilization(data)
         # Display results