Spaces:

tuliodisanto
/

Buscador_Rol_vs.4_IA

Sleeping

App Files Files Community

tuliodisanto commited on Aug 18

Commit

218b8c6

verified ·

1 Parent(s): f29ffb9

Update app.py

Browse files

Files changed (1) hide show

app.py +27 -36

app.py CHANGED Viewed

@@ -5,7 +5,6 @@ import os
 import sys
 import traceback
 import subprocess
-# A importação do SentenceTransformer (Bi-Encoder) não é mais necessária
 from sentence_transformers import CrossEncoder
 import csv
 from collections import defaultdict
@@ -50,40 +49,35 @@ DATA_HAS_CHANGED = False
 # --- Funções de Feedback ---
 def normalize_text_for_feedback(text):
     if pd.isna(text): return ""
     try:
-        from enhanced_search_v2 import normalize_text as es_normalize_text
-        return es_normalize_text(str(text).strip())
     except ImportError:
         import unidecode
-        return unidecode.unidecode(str(text).lower().strip())
 def load_user_feedback():
     global USER_BEST_MATCHES_COUNTS
-    USER_BEST_MATCHES_COUNTS = {}
     feedback_file_path = os.path.join(os.path.dirname(os.path.abspath(__file__)), USER_FEEDBACK_FILE)
     if not os.path.exists(feedback_file_path):
         with open(feedback_file_path, 'w', newline='', encoding='utf-8') as f: csv.writer(f).writerow(FEEDBACK_CSV_COLUMNS)
         return
     try:
         with open(feedback_file_path, 'r', encoding='utf-8') as f:
-            reader = csv.reader(f)
-            try:
-                header = next(reader)
-                if [col.strip() for col in header] != FEEDBACK_CSV_COLUMNS:
-                    print(f"--- [AVISO] Cabeçalho do {USER_FEEDBACK_FILE} incorreto.")
-                    return
-            except StopIteration:
-                return
             for row in reader:
-                if len(row) == len(FEEDBACK_CSV_COLUMNS):
-                    row_dict = dict(zip(FEEDBACK_CSV_COLUMNS, row))
-                    query_norm, tuss_code = row_dict.get('query_normalized', ''), row_dict.get('tuss_code_submitted', '')
-                    if query_norm and tuss_code:
-                        if query_norm not in USER_BEST_MATCHES_COUNTS: USER_BEST_MATCHES_COUNTS[query_norm] = {}
-                        USER_BEST_MATCHES_COUNTS[query_norm][tuss_code] = USER_BEST_MATCHES_COUNTS[query_norm].get(tuss_code, 0) + 1
-        print(f"--- [SUCESSO] Feedback de usuário carregado/sincronizado. ---")
     except Exception as e: print(f"--- [ERRO] Falha ao carregar feedback: {e} ---"); traceback.print_exc()
 # --- Execução de Scripts e Importações ---
@@ -99,7 +93,6 @@ app = Flask(__name__)
 DF_ORIGINAL, DF_NORMALIZED, FUZZY_CORPUS, BM25_MODEL, DB_WORD_SET, doc_freq, tuss_map = (None, None, None, None, set(), {}, {})
 CORRECTION_CORPUS, NORMALIZED_CORRECTION_CORPUS = [], []
 PORTUGUESE_WORD_SET = set()
-# O Bi-Encoder (SEMANTIC_MODEL) não é mais usado, então a variável foi removida.
 CROSS_ENCODER_MODEL = None
 try:
@@ -113,7 +106,6 @@ try:
     PORTUGUESE_WORD_SET = load_general_dictionary(general_dict_path)
     load_user_feedback()
-    # O carregamento do Bi-Encoder (SEMANTIC_MODEL) foi removido para economizar memória.
     print("\n--- [SETUP] Carregando modelo Cross-Encoder (Etapa de reordenação)... ---")
     cross_encoder_model_name = 'cross-encoder/ms-marco-MiniLM-L-6-v2'
     CROSS_ENCODER_MODEL = CrossEncoder(cross_encoder_model_name, device='cpu')
@@ -135,19 +127,18 @@ def search():
         data = request.get_json()
         query = data.get('query', '').strip()
-        # O parâmetro 'semantic_model' foi removido da chamada da função
         results = search_procedure_with_log(
-            query,
-            DF_ORIGINAL,
-            DF_NORMALIZED,
-            FUZZY_CORPUS,
-            (CORRECTION_CORPUS, NORMALIZED_CORRECTION_CORPUS),
-            PORTUGUESE_WORD_SET,
-            BM25_MODEL,
-            DB_WORD_SET,
-            doc_freq,
-            tuss_map,
-            limit_per_layer=15,
             cross_encoder_model=CROSS_ENCODER_MODEL,
             user_best_matches_counts=USER_BEST_MATCHES_COUNTS,
             user_feedback_threshold=USER_FEEDBACK_THRESHOLD
@@ -184,7 +175,7 @@ def submit_feedback_route():
         DATA_HAS_CHANGED = True
         print(f"--- [DADOS] '{USER_FEEDBACK_FILE}' foi modificado. Commit agendado para o desligamento. ---")
         load_user_feedback()
         return jsonify({"status": "success", "message": "Feedback recebido!"}), 200

 import sys
 import traceback
 import subprocess
 from sentence_transformers import CrossEncoder
 import csv
 from collections import defaultdict
 # --- Funções de Feedback ---
 def normalize_text_for_feedback(text):
+    """Função de normalização usada para consistência no arquivo de feedback."""
     if pd.isna(text): return ""
     try:
+        from enhanced_search_v2 import sanitize_text as es_sanitize_text
+        return es_sanitize_text(str(text).strip())
     except ImportError:
         import unidecode
+        # Fallback de higienização caso o import falhe
+        normalized = unidecode.unidecode(str(text).lower())
+        sanitized = re.sub(r'[^\w\s]', ' ', normalized)
+        return re.sub(r'\s+', ' ', sanitized).strip()
 def load_user_feedback():
+    """Carrega o arquivo de feedback e compila as contagens de 'melhor correspondência' por query."""
     global USER_BEST_MATCHES_COUNTS
+    USER_BEST_MATCHES_COUNTS = defaultdict(lambda: defaultdict(int))
     feedback_file_path = os.path.join(os.path.dirname(os.path.abspath(__file__)), USER_FEEDBACK_FILE)
     if not os.path.exists(feedback_file_path):
         with open(feedback_file_path, 'w', newline='', encoding='utf-8') as f: csv.writer(f).writerow(FEEDBACK_CSV_COLUMNS)
         return
     try:
         with open(feedback_file_path, 'r', encoding='utf-8') as f:
+            reader = csv.DictReader(f)
             for row in reader:
+                query_norm = row.get('query_normalized', '')
+                tuss_code = row.get('tuss_code_submitted', '')
+                if query_norm and tuss_code:
+                    USER_BEST_MATCHES_COUNTS[query_norm][tuss_code] += 1
+        print(f"--- [SUCESSO] Feedback de usuário carregado. {len(USER_BEST_MATCHES_COUNTS)} queries com feedback. ---")
     except Exception as e: print(f"--- [ERRO] Falha ao carregar feedback: {e} ---"); traceback.print_exc()
 # --- Execução de Scripts e Importações ---
 DF_ORIGINAL, DF_NORMALIZED, FUZZY_CORPUS, BM25_MODEL, DB_WORD_SET, doc_freq, tuss_map = (None, None, None, None, set(), {}, {})
 CORRECTION_CORPUS, NORMALIZED_CORRECTION_CORPUS = [], []
 PORTUGUESE_WORD_SET = set()
 CROSS_ENCODER_MODEL = None
 try:
     PORTUGUESE_WORD_SET = load_general_dictionary(general_dict_path)
     load_user_feedback()
     print("\n--- [SETUP] Carregando modelo Cross-Encoder (Etapa de reordenação)... ---")
     cross_encoder_model_name = 'cross-encoder/ms-marco-MiniLM-L-6-v2'
     CROSS_ENCODER_MODEL = CrossEncoder(cross_encoder_model_name, device='cpu')
         data = request.get_json()
         query = data.get('query', '').strip()
+        # CORREÇÃO: A chamada da função foi atualizada para corresponder à nova assinatura
+        # em 'enhanced_search_v2.py', removendo os argumentos 'tuss_map' e 'limit_per_layer'.
         results = search_procedure_with_log(
+            query=query,
+            df_original=DF_ORIGINAL,
+            df_normalized=DF_NORMALIZED,
+            fuzzy_search_corpus=FUZZY_CORPUS,
+            correction_corpus=(CORRECTION_CORPUS, NORMALIZED_CORRECTION_CORPUS),
+            portuguese_word_set=PORTUGUESE_WORD_SET,
+            bm25_model=BM25_MODEL,
+            db_word_set=DB_WORD_SET,
+            doc_freq=doc_freq,
             cross_encoder_model=CROSS_ENCODER_MODEL,
             user_best_matches_counts=USER_BEST_MATCHES_COUNTS,
             user_feedback_threshold=USER_FEEDBACK_THRESHOLD
         DATA_HAS_CHANGED = True
         print(f"--- [DADOS] '{USER_FEEDBACK_FILE}' foi modificado. Commit agendado para o desligamento. ---")
         load_user_feedback()
         return jsonify({"status": "success", "message": "Feedback recebido!"}), 200