Spaces:

tuliodisanto
/

Buscador_Rol_vs.4_IA

Sleeping

App Files Files Community

tuliodisanto commited on Aug 18

Commit

f67aa61

verified ·

1 Parent(s): 0e93b1d

Update app.py

Browse files

Files changed (1) hide show

app.py +42 -51

app.py CHANGED Viewed

@@ -1,12 +1,12 @@
-# app.py (Versão Corrigida com Sintaxe Válida)
 ###################################################################################################
 #
-# CORREÇÃO:
-# - A variável 'user_prompt' na função 'get_ai_suggestion' foi reescrita com aspas triplas (""")
-#   para corrigir o erro de sintaxe 'SyntaxError: EOL while scanning string literal'. Isso
-#   garante que a string de múltiplas linhas seja formatada corretamente.
-#
-# O restante do arquivo permanece idêntico, com todas as funcionalidades completas.
 #
 ###################################################################################################
@@ -45,7 +45,7 @@ else:
     print("--- [SUCESSO] Cliente de Inferência da IA configurado.")
 # Configuração do Repositório Hugging Face
-HF_TOKEN = os.environ.get("HF_TOKEN")
 REPO_ID = "tuliodisanto/Buscador_Rol_vs.2_IA"
 if not HF_TOKEN:
     print("--- [AVISO CRÍTICO] Secret 'HF_TOKEN' não encontrado. Os arquivos não serão salvos no repositório. ---")
@@ -80,7 +80,7 @@ def load_user_feedback():
                 query_norm, tuss_code = row.get('query_normalized', ''), row.get('tuss_code_submitted', '')
                 if query_norm and tuss_code:
                     USER_BEST_MATCHES_COUNTS[query_norm][tuss_code] += 1
-        print(f"--- [SUCESSO] Feedback de usuário carregado. {len(USER_BEST_MATCHES_COUNTS)} queries com feedback. ---")
     except Exception as e: print(f"--- [ERRO] Falha ao carregar feedback: {e} ---"); traceback.print_exc()
 def commit_file_to_repo(local_file_name, commit_message):
@@ -114,25 +114,32 @@ atexit.register(save_data_on_exit)
 sys.path.insert(0, os.path.dirname(os.path.abspath(__file__)))
 try:
-    from enhanced_search_v2 import load_and_prepare_database, load_correction_corpus, search_procedure_with_log
     print("--- [SUCESSO] Módulo 'enhanced_search_v2.py' importado. ---")
-except Exception as e:
     print(f"--- [ERRO CRÍTICO] Não foi possível importar 'enhanced_search_v2.py': {e} ---"); traceback.print_exc(); sys.exit(1)
 app = Flask(__name__)
-# Declaração das variáveis globais que serão preenchidas na inicialização
 DF_ORIGINAL, DF_NORMALIZED, FUZZY_CORPUS, BM25_MODEL, DOC_FREQ = (None, None, None, None, {})
-CORRECTION_CORPUS = ([], [], set())
 CROSS_ENCODER_MODEL = None
 try:
     db_path = os.path.join(os.path.dirname(os.path.abspath(__file__)), 'rol_procedures_database.csv')
     DF_ORIGINAL, DF_NORMALIZED, FUZZY_CORPUS, BM25_MODEL, DOC_FREQ = load_and_prepare_database(db_path)
     dict_path = os.path.join(os.path.dirname(os.path.abspath(__file__)), 'Dic.csv')
-    CORRECTION_CORPUS = load_correction_corpus(dict_path, column_name='Termo_Correto')
     load_user_feedback()
     print("\n--- [SETUP] Carregando modelo Cross-Encoder... ---")
@@ -146,11 +153,11 @@ except Exception as e:
 # --- Bloco 4: Definição dos Endpoints da API ---
 @app.route('/')
-def index():
     return render_template('index.html')
 @app.route('/favicon.ico')
-def favicon():
     return '', 204
 @app.route('/search', methods=['POST'])
@@ -159,13 +166,14 @@ def search():
     try:
         data = request.get_json()
         query = data.get('query', '').strip()
         results = search_procedure_with_log(
-            query=query,
-            df_original=DF_ORIGINAL,
-            df_normalized=DF_NORMALIZED,
             fuzzy_search_corpus=FUZZY_CORPUS,
-            correction_corpus=CORRECTION_CORPUS,
             bm25_model=BM25_MODEL,
             doc_freq=DOC_FREQ,
             cross_encoder_model=CROSS_ENCODER_MODEL,
@@ -185,7 +193,7 @@ def submit_feedback_route():
         data = request.get_json()
         query, tuss_code_submitted = data.get('query'), data.get('tuss_code')
         if not query or not tuss_code_submitted: return jsonify({"status": "error", "message": "Dados incompletos."}), 400
         file_path = os.path.join(os.path.dirname(os.path.abspath(__file__)), USER_FEEDBACK_FILE)
         with open(file_path, 'a', newline='', encoding='utf-8') as f:
             writer = csv.writer(f)
@@ -194,12 +202,12 @@ def submit_feedback_route():
             tuss_desc_assoc = " | ".join(matching_rows['Descricao_TUSS'].unique()) if not matching_rows.empty else 'Não encontrado'
             rol_names_assoc = " | ".join(matching_rows['Procedimento_Rol'].unique()) if not matching_rows.empty else 'Não encontrado'
             writer.writerow([datetime.datetime.now().isoformat(), query, query_normalized, tuss_code_submitted, '', tuss_desc_assoc, rol_names_assoc, 'confirm_result'])
         DATA_HAS_CHANGED = True
         print(f"--- [DADOS] Feedback recebido para a query '{query}'. Commit agendado. ---")
         load_user_feedback()
         return jsonify({"status": "success", "message": "Feedback recebido!"}), 200
-    except Exception as e:
         print("--- [ERRO NO SUBMIT_FEEDBACK] ---"); traceback.print_exc();
         return jsonify({"status": "error", "message": "Erro interno."}), 500
@@ -231,34 +239,18 @@ def get_ai_suggestion():
             unique_id = f"{r.get('Codigo_TUSS')}_{sha1(str(r.get('Procedimento_Rol', '')).encode('utf-8')).hexdigest()[:8]}"
             pruned_result = {'unique_id': unique_id, **{key: r.get(key) for key in RELEVANT_KEYS_FOR_AI if r.get(key) and pd.notna(r.get(key))}}
             if 'Codigo_TUSS' in pruned_result: simplified_results.append(pruned_result)
         formatted_results_str = json.dumps(simplified_results, indent=2, ensure_ascii=False)
-        system_prompt = (
-            "Você é um especialista em terminologia de procedimentos médicos do Brasil (Tabela TUSS e Rol da ANS). "
-            "Sua tarefa é analisar uma lista de procedimentos e escolher os 3 que melhor correspondem à consulta do usuário, em ordem de relevância."
-        )
-        # --- CORREÇÃO APLICADA AQUI ---
-        # A string de múltiplas linhas agora usa aspas triplas (""") para evitar o SyntaxError.
         user_prompt = f"""Consulta do usuário: "{query}"
 ### Resultados da Busca para Análise (JSON):
 {formatted_results_str}
 ### Sua Tarefa:
-1.  **Pense em voz alta:** Dentro de uma tag `<thought>`, explique seu processo de raciocínio passo a passo. Analise a consulta e compare os resultados, justificando por que um é mais relevante que o outro com base em seu `Procedimento_Rol` e outros campos.
-2.  **Forneça a resposta final:** Após a tag `<thought>`, seu único resultado deve ser um bloco de código JSON. Este JSON **DEVE** conter uma chave `suggested_ids` com uma lista de **EXATAMENTE 3 strings** do campo `unique_id` que você selecionou, ordenadas da mais para a menos relevante.
-**EXEMPLO DE RESPOSTA OBRIGATÓRIA:**
-<thought>
-O Raciocínio da IA fica aqui...
-</thought>
-```json
-{{
-  "suggested_ids": ["30602122_abc12345", "30602360_def67890", "30602033_ghi11223"]
-}}
-```"""
         completion = client_ia.chat.completions.create( model="baidu/ERNIE-4.5-21B-A3B-PT", messages=[{"role": "system", "content": system_prompt}, {"role": "user", "content": user_prompt}], max_tokens=1500, temperature=0.1 )
         raw_response = completion.choices[0].message.content.strip()
@@ -274,13 +266,12 @@ O Raciocínio da IA fica aqui...
             start = raw_response.find("```json") + len("```json")
             end = raw_response.rfind("```")
             json_str = raw_response[start:end].strip()
-            try:
-                json_part = json.loads(json_str)
             except json.JSONDecodeError: pass
         if not json_part or "suggested_ids" not in json_part or not isinstance(json_part.get("suggested_ids"), list):
             return jsonify({ "error": "A IA não retornou a lista de 'suggested_ids' no formato esperado.", "details": raw_response }), 422
         return jsonify({ "suggested_ids": json_part["suggested_ids"][:3], "thought_process": thought_process })
     except Exception as e:

+# app.py (Versão Final Absolutamente Completa)
 ###################################################################################################
 #
+# Este arquivo serve como a interface da aplicação (API/backend). Ele é responsável por:
+# 1. Carregar os modelos de IA e a base de dados na inicialização.
+# 2. Carregar e unificar todos os dicionários para a correção ortográfica.
+# 3. Expor todos os endpoints da API: /search, /submit_feedback, /get_tuss_info, /get_ai_suggestion.
+# 4. Chamar o motor de busca (enhanced_search_v2.py) com os parâmetros corretos.
+# 5. Gerenciar o feedback do usuário e a persistência dos dados no Hugging Face Hub.
 #
 ###################################################################################################
     print("--- [SUCESSO] Cliente de Inferência da IA configurado.")
 # Configuração do Repositório Hugging Face
+HF_TOKEN = os.environ.get("HF_TOKEN")
 REPO_ID = "tuliodisanto/Buscador_Rol_vs.2_IA"
 if not HF_TOKEN:
     print("--- [AVISO CRÍTICO] Secret 'HF_TOKEN' não encontrado. Os arquivos não serão salvos no repositório. ---")
                 query_norm, tuss_code = row.get('query_normalized', ''), row.get('tuss_code_submitted', '')
                 if query_norm and tuss_code:
                     USER_BEST_MATCHES_COUNTS[query_norm][tuss_code] += 1
+        print(f"--- [SUCESSO] Feedback de usuário carregado. {len(USER_BEST_MATCHES_COUNTS)} queries com feedback.")
     except Exception as e: print(f"--- [ERRO] Falha ao carregar feedback: {e} ---"); traceback.print_exc()
 def commit_file_to_repo(local_file_name, commit_message):
 sys.path.insert(0, os.path.dirname(os.path.abspath(__file__)))
 try:
+    from enhanced_search_v2 import load_and_prepare_database, load_correction_corpus, load_general_dictionary, search_procedure_with_log
     print("--- [SUCESSO] Módulo 'enhanced_search_v2.py' importado. ---")
+except Exception as e:
     print(f"--- [ERRO CRÍTICO] Não foi possível importar 'enhanced_search_v2.py': {e} ---"); traceback.print_exc(); sys.exit(1)
 app = Flask(__name__)
+# Declaração das variáveis globais
 DF_ORIGINAL, DF_NORMALIZED, FUZZY_CORPUS, BM25_MODEL, DOC_FREQ = (None, None, None, None, {})
+CORRECTION_CORPUS = ([], [])
+VALID_WORDS_SET = set()
 CROSS_ENCODER_MODEL = None
 try:
     db_path = os.path.join(os.path.dirname(os.path.abspath(__file__)), 'rol_procedures_database.csv')
     DF_ORIGINAL, DF_NORMALIZED, FUZZY_CORPUS, BM25_MODEL, DOC_FREQ = load_and_prepare_database(db_path)
     dict_path = os.path.join(os.path.dirname(os.path.abspath(__file__)), 'Dic.csv')
+    original_terms, normalized_terms, db_word_set = load_correction_corpus(dict_path, column_name='Termo_Correto')
+    CORRECTION_CORPUS = (original_terms, normalized_terms)
+    general_dict_path = os.path.join(os.path.dirname(os.path.abspath(__file__)), 'dicionario_ptbr.txt')
+    portuguese_word_set = load_general_dictionary(general_dict_path)
+    VALID_WORDS_SET = db_word_set.union(portuguese_word_set)
+    print(f"--- [SUCESSO] Dicionário unificado criado com {len(VALID_WORDS_SET)} palavras válidas. ---")
     load_user_feedback()
     print("\n--- [SETUP] Carregando modelo Cross-Encoder... ---")
 # --- Bloco 4: Definição dos Endpoints da API ---
 @app.route('/')
+def index():
     return render_template('index.html')
 @app.route('/favicon.ico')
+def favicon():
     return '', 204
 @app.route('/search', methods=['POST'])
     try:
         data = request.get_json()
         query = data.get('query', '').strip()
         results = search_procedure_with_log(
+            query=query,
+            df_original=DF_ORIGINAL,
+            df_normalized=DF_NORMALIZED,
             fuzzy_search_corpus=FUZZY_CORPUS,
+            correction_corpus=CORRECTION_CORPUS,
+            valid_words_set=VALID_WORDS_SET,
             bm25_model=BM25_MODEL,
             doc_freq=DOC_FREQ,
             cross_encoder_model=CROSS_ENCODER_MODEL,
         data = request.get_json()
         query, tuss_code_submitted = data.get('query'), data.get('tuss_code')
         if not query or not tuss_code_submitted: return jsonify({"status": "error", "message": "Dados incompletos."}), 400
         file_path = os.path.join(os.path.dirname(os.path.abspath(__file__)), USER_FEEDBACK_FILE)
         with open(file_path, 'a', newline='', encoding='utf-8') as f:
             writer = csv.writer(f)
             tuss_desc_assoc = " | ".join(matching_rows['Descricao_TUSS'].unique()) if not matching_rows.empty else 'Não encontrado'
             rol_names_assoc = " | ".join(matching_rows['Procedimento_Rol'].unique()) if not matching_rows.empty else 'Não encontrado'
             writer.writerow([datetime.datetime.now().isoformat(), query, query_normalized, tuss_code_submitted, '', tuss_desc_assoc, rol_names_assoc, 'confirm_result'])
         DATA_HAS_CHANGED = True
         print(f"--- [DADOS] Feedback recebido para a query '{query}'. Commit agendado. ---")
         load_user_feedback()
         return jsonify({"status": "success", "message": "Feedback recebido!"}), 200
+    except Exception as e:
         print("--- [ERRO NO SUBMIT_FEEDBACK] ---"); traceback.print_exc();
         return jsonify({"status": "error", "message": "Erro interno."}), 500
             unique_id = f"{r.get('Codigo_TUSS')}_{sha1(str(r.get('Procedimento_Rol', '')).encode('utf-8')).hexdigest()[:8]}"
             pruned_result = {'unique_id': unique_id, **{key: r.get(key) for key in RELEVANT_KEYS_FOR_AI if r.get(key) and pd.notna(r.get(key))}}
             if 'Codigo_TUSS' in pruned_result: simplified_results.append(pruned_result)
         formatted_results_str = json.dumps(simplified_results, indent=2, ensure_ascii=False)
+        system_prompt = ( "Você é um especialista em terminologia de procedimentos médicos do Brasil (Tabela TUSS e Rol da ANS). " "Sua tarefa é analisar uma lista de procedimentos e escolher os 3 que melhor correspondem à consulta do usuário, em ordem de relevância." )
         user_prompt = f"""Consulta do usuário: "{query}"
 ### Resultados da Busca para Análise (JSON):
 {formatted_results_str}
 ### Sua Tarefa:
+1.  **Pense em voz alta:** Dentro de uma tag `<thought>`, explique seu processo de raciocínio passo a passo.
+2.  **Forneça a resposta final:** Após a tag `<thought>`, seu único resultado deve ser um bloco de código JSON contendo uma chave `suggested_ids` com uma lista de **EXATAMENTE 3 strings** do campo `unique_id` que você selecionou, ordenadas da mais para a menos relevante."""
         completion = client_ia.chat.completions.create( model="baidu/ERNIE-4.5-21B-A3B-PT", messages=[{"role": "system", "content": system_prompt}, {"role": "user", "content": user_prompt}], max_tokens=1500, temperature=0.1 )
         raw_response = completion.choices[0].message.content.strip()
             start = raw_response.find("```json") + len("```json")
             end = raw_response.rfind("```")
             json_str = raw_response[start:end].strip()
+            try: json_part = json.loads(json_str)
             except json.JSONDecodeError: pass
         if not json_part or "suggested_ids" not in json_part or not isinstance(json_part.get("suggested_ids"), list):
             return jsonify({ "error": "A IA não retornou a lista de 'suggested_ids' no formato esperado.", "details": raw_response }), 422
         return jsonify({ "suggested_ids": json_part["suggested_ids"][:3], "thought_process": thought_process })
     except Exception as e: