Spaces:

NextGenTech
/

AutomatedSemanticDiscovery

Sleeping

App Files Files Community

GaetanoParente commited on 4 days ago

Commit

9cbbfac

1 Parent(s): 9acef2c

rimossi import inutili e blindato utilizzo utente

Browse files

Files changed (6) hide show

app.py +47 -9
src/extraction/extractor.py +2 -4
src/ingestion/semantic_splitter.py +0 -1
src/utils/build_schema.py +1 -1
src/validation/shapes/schema_constraints.ttl +0 -44
src/validation/validator.py +2 -2

app.py CHANGED Viewed

@@ -10,6 +10,7 @@ from pyvis.network import Network
 from dotenv import load_dotenv
 import warnings
 import logging
 # --- IMPORT MODULI SPECIFICI ---
 from src.ingestion.semantic_splitter import ActivaSemanticSplitter
@@ -40,6 +41,8 @@ def local_css(file_name):
 local_css("assets/style.css")
 # --- SESSION STATE MANAGEMENT ---
 if 'pipeline_stage' not in st.session_state:
     st.session_state.pipeline_stage = 0
 if 'document_text' not in st.session_state:
@@ -95,6 +98,21 @@ def get_node_color(labels):
     label = specific_labels[0]
     return COLOR_PALETTE.get(label, COLOR_PALETTE["DEFAULT"])
 # Pre-load dei modelli in memoria
 _ = get_splitter()
 _ = get_extractor()
@@ -121,14 +139,31 @@ st.sidebar.title("⚙️ Configurazione")
 env_uri = os.getenv("NEO4J_URI", "")
 env_user = os.getenv("NEO4J_USER", "neo4j")
 env_password = os.getenv("NEO4J_PASSWORD", "")
-env_google_key = os.getenv("GOOGLE_API_KEY", "")
 st.sidebar.subheader("Backend AI (TDDT)")
-if env_google_key:
-    st.sidebar.success("✅ Google API Key: Configurata")
 else:
-    google_key_input = st.sidebar.text_input("Inserisci GOOGLE_API_KEY", type="password")
-    if google_key_input: os.environ["GOOGLE_API_KEY"] = google_key_input
 st.sidebar.subheader("Knowledge Graph")
 uri = st.sidebar.text_input("URI Neo4j", value=env_uri)
@@ -193,13 +228,15 @@ with tab_gen:
         with st.expander("ℹ️ Cosa fa questa fase?"):
             st.write("Segmenta il testo in frammenti coerenti analizzando la similarità semantica vettoriale tra le frasi.")
         if st.session_state.pipeline_stage >= 1:
             chunks = st.session_state.chunks
             st.success(f"Chunking completato! Generati {len(chunks)} frammenti semantici.")
             with st.expander("Vedi dettagli frammenti"):
                 st.json(chunks)
         else:
-            if st.button("Avvia Semantic Splitter", type="primary"):
                 with st.spinner("Creazione chunks in corso..."):
                     try:
                         splitter = get_splitter()
@@ -235,9 +272,10 @@ with tab_gen:
                 if data['triples']:
                     st.dataframe(pd.DataFrame([t.model_dump() for t in data['triples']]), hide_index=True)
         else:
-            if st.button("Avvia Estrazione TDDT", type="primary"):
-                if not os.getenv("GOOGLE_API_KEY"):
-                    st.error("⚠️ GOOGLE_API_KEY mancante. Inseriscila nella sidebar.")
                 else:
                     with st.spinner("Classificazione ed estrazione gerarchica in corso..."):
                         try:

 from dotenv import load_dotenv
 import warnings
 import logging
+import requests
 # --- IMPORT MODULI SPECIFICI ---
 from src.ingestion.semantic_splitter import ActivaSemanticSplitter
 local_css("assets/style.css")
 # --- SESSION STATE MANAGEMENT ---
+if 'groq_valid' not in st.session_state:
+    st.session_state.groq_valid = False
 if 'pipeline_stage' not in st.session_state:
     st.session_state.pipeline_stage = 0
 if 'document_text' not in st.session_state:
     label = specific_labels[0]
     return COLOR_PALETTE.get(label, COLOR_PALETTE["DEFAULT"])
+def validate_groq_key(api_key):
+    """Effettua un ping leggero all'API di Groq per verificare la validità della chiave."""
+    if not api_key:
+        return False
+    headers = {
+        "Authorization": f"Bearer {api_key}",
+        "Content-Type": "application/json"
+    }
+    try:
+        response = requests.get("https://api.groq.com/openai/v1/models", headers=headers, timeout=5)
+        return response.status_code == 200
+    except:
+        return False
 # Pre-load dei modelli in memoria
 _ = get_splitter()
 _ = get_extractor()
 env_uri = os.getenv("NEO4J_URI", "")
 env_user = os.getenv("NEO4J_USER", "neo4j")
 env_password = os.getenv("NEO4J_PASSWORD", "")
+env_groq_key = ""
 st.sidebar.subheader("Backend AI (TDDT)")
+if env_groq_key and not st.session_state.groq_valid:
+    if validate_groq_key(env_groq_key):
+        st.session_state.groq_valid = True
+    else:
+        os.environ["GROQ_API_KEY"] = ""
+        env_groq_key = ""
+if st.session_state.groq_valid:
+    st.sidebar.success("✅ Groq API Key: Valida e Attiva")
 else:
+    groq_key_input = st.sidebar.text_input("Inserisci GROQ_API_KEY", type="password")
+    if st.sidebar.button("Verifica Chiave"):
+        with st.spinner("Verifica in corso..."):
+            if validate_groq_key(groq_key_input):
+                os.environ["GROQ_API_KEY"] = groq_key_input
+                st.session_state.groq_valid = True
+                st.sidebar.success("✅ Chiave valida!")
+                time.sleep(1)
+                st.rerun()
+            else:
+                st.sidebar.error("❌ Chiave non valida o non autorizzata.")
 st.sidebar.subheader("Knowledge Graph")
 uri = st.sidebar.text_input("URI Neo4j", value=env_uri)
         with st.expander("ℹ️ Cosa fa questa fase?"):
             st.write("Segmenta il testo in frammenti coerenti analizzando la similarità semantica vettoriale tra le frasi.")
+        is_groq_ready = bool(env_groq_key)
         if st.session_state.pipeline_stage >= 1:
             chunks = st.session_state.chunks
             st.success(f"Chunking completato! Generati {len(chunks)} frammenti semantici.")
             with st.expander("Vedi dettagli frammenti"):
                 st.json(chunks)
         else:
+            if st.button("Avvia Semantic Splitter", type="primary", disabled=not is_groq_ready):
                 with st.spinner("Creazione chunks in corso..."):
                     try:
                         splitter = get_splitter()
                 if data['triples']:
                     st.dataframe(pd.DataFrame([t.model_dump() for t in data['triples']]), hide_index=True)
         else:
+            is_extraction_ready = st.session_state.groq_valid
+            if st.button("Avvia Estrazione TDDT", type="primary", disabled=not is_extraction_ready):
+                if not st.session_state.groq_valid:
+                    st.warning("⚠️ Per avviare l'estrazione devi prima inserire e verificare una GROQ_API_KEY valida nella sidebar.")
                 else:
                     with st.spinner("Classificazione ed estrazione gerarchica in corso..."):
                         try:

src/extraction/extractor.py CHANGED Viewed

@@ -2,10 +2,8 @@ import os
 import json
 import time
 from typing import List, Optional, Dict, Any
-from pydantic import BaseModel, Field, ValidationError
-from langchain_core.prompts import ChatPromptTemplate
-from langchain_core.messages import SystemMessage, HumanMessage, AIMessage
-from langchain_google_genai import ChatGoogleGenerativeAI
 from langchain_groq import ChatGroq
 from dotenv import load_dotenv

 import json
 import time
 from typing import List, Optional, Dict, Any
+from pydantic import BaseModel, Field
+from langchain_core.messages import SystemMessage, HumanMessage
 from langchain_groq import ChatGroq
 from dotenv import load_dotenv

src/ingestion/semantic_splitter.py CHANGED Viewed

@@ -1,4 +1,3 @@
-import os
 import re
 import numpy as np
 import nltk

 import re
 import numpy as np
 import nltk

src/utils/build_schema.py CHANGED Viewed

@@ -2,7 +2,7 @@ import os
 import json
 from pathlib import Path
 from collections import defaultdict
-from rdflib import Graph, URIRef, BNode, RDF, RDFS, OWL, Namespace
 # --- MAPPA DEI NAMESPACE--
 ARCO_NAMESPACES = {

 import json
 from pathlib import Path
 from collections import defaultdict
+from rdflib import Graph, URIRef, BNode, RDF, RDFS, OWL
 # --- MAPPA DEI NAMESPACE--
 ARCO_NAMESPACES = {

src/validation/shapes/schema_constraints.ttl DELETED Viewed

@@ -1,44 +0,0 @@
-@prefix sh: <http://www.w3.org/ns/shacl#> .
-@prefix skos: <http://www.w3.org/2004/02/skos/core#> .
-@prefix ex: <http://activadigital.it/ontology/> .
-@prefix arco: <https://w3id.org/arco/ontology/arco/> .
-@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
-# --- REGOLA 1: Anti-nodi fantasma ---
-# Il DB a grafo non deve riempirsi di nodi vuoti o corrotti. Se l'LLM decide di estrarre
-# un'entità (soggetto o oggetto che sia), mi deve garantire che abbia una label di testo associata.
-ex:NodeLabelShape
-    a sh:NodeShape ;
-    sh:targetSubjectsOf skos:prefLabel ;
-    sh:property [
-        sh:path skos:prefLabel ;
-        sh:minCount 1 ;
-        sh:nodeKind sh:Literal ;
-        sh:message "Errore Topologico: Il nodo estratto non ha un nome testuale. Impossibile creare l'entità in Neo4j."
-    ] .
-# --- REGOLA 2: Protezione Relazioni (No Datatype properties) ---
-# Un classico limite degli LLM in ambito knowledge graph: confondono i nodi con le stringhe.
-# Spesso tentano di fare (Soggetto) -[relazione]-> "Stringa di testo".
-# Qui blindo la cosa: le relazioni semantiche devono SEMPRE puntare a un altro nodo fisico (IRI).
-ex:ObjectPropertyShape
-    a sh:NodeShape ;
-    sh:targetSubjectsOf skos:prefLabel ;
-    sh:property [
-        sh:path skos:related ;
-        sh:nodeKind sh:IRI ;
-        sh:message "Errore Semantico: La relazione punta a un testo libero (Literal) invece che a un nodo (IRI)."
-    ] .
-# --- REGOLA 3: Tipizzazione rigorosa ---
-# Se LLM prova a classificare un'entità usando rdf:type, l'oggetto DEVE essere
-# un URI valido pescato dall'ontologia (es. arco:HistoricOrArtisticProperty).
-# È severamente vietato inventarsi classi testuali tipo rdf:type -> "Monumento Antico".
-ex:TypeShape
-    a sh:NodeShape ;
-    sh:targetSubjectsOf rdf:type ;
-    sh:property [
-        sh:path rdf:type ;
-        sh:nodeKind sh:IRI ;
-        sh:message "Errore Ontologico: L'LLM ha usato una stringa per rdf:type invece di un URI ufficiale di ArCo."
-    ] .

src/validation/validator.py CHANGED Viewed

@@ -1,8 +1,8 @@
 import os
 import re
 from pathlib import Path
-from rdflib import Graph, Literal, RDF, URIRef, Namespace
-from rdflib.namespace import SKOS, OWL
 from pyshacl import validate
 class SemanticValidator:

 import os
 import re
 from pathlib import Path
+from rdflib import Graph, Literal, RDF, Namespace
+from rdflib.namespace import SKOS
 from pyshacl import validate
 class SemanticValidator: