import streamlit as st
import PyPDF2
import re
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import SVC
import pickle

# Función para extraer texto de un PDF
def extract_text_from_pdf(pdf_file):
    reader = PyPDF2.PdfReader(pdf_file)
    text = ''
    for page in reader.pages:
        text += page.extract_text()
    return text

# Cargar el modelo entrenado y el vectorizador
with open('vectorizer.pkl', 'rb') as file:
    vectorizer = pickle.load(file)

with open('model.pkl', 'rb') as file:
    model = pickle.load(file)

# Configuración de la interfaz de Streamlit
st.title("Clasificación de PDFs: Contiene archivo palabra'Firma'?")

uploaded_file = st.file_uploader("Cargar un archivo PDF", type="pdf")

if uploaded_file is not None:
    # Extraer texto del PDF
    text = extract_text_from_pdf(uploaded_file)
    text = re.sub(r'\s+', ' ', text).strip()  # Preprocesamiento básico

    # Vectorizar el texto
    X = vectorizer.transform([text])

    # Hacer predicción
    prediction = model.predict(X)[0]

    # Mostrar resultado
    if prediction == 'si-firma':
        st.success("El documento SI contiene palabra 'Firma'")
    else:
        st.warning("El documento NO contiene palabra 'Firma'")