import streamlit as st import PyPDF2 import re from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.svm import SVC import pickle # Función para extraer texto de un PDF def extract_text_from_pdf(pdf_file): reader = PyPDF2.PdfReader(pdf_file) text = '' for page in reader.pages: text += page.extract_text() return text # Cargar el modelo entrenado y el vectorizador with open('vectorizer.pkl', 'rb') as file: vectorizer = pickle.load(file) with open('model.pkl', 'rb') as file: model = pickle.load(file) # Configuración de la interfaz de Streamlit st.title("Clasificación de PDFs: Contiene archivo palabra'Firma'?") uploaded_file = st.file_uploader("Cargar un archivo PDF", type="pdf") if uploaded_file is not None: # Extraer texto del PDF text = extract_text_from_pdf(uploaded_file) text = re.sub(r'\s+', ' ', text).strip() # Preprocesamiento básico # Vectorizar el texto X = vectorizer.transform([text]) # Hacer predicción prediction = model.predict(X)[0] # Mostrar resultado if prediction == 'si-firma': st.success("El documento SI contiene palabra 'Firma'") else: st.warning("El documento NO contiene palabra 'Firma'")