Spaces:

vcasas
/

llama-index_tests

Runtime error

vcasas commited on Dec 7, 2024

Commit

7e18e54

verified ·

1 Parent(s): 9b2f153

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,40 +1,32 @@
 import os
-import requests
-from llama_index.core import VectorStoreIndex
-from llama_index.readers.file import PDFReader
-import gradio as gr
-# Función para descargar el archivo PDF desde una URL
-def download_pdf(url, destination):
-    os.makedirs(os.path.dirname(destination), exist_ok=True)
-    response = requests.get(url)
-    with open(destination, 'wb') as f:
-        f.write(response.content)
-# Función para crear el índice a partir del PDF
 def create_index_from_pdf(pdf_path):
-    pdf_reader = PDFReader()  # Inicializar el PDFReader sin la ruta del archivo
-    documents = pdf_reader.load_data(file=pdf_path)  # Pasar la ruta del archivo, no el archivo abierto
-    # Crear el índice
-    index = VectorStoreIndex.from_documents(documents)
-    return index
-# Ruta del archivo PDF a descargar
-pdf_url = 'https://www.boe.es/buscar/pdf/1995/BOE-A-1995-25444-consolidado.pdf'
-pdf_path = './BOE-A-1995-25444-consolidado.pdf'
-# Descargar el PDF
-download_pdf(pdf_url, pdf_path)
-# Crear el índice a partir del PDF
 index = create_index_from_pdf(pdf_path)
-# Función de búsqueda en el índice
-def search_pdf(query):
-    response = index.query(query)
-    return response
-# Interfaz Gradio
-gr.Interface(fn=search_pdf, inputs="text", outputs="text").launch()

 import os
+from llama_index import VectorStoreIndex
+from llama_index.readers import PDFReader
+from sentence_transformers import SentenceTransformer
+# Configurar el modelo de Hugging Face (local)
+model = SentenceTransformer('all-MiniLM-L6-v2')  # Puedes usar otro modelo que te guste
+# Función para cargar el archivo PDF y extraer los documentos
+def load_documents_from_pdf(pdf_path):
+    # Usamos PDFReader para leer el PDF
+    pdf_reader = PDFReader()
+    documents = pdf_reader.load_data(pdf_path)
+    return documents
+# Crear el índice a partir del archivo PDF
 def create_index_from_pdf(pdf_path):
+    documents = load_documents_from_pdf(pdf_path)
+    # Obtener los embeddings del modelo Hugging Face
+    embeddings = model.encode([doc.text for doc in documents])
+    # Crear el índice con los embeddings generados
+    index = VectorStoreIndex.from_documents(documents, embed_model=embeddings)
+    return index
+# Ruta del archivo PDF
+pdf_path = 'ruta/a/tu/pdf.pdf'
+# Crear el índice
 index = create_index_from_pdf(pdf_path)
+print("Índice creado exitosamente.")