Spaces:

desarrolloasesoreslocales
/

ModeloRecorte

Sleeping

App Files Files Community

ModeloRecorte / app.py

desarrolloasesoreslocales

Update app.py

4db117d about 1 year ago

raw

history blame

4.34 kB

	import gradio as gr
	from setfit import SetFitModel
	# Import libraries
	import PyPDF2
	import openpyxl
	import os
	import glob
	import re
	import itertools
	import platform
	from tempfile import TemporaryDirectory
	from pathlib import Path
	import pytesseract
	from pdf2image import convert_from_path
	from PIL import Image

	pytesseract.pytesseract.tesseract_cmd = r".\lib\Tesseract-OCR\tesseract.exe"
	path_to_poppler_exe = Path(r".\lib\poppler-0.68.0\bin")

	def ocrtotext(filename):
	# Almacena todas las páginas del PDF en una variable
	image_file_list = [] # Lista para almacenar los nombres de los archivos de imagen
	PDF_file = filename # Nombre del archivo PDF
	text_file = (f'{filename}.txt') # Nombre del archivo de texto de salida

	# Parte #1: Convirtiendo el PDF a imágenes
	pdf_pages = convert_from_path(PDF_file, 300)
	# Lee el archivo PDF a 300 DPI

	# Itera a través de todas las páginas almacenadas arriba
	for page_enumeration, page in enumerate(pdf_pages, start=1):
	# Crea un nombre de archivo para almacenar la imagen
	filename = f"page_{page_enumeration:03}.jpg"

	# Guarda la imagen de la página en el sistema
	page.save(filename, "JPEG")
	image_file_list.append(filename)

	# Parte #2: Reconociendo texto desde las imágenes usando OCR
	output = '' # Variable para almacenar el texto reconocido

	# Abre el archivo en modo de apendizaje para agregar contenido de todas las imágenes al mismo archivo
	with open(text_file, "a") as output_file:

	# Itera desde 1 hasta el número total de páginas
	for image_file in image_file_list:

	# Reconoce el texto en la imagen usando pytesseract
	#text = str(((pytesseract.image_to_string(Image.open(image_file), lang="spa"))))
	text = str(((pytesseract.image_to_string(Image.open(image_file)))))

	# Elimina los guiones al final de las líneas
	text = text.replace("-\n", "")

	# Agrega el texto reconocido a la variable de salida
	output += text

	# Escribe el texto reconocido en el archivo de salida
	output_file.write(output)
	return output

	def cortar_en_bloques(texto, longitud_bloque):
	palabras = texto.split()
	bloques = []
	bloque_actual = []

	for palabra in palabras:
	bloque_actual.append(palabra)

	if len(bloque_actual) == longitud_bloque:
	bloques.append(" ".join(bloque_actual))
	bloque_actual = []

	# Si queda un bloque parcial al final, agregarlo
	if bloque_actual:
	bloques.append(" ".join(bloque_actual))

	return bloques

	# Cargar el modelo
	model = SetFitModel.from_pretrained("desarrolloasesoreslocales/SetFitPruebaRecorte")

	# Mapear las etiquetas

	# Definir la función de predicción
	def predict(file):

	recorte_general = ""
	ocr_text = ocrtotext(file.name)
	# Crear chunks
	chunks = cortar_en_bloques(ocr_text, 150)
	first = -1
	margin = int(len(chunks) * 0.25)
	chunks_removable = chunks[:margin] + chunks[-margin:]

	for i in range(len(chunks)):
	print('Recortando -', round((i/len(chunks))*100), '%')
	if chunks[i] not in chunks_removable or model.predict([chunks[i]]).item() == 1:
	if first == -1:
	first = i
	recorte_general += chunks[i] + " "

	if first > 0:
	recorte_general = chunks[first-1] + recorte_general
	print(100, '%')

	recorte_final = ""

	# Definir tamñano de fragmentos de texto
	# text_splitter2 = RecursiveCharacterTextSplitter(chunk_size=100, chunk_overlap=0, length_function=len)
	# Crear chunks
	chunks2 = cortar_en_bloques(recorte_general, 80)
	margin_s = int(len(chunks2) * 0.1)
	margin_e = int(len(chunks2) * 0.1)
	# if margin_s > 1:
	chunks_removable2 = chunks2[:margin_s] + chunks2[-margin_e:]
	# chunks_removable2 = chunks2[-margin_e:]

	for i in range(len(chunks2)):
	print('Recortando -', round((i/len(chunks2))*100), '%')
	if chunks2[i] not in chunks_removable2 or model.predict([chunks2[i]]).item() == 1:
	recorte_final += chunks2[i] + " "
	print(100, '%')
	return recorte_final

	# Crear una interfaz Gradio
	iface = gr.Interface(
	fn=predict,
	inputs=gr.inputs.File(),
	outputs=gr.Textbox(),
	live=False,
	title="Recortador de Texto"
	)

	# Iniciar la interfaz Gradio
	iface.launch()