Spaces:

arithescientist
/

lincolnlegal

Sleeping

App Files Files Community

Ari commited on Sep 5, 2024

Commit

7f2b3e5

•

1 Parent(s): 11422b8

Update app.py

Browse files

Files changed (1) hide show

app.py +42 -51

app.py CHANGED Viewed

@@ -1,65 +1,56 @@
-#**************** IMPORT PACKAGES ********************
 import gradio as gr
-import numpy as np
-import pytesseract as pt
-import pdf2image
 import os
-import tempfile
-from fpdf import FPDF
-import re
 import nltk
-from nltk.tokenize import sent_tokenize
-from nltk.tokenize import word_tokenize
-import pdfkit
-import yake
-from zipfile import ZipFile
 from gtts import gTTS
-from transformers import AutoTokenizer, AutoModelForPreTraining, AutoModel, AutoConfig
-from summarizer import Summarizer, TransformerSummarizer
-from transformers import pipelines
 from pdfminer.high_level import extract_text
-from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 nltk.download('punkt')
-model_name = 'nlpaueb/legal-bert-base-uncased'
 tokenizer = AutoTokenizer.from_pretrained("facebook/bart-large-cnn")
 model = AutoModelForSeq2SeqLM.from_pretrained("facebook/bart-large-cnn")
-def pdf_to_text(text, PDF):
-   Min = int(20)
-   if text == "":
-      # The setup of huggingface.co
-      file_obj = PDF
-      text = extract_text(file_obj.name)
-      inputs = tokenizer([text], max_length=1024, return_tensors="pt")
-      Min = int(Min)
-      # Generate Summary
-      summary_ids = model.generate(inputs["input_ids"], num_beams=2, min_length=Min, max_length=Min+1000)
-      output_text  = tokenizer.batch_decode(summary_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
-   else:
-      inputs = tokenizer([text], max_length=1024, return_tensors="pt")
-      # Generate Summary
-      summary_ids = model.generate(inputs["input_ids"], num_beams=2, min_length=Min, max_length=Min+1000)
-      output_text  = tokenizer.batch_decode(summary_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
-   pdf = FPDF()
-   pdf.add_page()
-   pdf.set_font("Times", size = 12)
-   f = output_text
-   pdf.multi_cell(190, 10, txt = f, align = 'C')
-   pdf.output("legal.pdf")
-   myobj = gTTS(text=output_text, lang='en', slow=False)
-   myobj.save("legal.wav")
-   return "legal.wav", output_text, "legal.pdf"
-iface = gr.Interface(fn=pdf_to_text, inputs=["text", "file"], outputs=["audio", "text", "file"])
 if __name__ == "__main__":
-    iface.launch()  # Removed 'share=True'

 import gradio as gr
 import os
 import nltk
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+from fpdf import FPDF
 from gtts import gTTS
 from pdfminer.high_level import extract_text
 nltk.download('punkt')
+# Load the models and tokenizers once, not every time the function is called
 tokenizer = AutoTokenizer.from_pretrained("facebook/bart-large-cnn")
 model = AutoModelForSeq2SeqLM.from_pretrained("facebook/bart-large-cnn")
+# Main processing function
+def pdf_to_text(text, PDF, min_length=20):
+    try:
+        # Extract text from PDF if no input text provided
+        if text == "":
+            text = extract_text(PDF.name)
+        # Tokenize text
+        inputs = tokenizer([text], max_length=1024, return_tensors="pt")
+        min_length = int(min_length)
+        # Generate summary
+        summary_ids = model.generate(inputs["input_ids"], num_beams=2, min_length=min_length, max_length=min_length+1000)
+        output_text = tokenizer.batch_decode(summary_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True)[0]
+        # Save summarized text to PDF
+        pdf = FPDF()
+        pdf.add_page()
+        pdf.set_font("Times", size=12)
+        pdf.multi_cell(190, 10, txt=output_text, align='C')
+        pdf_output_path = "legal.pdf"
+        pdf.output(pdf_output_path)
+        # Convert summarized text to audio
+        audio_output_path = "legal.wav"
+        tts = gTTS(text=output_text, lang='en', slow=False)
+        tts.save(audio_output_path)
+        return audio_output_path, output_text, pdf_output_path
+    except Exception as e:
+        return None, f"An error occurred: {str(e)}", None
+# Gradio interface
+iface = gr.Interface(
+    fn=pdf_to_text,
+    inputs=["text", gr.inputs.File(label="Upload PDF"), gr.inputs.Slider(minimum=10, maximum=100, step=10, default=20, label="Summary Minimum Length")],
+    outputs=["audio", "text", "file"]
+)
 if __name__ == "__main__":
+    iface.launch()