Spaces:

arithescientist
/

lincolnlegal

Sleeping

App Files Files Community

Ari commited on Sep 5, 2024

Commit

99a5022

•

1 Parent(s): 85bfbd2

Update app.py

Browse files

Files changed (1) hide show

app.py +9 -14

app.py CHANGED Viewed

@@ -1,6 +1,5 @@
 import gradio as gr
 import os
-import nltk
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 from fpdf import FPDF
 from gtts import gTTS
@@ -9,25 +8,21 @@ from docx import Document
 from reportlab.lib.pagesizes import letter
 from reportlab.pdfgen import canvas
-# Clear any potentially corrupted data and ensure correct download
-nltk.data.path.append("/home/user/nltk_data")
-nltk.download('punkt')
 tokenizer = AutoTokenizer.from_pretrained("facebook/bart-large-cnn")
 model = AutoModelForSeq2SeqLM.from_pretrained("facebook/bart-large-cnn")
-# Function to split text into chunks
-def split_text(text, max_chunk_size=1024):
-    sentences = nltk.sent_tokenize(text)  # Use NLTK's sentence tokenizer
     chunks = []
     chunk = ""
-    for sentence in sentences:
-        if len(chunk) + len(sentence) <= max_chunk_size:
-            chunk += sentence + " "
         else:
             chunks.append(chunk.strip())
-            chunk = sentence + " "
     if chunk:
         chunks.append(chunk.strip())
@@ -51,7 +46,7 @@ def docx_to_pdf(docx_file, output_pdf="converted_doc.pdf"):
     pdf.save()
     return output_pdf
-# Main processing function with text chunking
 def pdf_to_text(text, PDF, min_length=80):
     try:
         file_extension = os.path.splitext(PDF.name)[1].lower()
@@ -62,7 +57,7 @@ def pdf_to_text(text, PDF, min_length=80):
         elif file_extension == '.pdf' and text == "":
             text = extract_text(PDF.name)
-        chunks = split_text(text)
         summarized_text = ""
         for chunk in chunks:

 import gradio as gr
 import os
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 from fpdf import FPDF
 from gtts import gTTS
 from reportlab.lib.pagesizes import letter
 from reportlab.pdfgen import canvas
 tokenizer = AutoTokenizer.from_pretrained("facebook/bart-large-cnn")
 model = AutoModelForSeq2SeqLM.from_pretrained("facebook/bart-large-cnn")
+# Function to split text into chunks based on paragraphs
+def split_text_by_paragraph(text, max_chunk_size=1024):
+    paragraphs = text.split("\n\n")  # Splitting by paragraphs
     chunks = []
     chunk = ""
+    for paragraph in paragraphs:
+        if len(chunk) + len(paragraph) <= max_chunk_size:
+            chunk += paragraph + "\n\n"
         else:
             chunks.append(chunk.strip())
+            chunk = paragraph + "\n\n"
     if chunk:
         chunks.append(chunk.strip())
     pdf.save()
     return output_pdf
+# Main processing function with paragraph-based text chunking
 def pdf_to_text(text, PDF, min_length=80):
     try:
         file_extension = os.path.splitext(PDF.name)[1].lower()
         elif file_extension == '.pdf' and text == "":
             text = extract_text(PDF.name)
+        chunks = split_text_by_paragraph(text)
         summarized_text = ""
         for chunk in chunks: