SearchGPT

Paused

App Files Files Community

Shreyas094 commited on Jul 1

Commit

8f71aa4

•

1 Parent(s): d06c0f4

Update app.py

Browse files

Files changed (1) hide show

app.py +34 -6

app.py CHANGED Viewed

@@ -3,10 +3,15 @@ import gradio as gr
 from PyPDF2 import PdfReader
 import requests
 from dotenv import load_dotenv
 # Load environment variables
 load_dotenv()
 # Get the Hugging Face API token
 HUGGINGFACE_TOKEN = os.getenv("HUGGINGFACE_TOKEN")
 def summarize_text(text, instructions, agent_name):
    print(f"{agent_name}: Starting summarization")
    API_URL = "https://api-inference.huggingface.co/models/meta-llama/Meta-Llama-3-8B-Instruct"
@@ -19,7 +24,7 @@ def summarize_text(text, instructions, agent_name):
    response = requests.post(API_URL, headers=headers, json=payload)
    print(f"{agent_name}: Received response from API")
    return response.json()[0]["generated_text"]
-def process_pdf(pdf_file, chunk_instructions, final_instructions):
    print("Starting PDF processing")
    # Read PDF
    reader = PdfReader(pdf_file)
@@ -40,18 +45,40 @@ def process_pdf(pdf_file, chunk_instructions, final_instructions):
    # Concatenate Agent 1 summaries
    concatenated_summary = "\n\n".join(agent1_summaries)
    print(f"Concatenated Agent 1 summaries (length: {len(concatenated_summary)})")
-   # Agent 2: Final summarization
-   print("Agent 2: Starting final summarization")
-   final_summary = summarize_text(concatenated_summary, final_instructions, "Agent 2")
    print("Agent 2: Finished final summarization")
    return final_summary
-def pdf_summarizer(pdf_file, chunk_instructions, final_instructions):
    if pdf_file is None:
        print("Error: No PDF file uploaded")
        return "Please upload a PDF file."
    try:
        print(f"Starting summarization process for file: {pdf_file.name}")
-       summary = process_pdf(pdf_file.name, chunk_instructions, final_instructions)
        print("Summarization process completed successfully")
        return summary
    except Exception as e:
@@ -63,6 +90,7 @@ iface = gr.Interface(
    inputs=[
        gr.File(label="Upload PDF"),
        gr.Textbox(label="Chunk Instructions", placeholder="Instructions for summarizing each chunk"),
        gr.Textbox(label="Final Instructions", placeholder="Instructions for final summarization")
    ],
    outputs=gr.Textbox(label="Summary"),

 from PyPDF2 import PdfReader
 import requests
 from dotenv import load_dotenv
+import tiktoken
 # Load environment variables
 load_dotenv()
 # Get the Hugging Face API token
 HUGGINGFACE_TOKEN = os.getenv("HUGGINGFACE_TOKEN")
+# Initialize the tokenizer
+tokenizer = tiktoken.get_encoding("cl100k_base")
+def count_tokens(text):
+   return len(tokenizer.encode(text))
 def summarize_text(text, instructions, agent_name):
    print(f"{agent_name}: Starting summarization")
    API_URL = "https://api-inference.huggingface.co/models/meta-llama/Meta-Llama-3-8B-Instruct"
    response = requests.post(API_URL, headers=headers, json=payload)
    print(f"{agent_name}: Received response from API")
    return response.json()[0]["generated_text"]
+def process_pdf(pdf_file, chunk_instructions, window_instructions, final_instructions):
    print("Starting PDF processing")
    # Read PDF
    reader = PdfReader(pdf_file)
    # Concatenate Agent 1 summaries
    concatenated_summary = "\n\n".join(agent1_summaries)
    print(f"Concatenated Agent 1 summaries (length: {len(concatenated_summary)})")
+   print(f"Concatenated Summary:{concatenated_summary}")
+   # Sliding window approach
+   window_size = 3500  # in tokens
+   step_size = 3000  # overlap of 500 tokens
+   windows = []
+   current_position = 0
+   while current_position < len(concatenated_summary):
+       window_end = current_position
+       window_text = ""
+       while count_tokens(window_text) < window_size and window_end < len(concatenated_summary):
+           window_text += concatenated_summary[window_end]
+           window_end += 1
+       windows.append(window_text)
+       current_position += step_size
+   print(f"Created {len(windows)} windows for intermediate summarization")
+   # Intermediate summarization
+   intermediate_summaries = []
+   for i, window in enumerate(windows):
+       print(f"Processing window {i+1}/{len(windows)}")
+       summary = summarize_text(window, window_instructions, f"Window {i+1}")
+       intermediate_summaries.append(summary)
+   # Final summarization
+   final_input = "\n\n".join(intermediate_summaries)
+   print(f"Final input length: {count_tokens(final_input)} tokens")
+   final_summary = summarize_text(final_input, final_instructions, "Agent 2")
    print("Agent 2: Finished final summarization")
    return final_summary
+def pdf_summarizer(pdf_file, chunk_instructions, window_instructions, final_instructions):
    if pdf_file is None:
        print("Error: No PDF file uploaded")
        return "Please upload a PDF file."
    try:
        print(f"Starting summarization process for file: {pdf_file.name}")
+       summary = process_pdf(pdf_file.name, chunk_instructions, window_instructions, final_instructions)
        print("Summarization process completed successfully")
        return summary
    except Exception as e:
    inputs=[
        gr.File(label="Upload PDF"),
        gr.Textbox(label="Chunk Instructions", placeholder="Instructions for summarizing each chunk"),
+       gr.Textbox(label="Window Instructions", placeholder="Instructions for summarizing each window"),
        gr.Textbox(label="Final Instructions", placeholder="Instructions for final summarization")
    ],
    outputs=gr.Textbox(label="Summary"),