Spaces:

Zhiming666
/

Crawl_Arxiv

Build error

App Files Files Community

Zhiming666 commited on Jun 20, 2023

Commit

a06773e

•

1 Parent(s): 80354f9

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -18

app.py CHANGED Viewed

@@ -1,3 +1,4 @@
 import os
 import requests
 import xml.etree.ElementTree as ET
@@ -7,6 +8,9 @@ from datetime import datetime
 import pandas as pd
 from fpdf import FPDF
 import gradio as gr
 def get_arxiv_data(search_query, number):
     url = f'http://export.arxiv.org/api/query?search_query={search_query}&start=0&max_results={number}'
@@ -16,10 +20,7 @@ def get_arxiv_data(search_query, number):
     entries = root.findall('{http://www.w3.org/2005/Atom}entry')
     results = []
-    # Create folder for current date and time
-    current_time = datetime.now().strftime('%Y_%m_%d__%H_%M')
-    folder_path = os.path.join(os.path.dirname(__file__), 'data', current_time)
-    os.makedirs(folder_path, exist_ok=True)
     for entry in entries:
         title = entry.find('{http://www.w3.org/2005/Atom}title').text
@@ -37,14 +38,19 @@ def get_arxiv_data(search_query, number):
         # Download PDF file
         pdf_link = link.replace('abs', 'pdf') + '.pdf'
         filename = re.sub(r'[^a-zA-Z0-9_]', '_', title) + '.pdf'
-        filepath = os.path.join(folder_path, filename)
         try:
-            urllib.request.urlretrieve(pdf_link, filepath)
         except Exception as e:
             continue
     # Save search query and results to PDF
     pdf = FPDF()
     pdf.add_page()
     pdf.set_font('Arial', 'B', 16)
@@ -53,36 +59,42 @@ def get_arxiv_data(search_query, number):
     for i, result in enumerate(results):
         pdf.multi_cell(0, 10, f"Result {i + 1}:\n{result}\n")
         pdf.ln(5)  # Add newline after each result
-    pdf.output(os.path.join(folder_path, '1_Search_query_AND_results.pdf'))
     # Save search query, results, and current time to Excel file
     current_time = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
     df = pd.DataFrame({'Search Query': [search_query], 'Results': ['\n'.join(results)], 'Timestamp': [current_time]})
-    folder_path = os.path.join(os.path.dirname(__file__), 'data')
-    os.makedirs(folder_path, exist_ok=True)
-    excel_filepath = os.path.join(folder_path, 'information.xlsx')
-    if os.path.exists(excel_filepath):
-        existing_df = pd.read_excel(excel_filepath)
-        df = pd.concat([existing_df, df], ignore_index=True)
-    df.to_excel(excel_filepath, index=False)
-    return results
 def search_arxiv(search_query, max_results):
     start_time = datetime.now()
-    results = get_arxiv_data(search_query, max_results)
     elapsed_time = datetime.now() - start_time
     elapsed_time_str = f"Elapsed Time: {elapsed_time.total_seconds()} seconds"
-    return '\n'.join(results), elapsed_time_str
 search_query_input = gr.inputs.Textbox(label="Search Query")
 max_results_input = gr.inputs.Textbox(label="Max Results")
 output_text = gr.outputs.Textbox(label="Results")
 output_time = gr.outputs.Textbox(label="Elapsed Time")
 title = "ArXiv Search"
 description = "Search for articles on ArXiv"
-gr.Interface(fn=search_arxiv, inputs=[search_query_input, max_results_input], outputs=[output_text, output_time], title=title, description=description).launch()

+import fs.memoryfs
 import os
 import requests
 import xml.etree.ElementTree as ET
 import pandas as pd
 from fpdf import FPDF
 import gradio as gr
+import io
+import shutil
+from zipfile import ZipFile
 def get_arxiv_data(search_query, number):
     url = f'http://export.arxiv.org/api/query?search_query={search_query}&start=0&max_results={number}'
     entries = root.findall('{http://www.w3.org/2005/Atom}entry')
     results = []
+    mem_fs = fs.memoryfs.MemoryFS()
     for entry in entries:
         title = entry.find('{http://www.w3.org/2005/Atom}title').text
         # Download PDF file
         pdf_link = link.replace('abs', 'pdf') + '.pdf'
         filename = re.sub(r'[^a-zA-Z0-9_]', '_', title) + '.pdf'
+        mem_fs.makedirs("pdfs", recreate=True)
+        filepath = mem_fs.openbin("pdfs/" + filename, "w")
         try:
+            response = requests.get(pdf_link, stream=True)
+            shutil.copyfileobj(response.raw, filepath)
         except Exception as e:
             continue
+        finally:
+            filepath.close()
     # Save search query and results to PDF
+    pdf_file = mem_fs.openbin("1_Search_query_AND_results.pdf", "w")
     pdf = FPDF()
     pdf.add_page()
     pdf.set_font('Arial', 'B', 16)
     for i, result in enumerate(results):
         pdf.multi_cell(0, 10, f"Result {i + 1}:\n{result}\n")
         pdf.ln(5)  # Add newline after each result
+    pdf.output(pdf_file)
+    pdf_file.close()
     # Save search query, results, and current time to Excel file
     current_time = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
     df = pd.DataFrame({'Search Query': [search_query], 'Results': ['\n'.join(results)], 'Timestamp': [current_time]})
+    excel_file = mem_fs.openbin("information.xlsx", "w")
+    df.to_excel(excel_file)
+    excel_file.close()
+    return results, mem_fs
 def search_arxiv(search_query, max_results):
     start_time = datetime.now()
+    results, mem_fs = get_arxiv_data(search_query, max_results)
     elapsed_time = datetime.now() - start_time
     elapsed_time_str = f"Elapsed Time: {elapsed_time.total_seconds()} seconds"
+    # Create a Zip file
+    zip_file = io.BytesIO()
+    with ZipFile(zip_file, 'w') as zip:
+        for path in mem_fs.walk.files():
+            file_data = mem_fs.getbytes(path)
+            zip.writestr(path, file_data)
+    zip_file.seek(0)  # Rewind the file. Essential for reading!
+    return '\n'.join(results), elapsed_time_str, zip_file
 search_query_input = gr.inputs.Textbox(label="Search Query")
 max_results_input = gr.inputs.Textbox(label="Max Results")
 output_text = gr.outputs.Textbox(label="Results")
 output_time = gr.outputs.Textbox(label="Elapsed Time")
+output_file = gr.outputs.File(label="Download")
 title = "ArXiv Search"
 description = "Search for articles on ArXiv"
+gr.Interface(fn=search_arxiv, inputs=[search_query_input, max_results_input], outputs=[output_text, output_time, output_file], title=title, description=description).launch()