Spaces:

ConradLax
/

document_classifier

Runtime error

App Files Files Community

ConradLax commited on Dec 20, 2023

Commit

16d1ed2

1 Parent(s): 1bfc1f2

fix: output not shown for all input docs

Browse files

Files changed (2) hide show

main.py +132 -29
static/script.js +4 -0

main.py CHANGED Viewed

@@ -2,7 +2,9 @@ from fastapi import FastAPI
 from fastapi.staticfiles import StaticFiles
 from fastapi.responses import FileResponse
 from fastapi import File, UploadFile
 from typing import List
 from transformers import pipeline
@@ -17,45 +19,141 @@ def t5(input):
     return {"output": output[0]["generated_text"]}
-# @app.post("/classify/")
-#    async def classify_doc(file: UploadFile):
-#        return {"file_size": len(file)}
 @app.post("/classify")
 async def classify_doc(files: List[UploadFile] = File(...)):
-#    for file in files:
-#        try:
-#            contents = file.file.read()
-#            filename = file.filename
-#            classify_res = classify_acct_dtype_str(contents, filename)
-#        except Exception as err:
-#            print(Exception, err)
-#            return {"message": "There was an error in uploading file(s)"}
-#        finally:
-#            file.file.close()
-    return {"message": f"{[file.filename for file in files]} : {[getDocClassType(file) for file in files]}"}
-app.mount("/", StaticFiles(directory="static", html=True), name="static")
-@app.get("/")
-def index() -> FileResponse:
-    return FileResponse(path="/app/static/index.html", media_type="text/html")
-def getDocClassType(file):
-    classify_res = ""
     try:
-            contents = file.file.read()
-            filename = file.filename
-            classify_res = classify_acct_dtype_str(contents, filename)
     except Exception as err:
         print(Exception, err)
-        return {"Error in reading file."}
     finally:
         file.file.close()
-    return classify_res
 import re
@@ -161,9 +259,14 @@ import requests
 from io import BytesIO
 def classify_acct_dtype_str(content, filename):
-    ipt = Image.open(BytesIO(content))
-    dtype_inf, dtype_conf = doctype_classify(ipt, filename)
     return dtype_inf
-# classify_acct_dtype_str("https://huggingface.co/datasets/Xenova/transformers.js-docs/resolve/main/city-streets.jpg")

 from fastapi.staticfiles import StaticFiles
 from fastapi.responses import FileResponse
 from fastapi import File, UploadFile
+from fastapi.responses import StreamingResponse
 from typing import List
+from pdf2image import convert_from_bytes
 from transformers import pipeline
     return {"output": output[0]["generated_text"]}
 @app.post("/classify")
 async def classify_doc(files: List[UploadFile] = File(...)):
+    # classificationResults = {}
+    # for file in files:
+    #     try:
+    #         contents = file.file.read()
+    #         filename = file.filename
+    #         if filename.endswith('.pdf'):
+    #             try:
+    #                 pages = convert_from_bytes(open(file, 'rb').read())
+    #                 for pagenum, image in enumerate(pages):
+    #                     if pagenum != 0 and pagenum < len(pages):
+    #                         classificationRes =  classify_acct_dtype_str(contents, filename)
+    #                         classificationResults[f'{pagenum:02d}'] = {
+    #                             'doctype': classificationRes
+    #                         }
+    #             except:
+    #                 return f"Error in opening {filename}"
+    #         else:
+    #             classificationRes = classify_acct_dtype_str(contents, filename)
+    #             classificationResults[f'{0:02d}'] = {
+    #                 'doctype' : classificationRes
+    #             }
+    #     except Exception as err:
+    #         print(Exception, err)
+    #         return {"message": "There was an error in uploading file(s)"}
+    #     finally:
+    #         file.file.close()
+    # return StreamingResponse(
+    #     iter(classificationResults.items()),
+    #     media_type="text/csv",
+    #     headers={"Content-Disposition": f"attachment; filename=data.csv"}
+    # )
+    return {"message": f"{[file.filename for file in files]} : {[classifyFiles(file) for file in files]}"}
+def classifyFiles(file):
     try:
+        contents = file.file.read()
+        filename = file.filename
+        classificationResults = []
+        if filename.endswith('.pdf'):
+            try:
+                pages = convert_from_bytes(open(file, 'rb').read())
+                for pagenum, image in enumerate(pages):
+                    if pagenum != 0 and pagenum < len(pages):
+                        classificationRes =  classify_acct_dtype_str(contents, filename)
+                        # classificationResults[f"{pagenum:02d}"] = {
+                        #     'doctype': classificationRes
+                        # }
+            except:
+                return f"Error in opening {filename}"
+        else:
+            classificationRes = classify_acct_dtype_str(contents, filename)
+            # classificationResults[f"{0:02d}"] = {
+            #     'doctype' : classificationRes
+            # }
     except Exception as err:
         print(Exception, err)
+        return {"message": "There was an error in uploading file(s)"}
     finally:
         file.file.close()
+    return classificationRes
+    # # dict for counting doctypes
+    # doctype_dict = dict()
+    # # writer for csv
+    # with open("{}/doctype_count.csv".format(output_dir), 'w', newline='') as outcsv:
+    #     writer = csv.writer(outcsv)
+    #     writer.writerow(["Type", "Count"])
+    #     for file in files:
+    #         try:
+    #             contents = file.file.read()
+    #             classify_res = classify_acct_dtype_str(BytesIO(contents))
+    #         except Exception as err:
+    #             print(Exception, err)
+    #             return {"message": "There was an error in uploading file(s)"}
+    #         finally:
+    #             file.file.close()
+    #         print(classify_res)
+    #         if (classify_res in doctype_dict):
+    #                 doctype_dict.update({classify_res : doctype_dict[classify_res] + 1})
+    #         else:
+    #                 doctype_dict.update({classify_res : 1})
+    # export_media_type = 'text/csv'
+    # export_headers = {
+    #     "Content-Disposition": "attachment; filename={file_name}.csv".format(file_name="output")
+    # }
+    # return StreamingResponse(csv_file_binary, headers=export_headers, media_type=export_media_type)
+app.mount("/", StaticFiles(directory="static", html=True), name="static")
+@app.get("/")
+def index() -> FileResponse:
+    return FileResponse(path="/app/static/index.html", media_type="text/html")
 import re
 from io import BytesIO
 def classify_acct_dtype_str(content, filename):
+    # response = requests.get("https://huggingface.co/datasets/Xenova/transformers.js-docs/resolve/main/city-streets.jpg")
+    # ipt = Image.open(BytesIO(response.content))
+    try:
+        ipt = Image.open(BytesIO(content))
+        dtype_inf, dtype_conf = doctype_classify(ipt, filename)
+    except:
+        return f"Error in opening {filename}"
     return dtype_inf
+# classify_acct_dtype_str("https://huggingface.co/datasets/Xenova/transformers.js-docs/resolve/main/city-streets.jpg")

static/script.js CHANGED Viewed

@@ -45,6 +45,7 @@ async function submitImages(acceptedFiles) {
    body: formData
  });
   let res = classifyResponse.json();
   return res;
 }
@@ -54,9 +55,12 @@ let imageArray = [];
 inputImg.addEventListener("change", async event =>{
   const files = event.target.files;
   await submitImages(files).then((resultText) => {
     outputImg.innerText = "Result: " + resultText["message"];
   });
 const classifyBtn = document.getElementById('classify-btn');
 const outputPar = document.getElementById('test-output');

    body: formData
  });
   let res = classifyResponse.json();
+  console.log(res);
   return res;
 }
 inputImg.addEventListener("change", async event =>{
   const files = event.target.files;
+  console.log(files);
   await submitImages(files).then((resultText) => {
     outputImg.innerText = "Result: " + resultText["message"];
   });
+//   outputImg.innerText = "Result is: " + await submitImages(files);
+});
 const classifyBtn = document.getElementById('classify-btn');
 const outputPar = document.getElementById('test-output');