Spaces:

Joyantac33
/

donut-base-finetuned-docvqa

Runtime error

App Files Files Community

Joyantac33 commited on Jun 9, 2023

Commit

2c17cdc

•

1 Parent(s): fa81749

Upload 7 files

Browse files

Files changed (8) hide show

.gitattributes +1 -0
README.md +4 -4
app.py +52 -47
example_1.png +0 -0
example_2.jpeg +0 -0
gitattributes.txt +1 -5
requirements.txt +2 -4
waiting-ticket.png +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 sample_image_cord_test_receipt_00004.png filter=lfs diff=lfs merge=lfs -text

 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 sample_image_cord_test_receipt_00004.png filter=lfs diff=lfs merge=lfs -text
+waiting-ticket.png filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,10 +1,10 @@
 ---
-title: Donut Base Finetuned Cord V2
 emoji: 🍩
-colorFrom: blue
-colorTo: gray
 sdk: gradio
-sdk_version: 3.0.26
 app_file: app.py
 pinned: false
 ---

 ---
+title: Donut Docvqa
 emoji: 🍩
+colorFrom: gray
+colorTo: pink
 sdk: gradio
+sdk_version: 3.1.4
 app_file: app.py
 pinned: false
 ---

app.py CHANGED Viewed

@@ -1,52 +1,57 @@
-"""
-Donut
-Copyright (c) 2022-present NAVER Corp.
-MIT License
-https://github.com/clovaai/donut
-"""
 import gradio as gr
-import torch
-from PIL import Image
-from donut import DonutModel
-def _init_weights(DonutModel, module):
-        pass
-def demo_process(input_img):
-    global pretrained_model, task_prompt, task_name
-    # input_img = Image.fromarray(input_img)
-    output = pretrained_model.inference(image=input_img, prompt=task_prompt)["predictions"][0]
-    return output
-task_prompt = f"<s_cord-v2>"
-image = Image.open("./sample_image_cord_test_receipt_00004.png")
-image.save("cord_sample_receipt1.png")
-image = Image.open("./sample_image_cord_test_receipt_00012.png")
-image.save("cord_sample_receipt2.png")
-DonutModel._init_weights= _init_weights
-pretrained_model = DonutModel.from_pretrained("naver-clova-ix/donut-base-finetuned-zhtrainticket",ignore_mismatched_sizes=True)
-pretrained_model.eval()
 demo = gr.Interface(
-    fn=demo_process,
-    inputs= gr.inputs.Image(type="pil"),
     outputs="json",
-    title=f"Donut 🍩 demonstration for `cord-v2` task",
-    description="""This model is trained with 800 Indonesian receipt images of CORD dataset. <br>
-Demonstrations for other types of documents/tasks are available at https://github.com/clovaai/donut <br>
-More CORD receipt images are available at https://huggingface.co/datasets/naver-clova-ix/cord-v2
-More details are available at:
-- Paper: https://arxiv.org/abs/2111.15664
-- GitHub: https://github.com/clovaai/donut""",
-    examples=[["cord_sample_receipt1.png"], ["cord_sample_receipt2.png"]],
-    cache_examples=False,
-)
-demo.launch()

+import re
 import gradio as gr
+import torch
+from transformers import DonutProcessor, VisionEncoderDecoderModel
+processor = DonutProcessor.from_pretrained("naver-clova-ix/donut-base-finetuned-docvqa")
+model = VisionEncoderDecoderModel.from_pretrained("naver-clova-ix/donut-base-finetuned-docvqa")
+device = "cuda" if torch.cuda.is_available() else "cpu"
+model.to(device)
+def process_document(image, question):
+    # prepare encoder inputs
+    pixel_values = processor(image, return_tensors="pt").pixel_values
+    # prepare decoder inputs
+    task_prompt = "<s_docvqa><s_question>{user_input}</s_question><s_answer>"
+    prompt = task_prompt.replace("{user_input}", question)
+    decoder_input_ids = processor.tokenizer(prompt, add_special_tokens=False, return_tensors="pt").input_ids
+    # generate answer
+    outputs = model.generate(
+        pixel_values.to(device),
+        decoder_input_ids=decoder_input_ids.to(device),
+        max_length=model.decoder.config.max_position_embeddings,
+        early_stopping=True,
+        pad_token_id=processor.tokenizer.pad_token_id,
+        eos_token_id=processor.tokenizer.eos_token_id,
+        use_cache=True,
+        num_beams=1,
+        bad_words_ids=[[processor.tokenizer.unk_token_id]],
+        return_dict_in_generate=True,
+    )
+    # postprocess
+    sequence = processor.batch_decode(outputs.sequences)[0]
+    sequence = sequence.replace(processor.tokenizer.eos_token, "").replace(processor.tokenizer.pad_token, "")
+    sequence = re.sub(r"<.*?>", "", sequence, count=1).strip()  # remove first task start token
+    return processor.token2json(sequence)
+description = "Gradio Demo for Donut, an instance of `VisionEncoderDecoderModel` fine-tuned on DocVQA (document visual question answering). To use it, simply upload your image and type a question and click 'submit', or click one of the examples to load them. Read more at the links below."
+article = "<p style='text-align: center'><a href='https://arxiv.org/abs/2111.15664' target='_blank'>Donut: OCR-free Document Understanding Transformer</a> | <a href='https://github.com/clovaai/donut' target='_blank'>Github Repo</a></p>"
 demo = gr.Interface(
+    fn=process_document,
+    inputs=["image", "text"],
     outputs="json",
+    title="Demo: Donut 🍩 for DocVQA",
+    description=description,
+    article=article,
+    enable_queue=True,
+    examples=[["example_1.png", "When is the coffee break?"], ["example_2.jpeg", "What's the population of Stoddard?"]],
+    cache_examples=False)
+demo.launch()

example_1.png ADDED Viewed

example_2.jpeg ADDED Viewed

gitattributes.txt CHANGED Viewed

@@ -2,13 +2,11 @@
 *.arrow filter=lfs diff=lfs merge=lfs -text
 *.bin filter=lfs diff=lfs merge=lfs -text
 *.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
 *.ftz filter=lfs diff=lfs merge=lfs -text
 *.gz filter=lfs diff=lfs merge=lfs -text
 *.h5 filter=lfs diff=lfs merge=lfs -text
 *.joblib filter=lfs diff=lfs merge=lfs -text
 *.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
 *.model filter=lfs diff=lfs merge=lfs -text
 *.msgpack filter=lfs diff=lfs merge=lfs -text
 *.npy filter=lfs diff=lfs merge=lfs -text
@@ -16,13 +14,12 @@
 *.onnx filter=lfs diff=lfs merge=lfs -text
 *.ot filter=lfs diff=lfs merge=lfs -text
 *.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
 *.pickle filter=lfs diff=lfs merge=lfs -text
 *.pkl filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
 *.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
 saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.tar.* filter=lfs diff=lfs merge=lfs -text
 *.tflite filter=lfs diff=lfs merge=lfs -text
@@ -32,4 +29,3 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
-sample_image_cord_test_receipt_00004.png filter=lfs diff=lfs merge=lfs -text

 *.arrow filter=lfs diff=lfs merge=lfs -text
 *.bin filter=lfs diff=lfs merge=lfs -text
 *.bz2 filter=lfs diff=lfs merge=lfs -text
 *.ftz filter=lfs diff=lfs merge=lfs -text
 *.gz filter=lfs diff=lfs merge=lfs -text
 *.h5 filter=lfs diff=lfs merge=lfs -text
 *.joblib filter=lfs diff=lfs merge=lfs -text
 *.lfs.* filter=lfs diff=lfs merge=lfs -text
 *.model filter=lfs diff=lfs merge=lfs -text
 *.msgpack filter=lfs diff=lfs merge=lfs -text
 *.npy filter=lfs diff=lfs merge=lfs -text
 *.onnx filter=lfs diff=lfs merge=lfs -text
 *.ot filter=lfs diff=lfs merge=lfs -text
 *.parquet filter=lfs diff=lfs merge=lfs -text
 *.pickle filter=lfs diff=lfs merge=lfs -text
 *.pkl filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
 *.rar filter=lfs diff=lfs merge=lfs -text
 saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.tar.* filter=lfs diff=lfs merge=lfs -text
 *.tflite filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

requirements.txt CHANGED Viewed

@@ -1,5 +1,3 @@
 torch
-donut-python
-gradio
-transformers==4.24.0
-timm==0.6.13

 torch
+git+https://github.com/huggingface/transformers.git
+sentencepiece

waiting-ticket.png ADDED Viewed

Git LFS Details

SHA256: 921932cd4e5b7279e46a4baebe39e2f2faea452aca14717ab51644786b8a37d2
Pointer size: 132 Bytes
Size of remote file: 1.12 MB