hsarfraz
/

irs-tax-form-1040-2023-doc-parser

Image-Text-to-Text

vision-encoder-decoder

Inference Endpoints

Model card Files Files and versions Community

hsarfraz commited on 23 days ago

Commit

2cdc2be

•

1 Parent(s): 0e770bf

Update README.md

Files changed (1) hide show

README.md +55 -0

README.md CHANGED Viewed

@@ -14,6 +14,61 @@ The base model is ['naver-clova-ix/donut-base'][base], the model is finetuned fo
 For inference use image size width: 1536 px and height: 1536 px
 [base]: https://huggingface.co/naver-clova-ix/donut-base

 For inference use image size width: 1536 px and height: 1536 px
+```python
+from transformers import DonutProcessor, VisionEncoderDecoderModel
+from PIL import Image
+import torch
+import re
+model_name = 'hsarfraz/irs-tax-form-1040-2023-doc-parser'
+processor = DonutProcessor.from_pretrained(model_name)
+model = VisionEncoderDecoderModel.from_pretrained(model_name)
+device = "cuda" if torch.cuda.is_available() else "cpu"
+model.to(device)
+model.eval()
+image_name = 'replace with name of the form 1040 (2023) image file '
+img = Image.open(image_name)
+new_width = 1536
+new_height = 1536
+# resize input image to finetuned images size
+img = img.resize((new_width, new_height), Image.LANCZOS)
+pixel_values = processor(img.convert("RGB"), return_tensors="pt").pixel_values
+pixel_values = pixel_values.to(device)
+# prompt
+task_prompt = "<s_cord-v2>"
+decoder_input_ids = processor.tokenizer(task_prompt, add_special_tokens=False, return_tensors="pt")["input_ids"]
+decoder_input_ids = decoder_input_ids.to(device)
+outputs = model.generate(pixel_values,decoder_input_ids=decoder_input_ids,
+                               max_length=model.decoder.config.max_position_embeddings,
+                               early_stopping=True,
+                               pad_token_id=processor.tokenizer.pad_token_id,
+                               eos_token_id=processor.tokenizer.eos_token_id,
+                               use_cache=True,
+                               num_beams=1,
+                               bad_words_ids=[[processor.tokenizer.unk_token_id]],
+                               return_dict_in_generate=True,
+                            #    output_scores=True,
+                               )
+sequence = processor.batch_decode(outputs.sequences)[0]
+sequence = sequence.replace(processor.tokenizer.eos_token, "").replace(processor.tokenizer.pad_token, "")
+sequence = re.sub(r"<.*?>", "", sequence, count=1).strip()  # remove first task start token
+output_json = processor.token2json(sequence)
+print('----------------------------------')
+print('--- Parsed data in json format ---')
+print('----------------------------------')
+print(output_json)
+```
 [base]: https://huggingface.co/naver-clova-ix/donut-base