Spaces:

nickgambirasi
/

donut_text_extract

Sleeping

App Files Files Community

donut_text_extract / app.py

nickgambirasi

bug fix

45848d1 about 1 year ago

raw

history blame contribute delete

No virus

2.01 kB

	import re
	import gradio
	import torch
	import pandas as pd

	from PIL import Image
	from transformers import DonutProcessor, VisionEncoderDecoderModel

	processor = DonutProcessor.from_pretrained("naver-clova-ix/donut-base-finetuned-cord-v2")
	model = VisionEncoderDecoderModel.from_pretrained("naver-clova-ix/donut-base-finetuned-cord-v2")

	device = "cuda" if torch.cuda.is_available() else "cpu"

	model.to(device)

	def process_document(image):

	# prepare encoder inputs
	pixel_values = processor(image, return_tensors="pt").pixel_values

	# prepare decoder inputs
	task_prompt = "<s_cord-v2>"
	decoder_input_ids = processor.tokenizer(task_prompt, add_special_tokens=False, return_tensors="pt").input_ids

	# generate answer
	outputs = model.generate(
	pixel_values.to(device),
	decoder_input_ids=decoder_input_ids.to(device),
	max_length=model.decoder.config.max_position_embeddings,
	early_stopping=True,
	pad_token_id=processor.tokenizer.pad_token_id,
	eos_token_id=processor.tokenizer.eos_token_id,
	use_cache=True,
	num_beams=1,
	bad_words_ids=[[processor.tokenizer.unk_token_id]],
	return_dict_in_generate=True,
	)

	# postprocess
	sequence = processor.batch_decode(outputs.sequences)[0]
	sequence = sequence.replace(processor.tokenizer.eos_token, "").replace(processor.tokenizer.pad_token, "")
	sequence = re.sub(r"<.*?>", "", sequence, count=1).strip() # remove first task start token

	# js = processor.token2json(sequence)

	return {
	'text_requirements': 'all_pass',
	'symbol_requirements': 'all_pass',
	'language_requirements': 'all_pass'
	}

	demo = gradio.Interface(
	fn=process_document,
	inputs="image",
	outputs="json",
	title="Donut Text Parsing",
	description=None,
	article=None,
	examples=None,
	cache_examples=False)

	demo.launch(enable_queue=True)