Spaces:

Elgene
/

duithive-ocr-1

Sleeping

App Files Files Community

Elgene commited on Dec 5, 2023

Commit

fffe8df

•

1 Parent(s): adbde78

remove jpeg conversion

Browse files

Files changed (1) hide show

main.py +25 -9

main.py CHANGED Viewed

@@ -31,16 +31,33 @@ model.to(device)
 task_prompt = "<s_cord-v2>"
 decoder_input_ids = processor.tokenizer(task_prompt, add_special_tokens=False, return_tensors="pt").input_ids
 def generateOutput(fileData):
     pil_image = Image.open(BytesIO(fileData))
-    resized_image = pil_image.resize((800, 600)).convert('RGB')
-    rgb_image = Image.new('RGB', resized_image.size)
-    rgb_image.paste(resized_image)
-    output_buffer = BytesIO()
-    rgb_image.save(output_buffer, format="JPEG", quality = 100)
-    jpeg_image = Image.open(BytesIO(output_buffer.getvalue()))
-    pixel_values = processor(jpeg_image, return_tensors="pt").pixel_values
     outputs = model.generate(
         pixel_values.to(device),
         decoder_input_ids=decoder_input_ids.to(device),
@@ -61,4 +78,3 @@ async def analyze_image(file: UploadFile = File(...)):
     sequence = sequence.replace(processor.tokenizer.eos_token, "").replace(processor.tokenizer.pad_token, "")
     sequence = re.sub(r"<.*?>", "", sequence, count=1).strip()  # remove first task start token
     return processor.token2json(sequence)

 task_prompt = "<s_cord-v2>"
 decoder_input_ids = processor.tokenizer(task_prompt, add_special_tokens=False, return_tensors="pt").input_ids
+# def generateOutput(fileData):
+#     pil_image = Image.open(BytesIO(fileData))
+#     resized_image = pil_image.resize((800, 600)).convert('RGB')
+#     rgb_image = Image.new('RGB', resized_image.size)
+#     rgb_image.paste(resized_image)
+#     output_buffer = BytesIO()
+#     rgb_image.save(output_buffer, format="JPEG", quality = 100)
+#     jpeg_image = Image.open(BytesIO(output_buffer.getvalue()))
+#     pixel_values = processor(jpeg_image, return_tensors="pt").pixel_values
+#     outputs = model.generate(
+#         pixel_values.to(device),
+#         decoder_input_ids=decoder_input_ids.to(device),
+#         max_length=model.decoder.config.max_position_embeddings,
+#         pad_token_id=processor.tokenizer.pad_token_id,
+#         eos_token_id=processor.tokenizer.eos_token_id,
+#         use_cache=True,
+#         bad_words_ids=[[processor.tokenizer.unk_token_id]],
+#         return_dict_in_generate=True,
+#     )
+#     return outputs
 def generateOutput(fileData):
     pil_image = Image.open(BytesIO(fileData))
+    pil_image.resize((800, 600))
+    pixel_values = processor(pil_image, return_tensors="pt").pixel_values
     outputs = model.generate(
         pixel_values.to(device),
         decoder_input_ids=decoder_input_ids.to(device),
     sequence = sequence.replace(processor.tokenizer.eos_token, "").replace(processor.tokenizer.pad_token, "")
     sequence = re.sub(r"<.*?>", "", sequence, count=1).strip()  # remove first task start token
     return processor.token2json(sequence)