Spaces:

wjbmattingly
/

medieval-htr

Sleeping

App Files Files Community

wjbmattingly commited on Aug 9, 2024

Commit

4e8500c

verified ·

1 Parent(s): 7208814

Create app.py

Browse files

Files changed (1) hide show

app.py +70 -0

app.py ADDED Viewed

	@@ -0,0 +1,70 @@

+import gradio as gr
+from transformers import TrOCRProcessor, VisionEncoderDecoderModel
+import requests
+from PIL import Image
+# Dictionary of model names and their corresponding HuggingFace model IDs
+MODEL_OPTIONS = {
+    "Microsoft Handwritten": "microsoft/trocr-base-handwritten",
+    "Medieval Base": "medieval-data/trocr-medieval-base",
+    "Medieval Latin Caroline": "medieval-data/trocr-medieval-latin-caroline",
+    "Medieval Castilian Hybrida": "medieval-data/trocr-medieval-castilian-hybrida",
+    "Medieval Humanistica": "medieval-data/trocr-medieval-humanistica",
+    "Medieval Textualis": "medieval-data/trocr-medieval-textualis",
+    "Medieval Cursiva": "medieval-data/trocr-medieval-cursiva",
+    "Medieval Semitextualis": "medieval-data/trocr-medieval-semitextualis",
+    "Medieval Praegothica": "medieval-data/trocr-medieval-praegothica",
+    "Medieval Semihybrida": "medieval-data/trocr-medieval-semihybrida",
+    "Medieval Print": "medieval-data/trocr-medieval-print"
+}
+# Load image examples
+urls = [
+    'https://huggingface.co/medieval-data/trocr-medieval-base/blob/main/images/caroline-1.png'
+]
+for idx, url in enumerate(urls):
+    image = Image.open(requests.get(url, stream=True).raw)
+    image.save(f"image_{idx}.png")
+def load_model(model_name):
+    model_id = MODEL_OPTIONS[model_name]
+    processor = TrOCRProcessor.from_pretrained(model_id)
+    model = VisionEncoderDecoderModel.from_pretrained(model_id)
+    return processor, model
+def process_image(image, model_name):
+    processor, model = load_model(model_name)
+    # prepare image
+    pixel_values = processor(image, return_tensors="pt").pixel_values
+    # generate (no beam search)
+    generated_ids = model.generate(pixel_values)
+    # decode
+    generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
+    return generated_text
+title = "Interactive demo: TrOCR Model Switcher"
+description = "Demo for various TrOCR models, including Microsoft's handwritten model and several medieval models. To use it, simply upload a (single-text line) image or use one of the example images below, select a model, and click 'submit'. Results will show up in a few seconds."
+article = "<p style='text-align: center'><a href='https://arxiv.org/abs/2109.10282'>TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models</a> | <a href='https://github.com/microsoft/unilm/tree/master/trocr'>Github Repo</a></p>"
+examples = [
+    ["https://huggingface.co/medieval-data/trocr-medieval-base/blob/main/images/caroline-1.png", "Caroline"]
+]
+iface = gr.Interface(
+    fn=process_image,
+    inputs=[
+        gr.inputs.Image(type="pil"),
+        gr.inputs.Dropdown(choices=list(MODEL_OPTIONS.keys()), label="Select Model")
+    ],
+    outputs=gr.outputs.Textbox(),
+    title=title,
+    description=description,
+    article=article,
+    examples=examples
+)
+iface.launch(debug=True)