Spaces:

team-indain-image-caption
/

Hindi-image-captioning

Runtime error

App Files Files Community

seanbenhur commited on Mar 27, 2022

Commit

bd6d465

•

1 Parent(s): 46d7b13

Update app.py

Browse files

Files changed (1) hide show

app.py +28 -29

app.py CHANGED Viewed

@@ -1,45 +1,44 @@
-import torch
-import re
 import gradio as gr
-from pathlib import Path
-from transformers import GPT2Tokenizer, AutoFeatureExtractor, VisionEncoderDecoderModel
-def predict(image, max_length=64, num_beams=4):
-    image = image.convert('RGB')
-    pixel_values = feature_extractor(images=image, return_tensors="pt").pixel_values
-    pixel_values = pixel_values.to(device)
-    with torch.no_grad():
-        text = tokenizer.decode(model.generate(pixel_values.cpu())[0])
-        text = text.replace('<|endoftext|>', '').split('\n')
-    return text[0]
-model_path = "team-indain-image-caption/hindi-image-captioning"
-device = "cpu"
-# Load model.
-model = VisionEncoderDecoderModel.from_pretrained(model_path)
-model.to(device)
-print("Loaded model")
-feature_extractor = AutoFeatureExtractor.from_pretrained("google/vit-base-patch16-224-in21k")
-print("Loaded feature_extractor")
-tokenizer = GPT2Tokenizer.from_pretrained(model_path)
-print("Loaded tokenizer")
-title = "Hindi Image Captioning"
-description = ""
 input = gr.inputs.Image(label="Image to search", type = 'pil', optional=False)
 output = gr.outputs.Textbox(type="auto",label="Captions")
-article = "This HuggingFace Space presents a demo for Image captioning in Hindi built with VIT Encoder and GPT2 Decoder"
-examples = [f"./example_{i}.jpg" for i in range(1,5)]
 interface = gr.Interface(
         fn=predict,
         inputs = input,
         theme="grass",
         outputs=output,
-        examples = examples,
         title=title,
         description=article,
     )
-interface.launch()

+import torch
+import re
 import gradio as gr
+from transformers import GPT2Tokenizer, AutoFeatureExtractor, VisionEncoderDecoderModel
+encoder_checkpoint = 'google/vit-base-patch16-224'
+decoder_checkpoint = 'surajp/gpt2-hindi'
+model_checkpoint = 'team-indain-image-caption/hindi-image-captioning'
+feature_extractor = ViTFeatureExtractor.from_pretrained(encoder_checkpoint)
+tokenizer = AutoTokenizer.from_pretrained(decoder_checkpoint)
+model = VisionEncoderDecoderModel.from_pretrained(model_checkpoint).to(device)
+def predict(image,max_length=64, num_beams=4):
+  image = image.convert('RGB')
+  image = feature_extractor(image, return_tensors="pt").pixel_values.to(device)
+  clean_text = lambda x: x.replace('<|endoftext|>','').split('\n')[0]
+  caption_ids = model.generate(sample, max_length = max_length)[0]
+  print("*"*20)
+  print(caption_ids)
+  caption_text = clean_text(tokenizer.decode(caption_ids))
+  return caption_text
 input = gr.inputs.Image(label="Image to search", type = 'pil', optional=False)
 output = gr.outputs.Textbox(type="auto",label="Captions")
+article = "This HuggingFace Space presents a demo for Image captioning in Hindi built with VIT Encoder and GPT2 Decoder"
 interface = gr.Interface(
         fn=predict,
         inputs = input,
         theme="grass",
         outputs=output,
+ #       examples = examples,
         title=title,
         description=article,
     )
+interface.launch(debug=True)