Spaces:

SRDdev
/

Image-Caption

Running

File size: 1,431 Bytes

dd33bd5
 
c8081ec
dd33bd5
c8081ec
56b9e35
d52fc21
 
 
c8081ec
dd33bd5
56b9e35
c8081ec
 
b072469
c8081ec
dd33bd5
 
c8081ec
 
dd33bd5
 
 
 
947217a
dd33bd5
8bbfb69
c8081ec
df55b81
cddddab
c8081ec
cddddab
c8081ec
cddddab
c8081ec
 
 
ea5afdb
c8081ec

import torch 
import re 
import gradio as gr
from transformers import AutoTokenizer, ViTFeatureExtractor, VisionEncoderDecoderModel 

device='cpu'
encoder_checkpoint = "nlpconnect/vit-gpt2-image-captioning"
decoder_checkpoint = "nlpconnect/vit-gpt2-image-captioning"
model_checkpoint = "nlpconnect/vit-gpt2-image-captioning"
feature_extractor = ViTFeatureExtractor.from_pretrained(encoder_checkpoint)
tokenizer = AutoTokenizer.from_pretrained(decoder_checkpoint)
model = VisionEncoderDecoderModel.from_pretrained(model_checkpoint).to(device)


def predict(image,max_length=64, num_beams=3):
  image = image.convert('RGB')
  image = feature_extractor(image, return_tensors="pt").pixel_values.to(device)
  clean_text = lambda x: x.replace('<|endoftext|>','').split('\n')[0]
  caption_ids = model.generate(image, max_length = max_length)[0]
  caption_text = clean_text(tokenizer.decode(caption_ids))
  return caption_text 



input = gr.inputs.Image(label="Upload any Image", type = 'pil', optional=True)
output = gr.outputs.Textbox(type="auto",label="Captions")
examples = [f"example{i}.jpg" for i in range(1,7)]

title = "Image Captioning "
description = "Made by : shreyasdixit.tech"
interface = gr.Interface(
            
        fn=predict,
        description=description,
        inputs = input,
        theme="grass",
        outputs=output,
        examples = examples,
        title=title,
    )
interface.launch(debug=True)