TeetouchQQ
/

ThaiFood-Image-captioning

vision-encoder-decoder

Inference Endpoints

Model card Files Files and versions Community

TeetouchQQ commited on Jul 1, 2022

Commit

a3cc822

•

1 Parent(s): 87f1936

Delete README.md

Files changed (1) hide show

README.md +0 -45

README.md DELETED Viewed

@@ -1,45 +0,0 @@
-# -*- coding: utf-8 -*-
-#! pip install transformers -q
-#! pip install gradio -q
-from PIL import Image
-from transformers import VisionEncoderDecoderModel, ViTFeatureExtractor, AutoTokenizer
-import requests
-model = VisionEncoderDecoderModel.from_pretrained("TeetouchQQ/Food-caption")
-vit_feature_extractor = ViTFeatureExtractor.from_pretrained("microsoft/swin-base-patch4-window7-224")
-tokenizer = AutoTokenizer.from_pretrained("bert-base-multilingual-cased")
-def vit2distilgpt2(img):
-  pixel_values = vit_feature_extractor(images=img, return_tensors="pt").pixel_values
-  encoder_outputs = generated_ids = model.generate(pixel_values.to('cpu'),num_beams=5)
-  generated_sentences = tokenizer.batch_decode(encoder_outputs, skip_special_tokens=True)
-  return(generated_sentences[0].split('.')[0])
-#!wget https://media.glamour.com/photos/5f171c4fd35176eaedb36823/master/w_2560%2Cc_limit/bike.jpg
-import gradio as gr
-inputs = [
-    gr.inputs.Image(type="pil", label="Original Image")
-]
-outputs = [
-    gr.outputs.Textbox(label = 'Caption')
-]
-title = "Food Captioning using Swin + Bert"
-gr.Interface(
-    vit2distilgpt2,
-    inputs,
-    outputs,
-    title=title,
-    description=description,
-    article=article,
-    theme="huggingface",
-).launch(debug=True, enable_queue=True)