ddobokki
/

vision-encoder-decoder-vit-gpt2-coco-ko

vision-encoder-decoder

Inference Endpoints

Model card Files Files and versions Community

ddobokki commited on Dec 6, 2021

Commit

b632735

•

1 Parent(s): 675548f

add: README.md

Files changed (1) hide show

README.md +24 -0

README.md ADDED Viewed

	@@ -0,0 +1,24 @@

+```
+import requests
+from PIL import Image
+from transformers import (
+    VisionEncoderDecoderModel,
+    ViTFeatureExtractor,
+    PreTrainedTokenizerFast,
+)
+device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
+encoder_model_name_or_path = "ddobokki/vision-encoder-decoder-vit-gpt2-coco-ko"
+feature_extractor = ViTFeatureExtractor.from_pretrained(encoder_model_name_or_path)
+tokenizer = PreTrainedTokenizerFast.from_pretrained(encoder_model_name_or_path)
+model = VisionEncoderDecoderModel.from_pretrained(encoder_model_name_or_path)
+model.to(device)
+url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
+with Image.open(requests.get(url, stream=True).raw) as img:
+    pixel_values = feature_extractor(images=img, return_tensors="pt").pixel_values
+generated_ids = model.generate(pixel_values.to(device),num_beams=5)
+generated_text = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)
+print(generated_text)
+```