ddobokki
/

vision-encoder-decoder-vit-gpt2-coco-ko

Image-Text-to-Text

vision-encoder-decoder

Inference Endpoints

Model card Files Files and versions Community

vision-encoder-decoder-vit-gpt2-coco-ko / README.md

ddobokki's picture

add: README.md

fdef93d almost 3 years ago

|

1.09 kB

	## EXAMPLE
	```python
	import requests
	from PIL import Image
	from transformers import (
	VisionEncoderDecoderModel,
	ViTFeatureExtractor,
	PreTrainedTokenizerFast,
	)

	# device setting
	device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

	# load feature extractor and tokenizer
	encoder_model_name_or_path = "ddobokki/vision-encoder-decoder-vit-gpt2-coco-ko"
	feature_extractor = ViTFeatureExtractor.from_pretrained(encoder_model_name_or_path)
	tokenizer = PreTrainedTokenizerFast.from_pretrained(encoder_model_name_or_path)

	# load model
	model = VisionEncoderDecoderModel.from_pretrained(encoder_model_name_or_path)
	model.to(device)

	# inference
	url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
	with Image.open(requests.get(url, stream=True).raw) as img:
	pixel_values = feature_extractor(images=img, return_tensors="pt").pixel_values

	generated_ids = model.generate(pixel_values.to(device),num_beams=5)
	generated_text = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)

	>> ['고양이 두마리가 소파에 누워 있다.']
	```