Abdou
/

vit-swin-base-224-gpt2-image-captioning

vision-encoder-decoder

image-text-to-text

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Metrics Training metrics Community

vit-swin-base-224-gpt2-image-captioning

File size: 13 Bytes

154fcbd

checkpoint-*/